Relaxing coherence for modern learning applications

Lee, Joo Hwan

标题：

放松连贯性用于现代学习应用

文件夹

LEE-DISSERTATION-2017.pdf （6.98 MB）

作者

Lee，Joo Hwan先生

顾问

金，海森

顾问

人

金，海森

关联的组织

组织单位

计算机学院

组织单位

计算机科学学院

收藏

论文和学位论文

永久链接

http://hdl.handle.net/1853/58203

摘要

本研究的主要目标是有效地执行现代机器学习（ML）应用程序的学习（模型训练）。最近的数据爆炸导致了数据密集型ML应用程序的出现，其关键阶段是需要大量计算的学习。学习的一个独特特征是它是迭代收敛的，其中并不总是需要保证内存的一致性，从而允许并行工作者在中间计算中使用过时的值进行计算，以放松某些读写数据依赖性。虽然多个工作人员在学习过程中多次读取和修改共享模型参数，导致工作人员之间进行多次数据通信，但由于陈旧的值容限特性，大多数数据通信是冗余的。放松这些学习应用程序的一致性有可能提供非凡的性能和能源效益，但需要从硬件和软件方面对整个系统进行创新。虽然在分布式学习中已经付出了相当大的努力来利用陈旧的值容差，但这一特性的全部性能潜力仍然没有得到有效利用，这导致现代ML应用程序在最先进的系统上执行效率低下。效率低下的主要原因是缺乏架构方面的考虑，以及对不同ML应用程序的不同过时值容差缺乏详细的理解。今天的体系结构是为了满足更传统的工作负载的需要而设计的，因此产生了很高而且往往是不必要的开销。缺乏详细的理解导致了陈旧值容差的模糊性，从而未能充分发挥该特性的性能潜力。本文针对这一挑战提出了几项创新。首先，本文提出了有界过时同步（BSSync），它是对有界过时一致性模型的硬件支持，伴随着内存层次结构中的简单逻辑层，用于减少数据同步密集型工作负载上的原子操作开销。原子操作导致的长延迟和序列化对性能有重大影响。该技术将长延迟原子操作与主计算重叠。与之前允许读取操作使用过时值的工作相比，BSSync将过时值用于写入操作，从而允许过时写入。它减少了数据在存储位置和处理位置之间移动所带来的效率低下。其次，本文提出了一种学习加速机制StaleLearn，以减少GPU学习稀疏数据时的内存发散开销。稀疏数据会导致局部性较低的内存访问出现分歧，因此在跨内存层次结构传输数据时会占用总执行时间的很大一部分。StaleLearn通过复制模型将不同内存访问的问题转化为同步问题，并通过在内存处理器（PIM）上进行异步同步来减少同步开销。陈旧的值容限可以清楚地分解GPU和PIM之间的任务，通过将PIM操作与GPU核上的主要计算重叠，可以有效地利用PIM和GPU核之间的并行性。最后，本文详细了解了不同ML应用程序的不同状态值容差。虽然放松一致性可以减少数据通信开销，但其对学习进度的复杂影响尚未得到很好的研究，从而导致领域专家和现代系统的模糊性。我们用有效学习率定义了ML训练的状态值容忍度。有效学习率可以通过内隐动量超参数、更新密度、激活函数选择、RNN细胞类型和学习率自适应来定义。这项工作的发现将开启异步学习的进一步探索，包括改进本文中的发现。

发布日期

2017-01-05

资源类型

文本

资源子类型

论文

完整项目页面

标题：

放松连贯性用于现代学习应用

文件夹

作者

作者

顾问

顾问

编辑

关联的组织

系列

收藏

补充

永久链接

摘要

赞助商

发布日期

范围

资源类型

资源子类型

权利声明

权限URI

佐治亚理工大学图书馆

标题： 放松连贯性用于现代学习应用

文件夹

作者

作者

顾问

顾问

编辑

关联的组织

系列

收藏

补充

永久链接

摘要

赞助商

发布日期

范围

资源类型

资源子类型

权利声明

权限URI

标题：

放松连贯性用于现代学习应用