标题:
放松连贯性用于现代学习应用

缩略图
作者
Lee,Joo Hwan先生
作者
顾问
金,海森
顾问
编辑
关联的组织
组织单位
组织单位
系列
补充
摘要
本研究的主要目标是有效地执行现代机器学习(ML)应用程序的学习(模型训练)。最近的数据爆炸导致了数据密集型ML应用程序的出现,其关键阶段是需要大量计算的学习。学习的一个独特特征是它是迭代收敛的,其中并不总是需要保证内存的一致性,从而允许并行工作者在中间计算中使用过时的值进行计算,以放松某些读写数据依赖性。虽然多个工作人员在学习过程中多次读取和修改共享模型参数,导致工作人员之间进行多次数据通信,但由于陈旧的值容限特性,大多数数据通信是冗余的。放松这些学习应用程序的一致性有可能提供非凡的性能和能源效益,但需要从硬件和软件方面对整个系统进行创新。虽然在分布式学习中已经付出了相当大的努力来利用陈旧的值容差,但这一特性的全部性能潜力仍然没有得到有效利用,这导致现代ML应用程序在最先进的系统上执行效率低下。效率低下的主要原因是缺乏架构方面的考虑,以及对不同ML应用程序的不同过时值容差缺乏详细的理解。今天的体系结构是为了满足更传统的工作负载的需要而设计的,因此产生了很高而且往往是不必要的开销。缺乏详细的理解导致了陈旧值容差的模糊性,从而未能充分发挥该特性的性能潜力。本文针对这一挑战提出了几项创新。首先,本文提出了有界过时同步(BSSync),它是对有界过时一致性模型的硬件支持,伴随着内存层次结构中的简单逻辑层,用于减少数据同步密集型工作负载上的原子操作开销。原子操作导致的长延迟和序列化对性能有重大影响。该技术将长延迟原子操作与主计算重叠。与之前允许读取操作使用过时值的工作相比,BSSync将过时值用于写入操作,从而允许过时写入。它减少了数据在存储位置和处理位置之间移动所带来的效率低下。其次,本文提出了一种学习加速机制StaleLearn,以减少GPU学习稀疏数据时的内存发散开销。稀疏数据会导致局部性较低的内存访问出现分歧,因此在跨内存层次结构传输数据时会占用总执行时间的很大一部分。StaleLearn通过复制模型将不同内存访问的问题转化为同步问题,并通过在内存处理器(PIM)上进行异步同步来减少同步开销。陈旧的值容限可以清楚地分解GPU和PIM之间的任务,通过将PIM操作与GPU核上的主要计算重叠,可以有效地利用PIM和GPU核之间的并行性。最后,本文详细了解了不同ML应用程序的不同状态值容差。虽然放松一致性可以减少数据通信开销,但其对学习进度的复杂影响尚未得到很好的研究,从而导致领域专家和现代系统的模糊性。我们用有效学习率定义了ML训练的状态值容忍度。有效学习率可以通过内隐动量超参数、更新密度、激活函数选择、RNN细胞类型和学习率自适应来定义。这项工作的发现将开启异步学习的进一步探索,包括改进本文中的发现。
赞助商
发布日期
2017-01-05
范围
资源类型
文本
资源子类型
论文
权利声明
权限URI