英语
乔什蒂纳
德国
埃斯帕尼奥
法国
戈伊德利格
拉脱维亚苏
马扎尔语
荷兰语
葡萄牙语
葡萄牙人做巴西
索米牌手表
登录
电子邮件地址
密码
登录
或
使用Shibboleth登录
新用户?
单击此处注册。
你忘记密码了吗?
浏览
关于
联系我们
统计
提交
英语
乔什蒂纳
德国
埃斯帕尼奥
法国
戈伊德利格
拉脱维亚苏
马扎尔语
荷兰语
葡萄牙语
葡萄牙人做巴西
索米牌手表
登录
电子邮件地址
密码
登录
或
使用Shibboleth登录
新用户?
单击此处注册。
你忘记密码了吗?
主页
学院研究和奖学金
论文和学位论文
放松现代学习应用程序的一致性
标题:
放松连贯性用于现代学习应用
文件夹
LEE-DISSERTATION-2017.pdf
(6.98 MB)
作者
Lee,Joo Hwan先生
作者
顾问
金,海森
顾问
人
金,海森
编辑
关联的组织
组织单位
计算机学院
组织单位
计算机科学学院
系列
收藏
论文和学位论文
补充
永久链接
http://hdl.handle.net/1853/58203
摘要
本研究的主要目标是有效地执行现代机器学习(ML)应用程序的学习(模型训练)。
最近的数据爆炸导致了数据密集型ML应用程序的出现,其关键阶段是需要大量计算的学习。
学习的一个独特特征是它是迭代收敛的,其中并不总是需要保证内存的一致性,从而允许并行工作者在中间计算中使用过时的值进行计算,以放松某些读写数据依赖性。
虽然多个工作人员在学习过程中多次读取和修改共享模型参数,导致工作人员之间进行多次数据通信,但由于陈旧的值容限特性,大多数数据通信是冗余的。
放松这些学习应用程序的一致性有可能提供非凡的性能和能源效益,但需要从硬件和软件方面对整个系统进行创新。
虽然在分布式学习中已经付出了相当大的努力来利用陈旧的值容差,但这一特性的全部性能潜力仍然没有得到有效利用,这导致现代ML应用程序在最先进的系统上执行效率低下。
效率低下的主要原因是缺乏架构方面的考虑,以及对不同ML应用程序的不同过时值容差缺乏详细的理解。
今天的体系结构是为了满足更传统的工作负载的需要而设计的,因此产生了很高而且往往是不必要的开销。
缺乏详细的理解导致了陈旧值容差的模糊性,从而未能充分发挥该特性的性能潜力。
本文针对这一挑战提出了几项创新。
首先,本文提出了有界过时同步(BSSync),它是对有界过时一致性模型的硬件支持,伴随着内存层次结构中的简单逻辑层,用于减少数据同步密集型工作负载上的原子操作开销。
原子操作导致的长延迟和序列化对性能有重大影响。
该技术将长延迟原子操作与主计算重叠。
与之前允许读取操作使用过时值的工作相比,BSSync将过时值用于写入操作,从而允许过时写入。
它减少了数据在存储位置和处理位置之间移动所带来的效率低下。
其次,本文提出了一种学习加速机制StaleLearn,以减少GPU学习稀疏数据时的内存发散开销。
稀疏数据会导致局部性较低的内存访问出现分歧,因此在跨内存层次结构传输数据时会占用总执行时间的很大一部分。
StaleLearn通过复制模型将不同内存访问的问题转化为同步问题,并通过在内存处理器(PIM)上进行异步同步来减少同步开销。
陈旧的值容限可以清楚地分解GPU和PIM之间的任务,通过将PIM操作与GPU核上的主要计算重叠,可以有效地利用PIM和GPU核之间的并行性。
最后,本文详细了解了不同ML应用程序的不同状态值容差。
虽然放松一致性可以减少数据通信开销,但其对学习进度的复杂影响尚未得到很好的研究,从而导致领域专家和现代系统的模糊性。
我们用有效学习率定义了ML训练的状态值容忍度。
有效学习率可以通过内隐动量超参数、更新密度、激活函数选择、RNN细胞类型和学习率自适应来定义。
这项工作的发现将开启异步学习的进一步探索,包括改进本文中的发现。
赞助商
发布日期
2017-01-05
范围
资源类型
文本
资源子类型
论文
权利声明
权限URI
完整项目页面