基于ARMv8架构的面向机器翻译的单精度浮点通用矩阵乘法优化

doi:10.11772/j.issn.1001-9081.2018122608

计算机应用››2019,第39卷››问题（6）: 1557-1562.内政部：10.11772/j.issn.1001-9081.2018122608

• 2018全国高性能计算学术年会（HPC中国2018）下一篇

基于ARMv8型架构的面向机器翻译的单精度浮点通用矩阵乘法优化

龚鸣清^1,2,3,叶煌¹,张鉴¹,卢兴敬^三,陈伟^三

1中国科学院计算机网络信息中心, 北京 100190;
2中国科学院大学, 北京 100049;
三。北京搜狗科技发展有限公司, 北京 100084

收稿日期:2018-12-12 修回日期:2019-02-28 发布日期:2019-06-17 出版日期:2019-06-10
通讯作者:张鉴
作者简介:龚鸣清(1994-),男,湖北黄冈人,硕士研究生,主要研究方向:高性能计算、机器学习;叶煌(1979-),男,江西铜鼓人,副研究员,博士,主要研究方向:高性能计算;张鉴(1972-),男,北京人,研究员,博士,博士生导师,共因失效会员,主要研究方向:高性能计算、科学计算、科学计算可视化;卢兴敬(1983-),男,山东临沂人,博士,共因失效会员,主要研究方向:高性能计算、深度学习、并行编程、编译技术;陈伟(1984-),男,内蒙古呼和浩特人,博士,共因失效会员,主要研究方向:人机交互、机器翻译、深度学习。
基金资助:
国家重点研发计划项目（2016YFB02011002017YFB0202803）国家自然科学基金资助项目（11871454，91630204，61531166003）；中国科学院战略性先导科技专项（乙）（XDB22020102）中国科学院信息化专项（XXH13506-204）

基于ARMv8体系结构的机器翻译单精度浮点通用矩阵乘法优化

龚明清^1,2,3,叶黄¹,张健¹,卢兴静^三,陈伟^三

1.中国科学院计算机网络信息中心，北京100190；
2.中国科学院大学，北京100049；
3.北京搜狗科技发展有限公司，中国北京100084

收到：2018-12-12 修订过的：2019-02-28 在线：2019-06-17 出版：2019-06-10
支持单位：
这项工作得到了国家重点研发计划（2016YFB0201100、2017YFB0202803）、国家自然科学基金（11871454、91630204、61531166003）、中国科学院战略优先研究计划（B）（XDB22020102）、，中国科学院电子科学基金项目（XXH13506-204）。

摘要/摘要

摘要：针对使用ARM公司处理器的移动智能设备执行神经网络推理计算效率不高的问题，提出了一套基于ARMv8型架构的单精度浮点通用矩阵乘法（SGEMM）算法优化方案。首先，确定ARMv8型架构的处理器执行SGEMM公司算法的计算效率受限于向量化计算单元使用方案、指令流水线和缓存未命中的发生概率；其次，针对三点导致计算效率受限的原因实现向量指令内联汇编、数据重排和数据预取三条优化技术；最后，根据语音方向的神经网络中常见的三种矩阵模式设计测试实验，实验中使用3399兰特硬件平台运行程序。实验结果表示：方阵模式下单核计算速度为10.23 GFLOPS达到实测浮点峰值的78.2%；在细长矩阵模式下单核计算速度为6.35 GFLOPS达到实测浮点峰值的48.1%；在连续小矩阵模式下单核计算速度为2.53 GFLOPS达到实测浮点峰值19.2%。将优化后的SGEMM公司算法部署到语音识别神经网络程序中，程序的实际语音识别速度取得了显著提高。

关键词: ARMv8，单指令多数据流计算, 基础线性代数子程序库, 高性能计算

摘要：针对移动智能设备使用ARM处理器执行神经网络推理计算效率低的问题，提出了一套基于ARMv8结构的单精度浮点通用矩阵乘法（SGEMM）算法优化方案。首先，确定了基于ARMv8体系结构的处理器执行SGEMM算法的计算效率受到矢量化计算单元使用方案、指令管道和缓存丢失发生概率的限制。其次，三种优化技术：矢量指令内联汇编、，由于计算效率有限的三个原因，实现了数据重排和数据预取。最后，基于语音方向神经网络中常用的三种矩阵模式设计了测试实验，并在RK3399硬件平台上运行了程序。实验结果表明，在平方矩阵模式下，单核计算速度为10.23 GFLOPS，达到测量浮点峰值的78.2%；细长矩阵模式下的单核计算速度为6.35 GFLOPS，达到测量浮点峰值的48.1%；在连续小矩阵模式下，单核计算速度为2.53 GFLOPS，达到测量浮点峰值的19.2%。将优化后的SGEMM算法部署到语音识别神经网络程序中，大大提高了程序的实际语音识别速度。

关键词： ARMv8，单指令多数据，基本线性代数子程序，高性能计算

中图分类号:

TP332型

龚鸣清, 叶煌, 张鉴, 卢兴敬, 陈伟. 基于ARMv8型架构的面向机器翻译的单精度浮点通用矩阵乘法优化[J] ●●●●。计算机应用, 2019, 39(6): 1557-1562.

龚明清、叶黄、张健、卢兴京、陈伟。基于ARMv8结构的机器翻译单精度浮点通用矩阵乘法优化[J]。计算机应用杂志，2019，39（6）：1557-1562。

参考文献

[1] AMD公司。AMD核心数学库（ACML）[EB/OL]。[2018-09-12]. http://developer.amd.com/acml.jsp。
[2] FILIPONE S.IBM并行工程和科学子程序库[C]/1995年应用并行计算国际研讨会论文集，LNCS 1041。柏林：施普林格，1995年：99-206。
[3] QUINTANA-ORTI E S，IGUAL F D，CASTILLO M，et al.图形处理器三级CUBLAS的评估与调整[C]//2008 IEEE并行与分布式处理国际研讨会论文集。新泽西州皮斯卡塔韦：IEEE，2008:1-8。
[4] GOTO K，van der GEIJN R A.高性能矩阵乘法剖析[J]。ACM数学软件汇刊，2008，34（3）：第12条。
[5] 蒋孟奇,张云泉,宋刚,等.哥托布拉斯一般矩阵乘法高效实现机制的研究[J] .工程，2008,34（7）：84-86103.（姜明清，张义清，宋刚，等.GOTOBLAS通用矩阵-矩阵乘法的高性能实现机制研究[J].计算机工程，2008，34（7
[6] 张先轶,王茜,张云泉.OpenBLAS:3A CPU上的高性能BLAS库[J].软件学报，2011，22（增刊2）：208-216
[7] 陈斌，王磊，吴强，等.基于软硬件边界的可扩展优化深度学习平台设计探索[J]。IEEE嵌入式系统快报，2018，10（4）：107-110。
[8] LIN I，JEFF B，RICKARD I.性能和能效ARM平台-硬件和软件观点[C]//2016年超大规模集成电路设计、自动化和测试国际研讨会论文集。新泽西州皮斯卡塔韦：ⅡEEE，2016:1-5。
[9] VASWANI A，SHAZEER N，PARMAR N，et al.关注是你所需要的一切[C]//第31届神经信息处理系统会议记录。佛罗里达州北迈阿密海滩：Curran Associates Inc.，2017:5998-6008。
[10] 王峰，姜浩，邹克，等。64位ARMv8多核处理器高效DGEMM的设计与实现[C]//第44届国际并行处理会议论文集。新泽西州皮斯卡塔韦：IEEE，2015:200-209。
[11] RUSITORU R.ARMv8使用分数阶乘探索高性能计算的微架构设计空间[C]//第六届高性能计算系统性能建模、基准测试和仿真国际研讨会论文集。纽约：ACM，2015：第8条。
[12] FLUR S，GRAY K E，PULTE C等。ARMv8架构建模，操作：并发和ISA[C]//第43届ACM SIGPLAN编程语言原理研讨会论文集。纽约：ACM，2016:608-621。
[13] 刘Z，JARVINEN K，LIU W，等.基于ARMv8的多精度乘法[C]//IEEE第24届计算机算术研讨会论文集。新泽西州皮斯卡塔韦：IEEE，2017:10-17。
[14] XU X，CLARKE C T，JONES S R。嵌入式ARM/ThUMB处理器的高性能代码压缩体系结构[C]//第一届计算前沿会议论文集。纽约：ACM，2004:451-456。
[15] 姜浩,杜琦,郭敏,等.面向ARMv864型位多核处理器的QGEMM®[J].《报告》，2017,40（9）：2018-2029

基于ARMv8型架构的面向机器翻译的单精度浮点通用矩阵乘法优化

基于ARMv8体系结构的机器翻译单精度浮点通用矩阵乘法优化

PDF格式

可视化

摘要/摘要

引用本文

使用本文

参考文献

相关文章12

编辑推荐

韵律学

[1]	赵士操, 肖永浩, 段博文, 李于锋.HSWAP：适用于高性能计算环境的数值模拟工作流管理平台[J] ●●●●。计算机应用, 2019, 39(6): 1569-1576.
[2]	徐佳庆, 万文, 蔡东京, 唐付桥, 何杰, 张磊.高维胖树系统中确定性路由容错策略实现[J] ●●●●。计算机应用, 2018, 38(5): 1393-1398.
[3]	王鹏, 周岩.面向高性能应用的MPI标准[J] ●●●●。计算机应用, 2018, 38(12): 3496-3499.
[4]	高剑, 于康, 卿鹏, 尉红梅.面向高性能计算的分布式故障定位框架[J] ●●●●。计算机应用, 2018, 38(1): 44-49.
[5]	吕宏武, 谷雷, 王慧强, 邹世辰, 冯光升.分层检查点的近似最优周期计算模型[J] ●●●●。计算机应用, 2017, 37(1): 103-107.
[6]	熊壬浩, 刘羽.A类^*算法的改进及并行化[J] ●●●●。计算机应用, 2015, 35(7): 1843-1848.
[7]	李春艳张学杰.基于高性能计算的开源云平台性能评估[J] ●●●●。计算机应用, 2013, 33(12): 3580-3585.
[8]	姚信安胡世平宋飞.高性能计算机总线变换器输出阻抗优化设计[J] ●●●●。计算机应用, 2012, 32(06): 1774-1777.
[9]	姚信安宋飞胡世平.高性能计算机系统电源设计[J] ●●●●。计算机应用, 2012, 32(04): 1176-1179.
[10]	曹荣强曹宗雁迟学斌肖海力.基于远程管理的高性能计算网格二次开发模型[J] ●●●●。计算机应用, 2010, 30(9): 2526-2529.
[11]	潘卫陈燎原李永革张锦华潘莉夏凡.基于集群技术构建聚变研究高性能计算系统[J] ●●●●。计算机应用, 2009, 29(08): 2132-2135.
[12]	张骏陈良育曾振柄.一种混合高性能计算机代数环境模型[J] ●●●●。计算机应用, 2007, 27(11): 2834-2837.