摘要
[1]. , “ 通过反向传播错误学习表征 ,” 自然 ,卷。 323 ,没有。 6088 ,第页。 533 , 1986 . 谷歌学者 交叉引用 [2]. , “ 神经网络中的随机梯度学习 ,” 神经网络研究进展 ,卷。 91 ,没有。 8 ,第页。 12 , 1991. 谷歌学者 [3]. , “ 霍格沃德!: 一种并行化随机梯度下降的无锁方法 ,“in 神经信息处理系统研究进展 2011年,pp。 693 – 701 . 谷歌学者 [4]. , “ 驯服野外:霍格沃德的统一分析- 样式算法 ,“in 神经信息处理系统研究进展 ,2015年,pp。 2674 – 2682 . 谷歌学者 [5]. , “ 用低精度乘法训练深度神经网络 ,“arXiv预打印arXiv: 1412.7024 , 2014 . 谷歌学者 [6]. , “ 有限数值精度的深度学习 ,“in 机器学习国际会议 2015年,pp。 1737 – 1746 . 谷歌学者 [7]. , “ 深度压缩:使用修剪、训练量化和哈夫曼编码压缩深度神经网络 ,“arXiv预打印arXiv: 1510.00149 , 2015 . 谷歌学者 [8]. , “ 理解和优化异步低精度随机梯度下降 ,“in 计算机体系结构(ISCA),2017 ACM/IEEE第44届年度国际研讨会 IEEE,2017年,pp。 561 – 574 . 谷歌学者 [9]. , “ 近似:迭代方法的近似计算框架 ,“in 第51届设计自动化年会会议记录 美国机械工程师协会,2014年,pp。 1 – 6 . 谷歌学者 [10]. , “ 梯度下降优化算法综述 ,“arXiv预打印arXiv: 1609.04747 , 2016 . 谷歌学者 [11]. , “ 玩Atari游戏进行深度强化学习 ,“arXiv预打印arXiv: 1312.5602 , 2013 . 谷歌学者 [12]. Xilinx公司( 2017 ) Xilinx Kintex UltraScale FPGA KCU1500加速开发工具包 . https://www.xilinx.com/products/boards-and-kits/dk-u1-kcu1500-g.html 谷歌学者 [13]. , “ 基于FPGA的深度卷积神经网络加速器优化设计 ,“in 2015年ACM/SIGDA现场可编程门阵列国际研讨会会议记录 ACM,2015年,pp。 161 – 170 . 谷歌学者 数字图书馆 [14]. 英伟达。 ( 2018 ) cuDNN开发人员指南 . https://docs.nvidia.com/deeplearning/sdk/cudnn-developer-guide/index.html 谷歌学者 [15]. , “ FPGA加速密集线性机器学习:一种精确收敛权衡 ,“in 2017年IEEE第25届现场可编程定制计算机(FCCM)年度国际研讨会 IEEE,2017年,pp。 160 – 167 . 谷歌学者 [16]. , “ DoReFa-Net:训练具有低比特宽梯度的低比特宽卷积神经网络 ,“arXiv预打印arXiv: 1606.06160 , 2016 . 谷歌学者 [17]. , “ 一种精确的二元卷积神经网络 ,“in 神经信息处理系统研究进展 2017年,pp。 345 – 353 . 谷歌学者 [18]. , 强化学习:简介 . 麻省理工学院出版社剑桥 , 1998 ,卷。 1 . 谷歌学者 数字图书馆 [19]. , “ 强化学习:教程调查和最新进展 ,” 信息计算杂志 ,卷。 21 ,没有。 2 ,第页。 178 – 192 , 2009 . 谷歌学者 数字图书馆 [20]. , “ 构建和理解自适应系统:工厂自动化和大脑研究的统计/数值方法 ,” IEEE系统、人与控制论汇刊 ,卷。 17 ,没有。 1 ,第页。 7 – 20 ,1月 1987 . 谷歌学者 数字图书馆 [21]. , “ 可解决学习控制难题的类神经自适应元件 ,” IEEE系统、人与控制论汇刊 ,卷。 SMC-13公司 ,没有。 5 ,第页。 834 – 846 ,9月 1983 . 谷歌学者 交叉引用
建议
使用英特尔®;FPGA探索低数值精度深度学习推断:(仅摘要) FPGA’18:2018年ACM/SIGDA现场可编程门阵列国际研讨会论文集 卷积神经网络已被证明在量化到8位时保持合理的分类精度,然而,量化到亚8位的激活和权重可能导致分类精度下降到可接受的水平以下。。。 使用CCC框架的SGD行为合成:一种简单的XOR求解MLP 摘要 行为合成通过生成为FPGA和SoC平台或定制硅器件(如ASIC)配置的特定于任务的硬件,实现设计过程的自动化。 相关商业工具的流程可以带来显著的。。。 SGD:隐式正则化、批量大小和多阶段的作用 NIPS’21:第35届神经信息处理系统国际会议论文集 对于大型过参数化模型的学习,多点、小范围、随机梯度下降(SGD)已成为首选方法。 解释SGD为什么在实践中运行良好的一个流行理论是,该算法具有隐式。。。