×

CodeNet公司

swMATH ID: 30730
软件作者: 桑哈米特拉·杜塔(Sanghamitra Dutta)、白子谦(Ziqian Bai)、谢孟洛(Tze Meng Low)、普基特·格罗弗(Pulkit Grover)
描述: CodeNet:在存在软错误的情况下训练大规模神经网络。这项工作提出了第一种策略,使神经网络的分布式训练能够适应计算错误,尽管冯·诺依曼于1956年首次提出了这个问题,但这个问题仍未解决。他还推测,人脑的效率和可靠性是通过允许低功耗但容易出错的组件具有容错冗余来实现的。令人惊讶的是,即使大规模人工神经网络正在越来越低成本和不可靠的处理单元上进行训练,这个问题仍然存在。我们受编码理论启发的策略“CodeNet”解决了这个问题,它解决了可靠计算科学中的三个挑战:(i)通过对每一层分别编码,为容错神经网络训练提供第一种策略;(ii)通过避免在每次迭代后重新编码更新的参数矩阵,降低编码(编码/错误检测/解码)的开销。(iii)提供完全分散的实现,无中心节点(单点故障),允许所有主要计算步骤容易出错。我们从理论上证明CodeNet比复制具有更高的容错性,我们利用复制来加快计算时间。同时,CodeNet需要比复制更低的冗余,并且在伸缩性方面需要相等的计算和通信成本。我们首先演示了CodeNet在考虑检查点时在减少复制的预期计算时间方面的优势。我们的实验表明,与复制和未编码策略相比,CodeNet实现了最佳的准确性-运行时折衷。CodeNet是朝着生物学上合理的神经网络训练迈出的重要一步,它可能是提高数量级效率的关键。
主页: https://arxiv.org/abs/1903.01042
相关软件: 一半;B浮子16;放射性同位素当量;github;朱莉娅;advanpix公司;SLEEF公司;MC工具箱;国际实验室;MPFR公司;Matlab公司
引用于: 1文件

在1个字段中引用

1 数值分析(65-XX)

按年份列出的引文