代码网

软码网络训练中的大尺度误差。这项工作提出了第一个策略,使神经网络的分布式训练对计算错误具有弹性,尽管von Neumann在1956年首次提出这个问题,但这个问题仍然没有得到解决。他还推测,人脑的效率和可靠性是通过允许低功耗但容易出错的组件获得的,这些组件具有冗余的容错能力。令人惊讶的是,尽管大规模的人工神经网络正被训练在成本越来越低、越来越不可靠的处理单元上,但这个问题仍然存在。我们的编码理论启发的策略“CodeNet”通过解决可靠计算科学中的三个挑战来解决这个问题:(i)通过分别编码每个层,为容错神经网络训练提供第一种策略;(ii)通过避免在每次迭代后从头开始对更新的参数矩阵重新编码的需要,保持编码(编码/错误检测/解码)的开销较低。(iii)提供一个完全分散的实现,没有中心节点(这是一个单点故障),允许所有主要计算步骤容易出错。我们从理论上证明了CodeNet比复制具有更高的容错性,我们利用它来加快计算时间。同时,CodeNet需要比复制更低的冗余度,并且在伸缩性方面需要相等的计算和通信成本。我们首先演示了CodeNet在考虑检查点时减少复制时的预期计算时间的好处。我们的实验表明,与复制和未编码策略相比,CodeNet实现了最佳的运行时精度折衷。CodeNet是朝着生物上合理的神经网络训练迈出的重要一步,它可能持有数量级效率提高的关键。


zbMATH中的参考文献(参考 1文章 参考)

显示结果1/1。
按年份排序(引用)

  1. Higham,Nicholas J.;Pranesh,Srikara:模拟低精度浮点运算(2019)