{SmartMoE}: Efficiently Training {Sparsely-Activated} Models through Combining Offline and Online Parallelization

Mingshu Zhai; Jiaao He; Zixuan Ma; Zan Zong; Runqing Zhang; Jidong Zhai

作者：

翟明淑、何家澳、马子轩、赞宗、张润清、翟继东，清华大学

摘要：

深层神经网络因其更强的建模能力而变得越来越大，训练它们需要消耗巨大的计算资源。越来越多的人提出并部署了稀疏激活模型，以降低培训成本，同时扩大模型规模。不幸的是，由于稀疏模型是数据敏感的，并且以前的工作几乎没有考虑过，因此以前为稠密神经网络设计的自动并行化方法很难应用于这些稀疏模型。

为了应对这些挑战，我们建议SmartMoE自动执行稀疏激活模型的分布式训练。考虑到数据敏感模型的工作量，我们在混合并行的更大空间中发现了优化机会。空间被分解为离线静态池和在线池中的选择。为了在训练之前构建一个最优池，我们引入了一种用于性能建模的数据敏感预测方法。我们的高效搜索算法实现了最佳并行策略的动态运行时选择。我们在最多64个GPU的三个平台上评估SmartMoE。与最先进的MoE模型训练系统FasterMoE相比，它在端到端训练中实现了1.88倍的加速。

翟明淑，清华大学

何嘉傲，清华大学

马子轩，清华大学

赞宗，清华大学

张润清，清华大学

翟继东，清华大学

开放存取媒体

USENIX致力于开放访问我们活动上展示的研究。活动开始后，所有人都可以免费获得论文和会议记录。活动结束后发布的任何视频、音频和/或幻灯片也免费向所有人开放。支持USENIX以及我们对开放存取的承诺。

此内容可用于：

会议与会者

BibTeX公司

@进行中{288691，
author={明淑斋、嘉禾、马子轩、赞宗、张润清、翟继东}，
title={{SmartMoE}：通过离线和在线并行相结合有效地训练{Sparely-Activated}模型}，
booktitle={2023 USENIX年度技术会议（USENIXATC 23）}，
年份={2023}，
isbn={978-1-939133-35-9}，
地址={马萨诸塞州波士顿}，
页数={961--975}，
url={https://www.usenix.org/conference/atc23/presentation/zai},
publisher＝{USENIX协会}，
月=七月
}

下载

寨PDF

SmartMoE：通过离线和在线并行相结合有效训练备件激活模型