改革者 swMATH ID: 45339 软件作者: Nikita Kitaev,Łukasz Kaiser,Anselm Levskaya 描述: 改革者:高效的变压器。大型变压器模型通常会在许多任务中获得最先进的结果,但训练这些模型可能成本高昂,尤其是在长序列中。我们介绍了两种提高变压器效率的技术。首先,我们用一种使用位置敏感散列的方法来代替网络产品关注,将其复杂性从O(L2)更改为O(LlogL),其中L是序列的长度。此外,我们使用可逆残差层代替标准残差,它允许在训练过程中只存储激活一次,而不是N次,其中N是层数。由此产生的模型Reformer的性能与Transformer模型相当,同时在长序列上具有更高的内存效率和更快的速度。 主页: https://arxiv.org/abs/2001.04451 源代码: https://github.com/lucidrains/reformer-pytorch 相关软件: 张紧器2传感器;GPT-3级;Linformer公司;合成器;朗福雷特;FMM成型机;Nyströmformer公司;ViT公司;伯特;音乐变压器;神经CDE;小队;阳极;火炬差异;DARPA时间;变压器-XL;PixelCNN(像素有线电视新闻网)++;火炬;github;RMS公司 引用于: 3文件 全部的 前5名14位作者引用 1 马尔科·贝托尼亚 1 卡萨诺瓦·马特奥,C。 1 戴维·卡西利亚斯·佩雷斯 1 卢卡斯·库亚德拉 1 哈维尔·德尔塞 1 乔治·弗兰基尼 1 阮晋美 1 斯坦利·乔尔·奥斯尔 1 桩,M。 1 马尔科·普拉托 1 Salcedo-Sanz,桑乔 1 卡梅洛·斯克里巴诺 1 王宝 1 夏和迪 3篇连载文章中引用 1 物理报告 1 科学计算杂志 1 数学科学研究 全部的 前5名在6个字段中引用 三 计算机科学(68-XX) 1 统计学(62-XX) 1 量子理论(81-XX) 1 地球物理学(86-XX) 1 博弈论、经济学、金融和其他社会和行为科学(91-XX) 1 生物学和其他自然科学(92-XX) 按年份列出的引文