×

代码BERT

swMATH ID: 36366
软件作者: 冯章寅、郭大雅、唐杜玉、段楠、冯晓成、龚铭、寿林军、秦冰、刘婷、蒋大新、周明
描述: CodeBERT:编程和自然语言的预训练模型。我们提出了CodeBERT,一种用于编程语言(PL)和自然语言(NL)的双模预训练模型。CodeBERT学习支持自然语言代码搜索、代码文档生成等下游NL-PL应用程序的通用表示法。我们使用基于Transformer的神经体系结构开发CodeBERT,并使用混合目标函数对其进行训练,该函数包含替换标记检测的预训练任务,这是为了检测从发电机中取样的合理替代品。这使我们能够利用NL-PL对的双峰数据和单峰数据,前者为模型训练提供输入标记,而后者有助于学习更好的生成器。我们通过微调模型参数,在两个NL-PL应用程序上评估CodeBERT。结果表明,CodeBERT在自然语言代码搜索和代码文档生成任务上都达到了最先进的性能。此外,为了研究在CodeBERT中学习到的知识类型,我们构建了一个用于NL-PL探测的数据集,并在预训练模型的参数固定的零快照设置中进行评估。结果表明,CodeBERT在NL-PL探测方面的性能优于以前的预训练模型。
主页: https://arxiv.org/abs/2002.08155
源代码:  https://github.com/microsoft/CodeBERT
依赖项: 蟒蛇
相关软件: BERT(误码率);罗伯塔;变压器;胶水;设计;代码搜索网;PyMT5型;代码2vec;代码XGLUE;蟒蛇;GNMT公司;艾伯特;爪哇岛;图形代码BERT;MISIM公司;StaQC公司;CoCoSUM公司;Bugram(错误);皮提亚;代码BLEU
引用于: 1出版物

2位作者引用

1 李明
1 马毅凡

连载1篇

1 机器学习

在1个字段中引用

1 计算机科学(68至XX)

按年份列出的引文