×

PyTorrent公司

swMATH ID: 40107
软件作者: Mehdi Bahrami、N.C.Shrikanth、Shade Ruangwan、Lei Liu、Yuji Mizobuchi、Masahiro Fukuyori、Wei-Peng Chen、Kazuki Munakata、Tim Menzies
描述: PyTorrent:用于大型语言模型的Python库语料库。语义和自然语言资源的大规模集合对于利用活跃的软件工程研究领域(如代码重用和代码可理解性)至关重要。现有的机器学习模型从开源存储库(如GitHub项目)和论坛讨论(如这个http URL)中获取数据,而在这个展示中,我们后退了一步,编排了一个名为PyTorrent的语料库,其中包含来自PyPI和Anaconda环境的218814个Python包库。这是因为早期的研究表明,许多代码是冗余的,来自这些环境的Python包质量更好,并且有很好的文档记录。PyTorrent使用户(如数据科学家、学生等)能够直接构建现成的机器学习模型,而无需在大型基础设施上花费数月的时间。数据集、模式和预训练的语言模型可在以下位置获得:https://github.com/fla-sil/PyTorrent
主页: https://arxiv.org/abs/2110.01710
源代码:  https://github.com/fla-sil/PyTorrent
依赖项: 蟒蛇
关键词: 软件工程;arXiv_cs。东南方;PyTorrent公司;蟒蛇;大规模语言模型;代码重用;代码可理解性;Python包库;PyPI公司;水蟒
相关软件: github;PyMT5型;毒物;水蟒;熊猫;变压器;PyTorch公司;SemFix公司;刮擦;BERT(误码率);UCI-毫升;果汁;PyPI公司;迪蒂尔伯特;DGMS公司;代码XGLUE;代码BERT;代码搜索网;蟒蛇
引用于: 0个文档

标准条款

1出版物描述软件 年份
PyTorrent:用于大规模语言模型的Python库语料库arXiv公司
Mehdi Bahrami、N.C.Shrikanth、Shade Ruangwan、Lei Liu、Yuji Mizobuchi、Masahiro Fukuyori、Wei-Peng Chen、Kazuki Munakata、Tim Menzies
2021