句子片段 swMATH ID: 35795 软件作者: 约翰·理查森·塔库·库多 描述: 句子片段:一个简单且独立于语言的子单词标记器和去标记器,用于神经文本处理。本文描述了句子片段,这是一个独立于语言的子单词标记器和去标记器,用于基于神经的文本处理,包括神经机器翻译。它为子字单元提供了开源C++和Python实现。虽然现有的子单词分割工具假设输入是预先标记为单词序列的,但SentencePiece可以直接从原始句子训练子单词模型,这使我们可以构建一个纯粹的端到端和独立于语言的系统。我们在英日机器翻译上进行了NMT的验证实验,发现可以实现与从原始句子中直接训练子词相当的准确性。我们还比较了不同配置的子词训练和分段的性能。 主页: https://arxiv.org/abs/1808.06226 源代码: https://github.com/google/sentencepiece 相关软件: BERT(误码率);罗伯塔;张紧器2传感器;ESPnet公司;柯迪;变压器;Conformer公司;自由演讲;费尔塞克;TensorFlow公司;变压器XL;艾伯特;XLNet公司;雅典娜;PIKA公司;SPGI演讲;GigaSpeech公司;灵沃牌手表;意大利浓咖啡;PyTorch-Kaldi公司 引用于: 3文件 全部的 前5名24位作者引用 1 迈克尔·奥利 1 曼迪普·贝恩斯 1 施鲁蒂·博萨莱 1 汤姆·伯奇 1 JoséCamacho-Collados 1 奥努尔·塞勒比 1 维什拉夫·乔杜里 1 谢尔盖·埃杜诺夫 1 艾哈迈德·埃尔·基什基 1 安吉拉·范 1 纳曼·戈亚尔 1 悉达哈·戈亚尔 1 阿利皮奥·马里奥·豪尔赫 1 阿曼德·茹林 1 鲍里斯拉夫·科兹洛夫斯基 1 维塔利·利普钦斯基 1 丹尼尔·卢雷罗 1 马志毅 1 弗拉迪斯拉夫·莫辛 1 伊戈尔·萨门科 1 霍尔格·施温克 1 阿列克谢·蒂霍诺夫(Alexey A.Tikhonov)。 1 纪尧姆·温泽克 1 Yamshchikov,Ivan P。 2篇连载文章中引用 2 人工智能 1 机器学习研究杂志(JMLR) 在1个字段中引用 三 计算机科学(68至XX) 按年份列出的引文