句子:使用字节对编码和Unigram建模的文本标记
无监督文本标记器允许执行字节对编码和单字报建模。包装“sentencepiece”库<https://github.com/google/sentencepiece>它提供了一个独立于语言的标记器,用于将文本拆分为单词和较小的子单词单位。这些技术在Taku Kudo和John Richardson(2018)的论文“句子片段:神经文本处理的一个简单且独立于语言的子单词标记器和反标记器”中进行了解释<doi:10.18653/v1/D18-2012>.还可以直接访问使用“word2vec”在维基百科上训练的预处理字节对编码模型和子字嵌入,如本杰明·海因泽林(Benjamin Heinzerling)和迈克尔·斯特鲁贝(Michael Strube)(2018)所述“BPEmb:275种语言中无标记化预训练子词嵌入”<http://www.lrec-conf.org/proceedings/lrec2018/pdf/1049.pdf>.
版本: |
0.2.3 |
取决于: |
R(≥2.10) |
进口: |
卢比(≥0.11.5),统计 |
链接到: |
卢比 |
建议: |
标记器.bpe,单词2vec(≥ 0.2.0) |
出版: |
2022-11-13 |
作者: |
Jan Wijffels[aut,cre,cph](R包装器),BNOSAC[cph](R包装器),谷歌公司[ctb,cph](文件位于src/sentencepiece/src(Apache许可证,2.0版),Abseil作者[ctb,cph](文件位于src/third_party/absl(Apache许可证,2.0版),谷歌公司[ctb,cph](文件位于src/third_party/protobuf-lite(BSD-3许可证),Kenton Varda(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:coded_stream.cc,扩展名_set.cc,生成的消息实用程序.cc,生成的消息应用程序.cc,消息站点.cc、重复字段.cc、线格式lite.cc、,zero_copy_stream.cc、zero_compy_stream_impl_lite.cc、,google/protobuf/extension_set.h,谷歌/protobuf/generated_message_util.h,google/protobuf/wire_format_lite.h,谷歌/protobuf/wire_format_lite_inl.h,google/protobuf/message_lite.h、google/prodobuf/repeated_field.h、,google/protobuf/io/codedstream.h,google/protobuf/io/zero_copy_stream_impl_lite.h,google/protobuf/io/zerocopy_stream.h,google/protobuf/stubs/common.h、google/prodobuf/stubs/hash.h、,google/protobuf/stobs/once.h,google/protobuf/stobs/once.h.org(BSD-3许可证),Sanjay Ghemawat(谷歌公司)[ctb,cph](文件设计网址:src/third_party/protobuf-lite:coded_stream.cc,扩展名_set.cc,生成的消息实用程序.cc,生成的消息应用程序.cc,消息站点.cc、重复字段.cc、线格式列表.cc、,zero_copy_stream.cc、zero_compy_stream_impl_lite.cc、,google/protobuf/extension_set.h,谷歌/protobuf/generated_message_util.h,google/protobuf/wire_format_lite.h,谷歌/protobuf/wire_format_lite_inl.h,google/protobuf/message_lite.h、google/prodobuf/repeated_field.h、,google/protobuf/io/codedstream.h,google/protobuf/io/zero_copy_stream_impl_lite.h,google/protobuf/io/zero_copy_stream.h(BSD-3许可证)),Jeff Dean(谷歌公司)[ctb,cph](文件设计网址:src/third_party/protobuf-lite:coded_stream.cc,扩展名_set.cc,generated_message_util.cc、generated_message_util.cc,消息站点.cc、重复字段.cc、线格式列表.cc、,zero_copy_stream.cc、zero_compy_stream_impl_lite.cc、,google/protobuf/extension_set.h,谷歌/protobuf/generated_message_util.h,google/protobuf/wire_format_lite.h,谷歌/protobuf/wire_format_lite_inl.h,google/protobuf/message_lite.h、google/prodobuf/repeated_field.h、,google/protobuf/io/codedstream.h,google/protobuf/io/zero_copy_stream_impl_lite.h,google/protobuf/io/zero_copy_stream.h(BSD-3许可证)),Laszlo Csomor(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:io_win32.cc,google/protobuf/stubs/io_win32.h(BSD-3许可证),Wink Saville(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:message_ite.cc,google/protobuf/wire_format_lite.h,谷歌/protobuf/wire_format_lite_inl.h,google/protobuf/message_lite.h(BSD-3许可证),Jim Meehan(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:结构化有效.cc(BSD-3许可证)),Chris Atenasio(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:google/protobuf/wire_format_lite.h(BSD-3许可证),Jason Xsueh(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:google/protobuf/io/coded_stream_inl.h(BSD-3许可证),安东·卡弗(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:google/protobuf/stubs/map_util.h(BSD-3许可证),Maxim Lifantsev(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:google/protobuf/stubs/mathlimits.h(BSD-3许可证),Susumu Yata[ctb,cph](文件位于src/third_party/dartrs_clone(BSD-3许可证),冈原大辅[ctb,cph](文件src/third_party/esaxx/esa.hxx(MIT许可证),Yuta Mori[ctb,cph](文件src/third_party/esaxx/sais.hxx(麻省理工学院许可证),本杰明·海因泽林[ctb,cph](档案数据/模型/nl.wiki.bpe.vs1000.d25.w2v.txt,数据/模型/nl.wiki.bpe.vs1000.d25.w2v.bin和data/models/nl.wiki.bpe.vs1000.model(MIT许可证) |
维护人员: |
Jan Wijffels<bnosac.be的jwijffels> |
许可证: |
MPL-2.0标准 |
网址: |
https://github.com/bnosac/sentencepiece网站 |
需要编译: |
对 |
材料: |
自述文件 新闻 |
在视图中: |
自然语言处理 |
CRAN检查: |
句子结果 |
文件:
下载内容:
反向依赖关系:
链接:
请使用规范形式https://CRAN.R-project.org/package=sentencepiece链接到此页面。