句子:使用字节对编码和Unigram建模的文本标记

无监督文本标记器允许执行字节对编码和单字报建模。包装“sentencepiece”库<https://github.com/google/sentencepiece>它提供了一个独立于语言的标记器,用于将文本拆分为单词和较小的子单词单位。这些技术在Taku Kudo和John Richardson(2018)的论文“句子片段:神经文本处理的一个简单且独立于语言的子单词标记器和反标记器”中进行了解释<doi:10.18653/v1/D18-2012>.还可以直接访问使用“word2vec”在维基百科上训练的预处理字节对编码模型和子字嵌入,如本杰明·海因泽林(Benjamin Heinzerling)和迈克尔·斯特鲁贝(Michael Strube)(2018)所述“BPEmb:275种语言中无标记化预训练子词嵌入”<http://www.lrec-conf.org/proceedings/lrec2018/pdf/1049.pdf>.

版本: 0.2.3
取决于: R(≥2.10)
进口: 卢比(≥0.11.5),统计
链接到: 卢比
建议: 标记器.bpe,单词2vec(≥ 0.2.0)
出版: 2022-11-13
作者: Jan Wijffels[aut,cre,cph](R包装器),BNOSAC[cph](R包装器),谷歌公司[ctb,cph](文件位于src/sentencepiece/src(Apache许可证,2.0版),Abseil作者[ctb,cph](文件位于src/third_party/absl(Apache许可证,2.0版),谷歌公司[ctb,cph](文件位于src/third_party/protobuf-lite(BSD-3许可证),Kenton Varda(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:coded_stream.cc,扩展名_set.cc,生成的消息实用程序.cc,生成的消息应用程序.cc,消息站点.cc、重复字段.cc、线格式lite.cc、,zero_copy_stream.cc、zero_compy_stream_impl_lite.cc、,google/protobuf/extension_set.h,谷歌/protobuf/generated_message_util.h,google/protobuf/wire_format_lite.h,谷歌/protobuf/wire_format_lite_inl.h,google/protobuf/message_lite.h、google/prodobuf/repeated_field.h、,google/protobuf/io/codedstream.h,google/protobuf/io/zero_copy_stream_impl_lite.h,google/protobuf/io/zerocopy_stream.h,google/protobuf/stubs/common.h、google/prodobuf/stubs/hash.h、,google/protobuf/stobs/once.h,google/protobuf/stobs/once.h.org(BSD-3许可证),Sanjay Ghemawat(谷歌公司)[ctb,cph](文件设计网址:src/third_party/protobuf-lite:coded_stream.cc,扩展名_set.cc,生成的消息实用程序.cc,生成的消息应用程序.cc,消息站点.cc、重复字段.cc、线格式列表.cc、,zero_copy_stream.cc、zero_compy_stream_impl_lite.cc、,google/protobuf/extension_set.h,谷歌/protobuf/generated_message_util.h,google/protobuf/wire_format_lite.h,谷歌/protobuf/wire_format_lite_inl.h,google/protobuf/message_lite.h、google/prodobuf/repeated_field.h、,google/protobuf/io/codedstream.h,google/protobuf/io/zero_copy_stream_impl_lite.h,google/protobuf/io/zero_copy_stream.h(BSD-3许可证)),Jeff Dean(谷歌公司)[ctb,cph](文件设计网址:src/third_party/protobuf-lite:coded_stream.cc,扩展名_set.cc,generated_message_util.cc、generated_message_util.cc,消息站点.cc、重复字段.cc、线格式列表.cc、,zero_copy_stream.cc、zero_compy_stream_impl_lite.cc、,google/protobuf/extension_set.h,谷歌/protobuf/generated_message_util.h,google/protobuf/wire_format_lite.h,谷歌/protobuf/wire_format_lite_inl.h,google/protobuf/message_lite.h、google/prodobuf/repeated_field.h、,google/protobuf/io/codedstream.h,google/protobuf/io/zero_copy_stream_impl_lite.h,google/protobuf/io/zero_copy_stream.h(BSD-3许可证)),Laszlo Csomor(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:io_win32.cc,google/protobuf/stubs/io_win32.h(BSD-3许可证),Wink Saville(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:message_ite.cc,google/protobuf/wire_format_lite.h,谷歌/protobuf/wire_format_lite_inl.h,google/protobuf/message_lite.h(BSD-3许可证),Jim Meehan(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:结构化有效.cc(BSD-3许可证)),Chris Atenasio(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:google/protobuf/wire_format_lite.h(BSD-3许可证),Jason Xsueh(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:google/protobuf/io/coded_stream_inl.h(BSD-3许可证),安东·卡弗(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:google/protobuf/stubs/map_util.h(BSD-3许可证),Maxim Lifantsev(谷歌公司)[ctb,cph](文件位于src/third_party/protobuf-lite:google/protobuf/stubs/mathlimits.h(BSD-3许可证),Susumu Yata[ctb,cph](文件位于src/third_party/dartrs_clone(BSD-3许可证),冈原大辅[ctb,cph](文件src/third_party/esaxx/esa.hxx(MIT许可证),Yuta Mori[ctb,cph](文件src/third_party/esaxx/sais.hxx(麻省理工学院许可证),本杰明·海因泽林[ctb,cph](档案数据/模型/nl.wiki.bpe.vs1000.d25.w2v.txt,数据/模型/nl.wiki.bpe.vs1000.d25.w2v.bin和data/models/nl.wiki.bpe.vs1000.model(MIT许可证)
维护人员: Jan Wijffels<bnosac.be的jwijffels>
许可证: MPL-2.0标准
网址: https://github.com/bnosac/sentencepiece网站
需要编译:
材料: 自述文件 新闻
在视图中: 自然语言处理
CRAN检查: 句子结果

文件:

参考手册: 句子.pdf

下载内容:

包源: 句子_0.2.3.tar.gz
Windows二进制文件: r-devel公司:句子epiece_0.2.3.zip,r版本:句子epiece_0.2.3.zip,r-oldrel:句子epiece_0.2.3.zip
macOS二进制文件: r释放(arm64):句子0.2.3.tgz,r-oldrel(arm64):句子片段_0.2.3.tgz,r-版本(x86_64):句子0.2.3.tgz
旧来源: 句子存档

反向依赖关系:

反向建议: 文本食谱

链接:

请使用规范形式https://CRAN.R-project.org/package=sentencepiece链接到此页面。