跳到目录

谷歌紧凑型语言检测器3的R包装器

项目状态:活动–项目已达到稳定可用状态,正在积极开发中。 CRAN工作室镜像下载

谷歌的Compact Language Detector 3是一个用于语言识别的神经网络模型,是CLD2(可从CRAN获得)的继任者。该版本仍处于实验阶段,使用了一种具有不同属性和结果的新颖算法。有关更多信息,请参阅:https://github.com/google/cld3自述文件

例子

功能检测语言()向量化并猜测文本中每个字符串的语言,或者如果不能可靠地确定语言则返回NA。

> 图书馆(第3类)
> 例子(第3条)

氯化物3> #矢量化最佳猜测
氯化物3> 检测_语言(c(c)(“生存还是毁灭?”,“Ce n’est pas grave”,"猿も木から落ちる"))
[1]“en”(英语) “fr” “ja”

功能检测语言多重()未矢量化,并检测整个字符矢量中的所有语言。


氯化物3> #在一个文本中使用多种语言
氯化物3> 检测语言混合(“这段文字是英文的,尺寸= )
语言概率可靠比
1背景0.9173891     真的  0.5853658
2英语0.9999790     真的  0.4146341
und(单位)0    错误的  0

安装

的二进制包OS-X公司窗户可直接从CRAN安装:

安装.包(“cld3”)

在Linux或OSX上从源代码安装需要谷歌的协议缓冲区库。打开Debian或Ubuntu安装libprotobuf-dev开发protobuf编译器:

sudo apt-get安装-y libprotobuf-dev protobuf编译器

打开费多拉我们需要protobuf-devel公司:

sudo yum安装protobuf-devel

打开中央OS/RHEL我们安装[protobf-devel](https://src.fedoraproject.org/rpms/protobuf通过EPEL:

sudo百胜安装epel版本sudo yum安装protobuf-devel

打开操作系统-X使用原蟾蜍来自Homebrew:

brew安装protobuf