跳到内容

pommeterresautee/unine公司

UNINE公司

Travis构建状态 生成状态 覆盖率状态 CRAN状态 CRAN_下载 生命周期 许可证:麻省理工学院 跟随

法语、德语、意大利语、西班牙语、葡萄牙语、芬兰语、瑞典语.
它们基于与中的“轻”词干分析器相同的工作SolR公司弹性搜索.
“轻”词干修饰语只用于删除名词和形容词的屈折变化。
与名词和形容词相比,这些语言的索引动词并不重要。

该干细胞仪中使用的程序如下所述:

  • 法语的词干分析程序见(Savoy,1999)。
  • 在意大利语中,主要的屈折规则是将最后一个字符(例如,«-o»、«-a»或«-e»)修改为另一个字符。作为第二条规则,意大利形态学也可能改变最后两个字母(例如,«-o»中的«-io»、«-chi»里的«-co»和«-ghe»里是«-ga»)。
  • 在德语中,可以应用一些规则来获得单词的复数形式(例如,“Frau”变成“Frauen”(woman),“Bild”变成“Bilder”(picture),“Sohn”变成“Söhne”(son),“Apfel”变成“Pale”(apple)),但建议的算法没有考虑人称和时态变化,也没有考虑动词使用的形态变化。

在线测试可用在这个网站上.

安装

您可以从安装已发布版本的unineCRAN(起重机)具有:

安装.包("尤尼")

…或来自的最新版本github

开发工具::安装github("pommeterresautee/unine公司")

例子

下面是一些法语示例,并与Porter French stember进行了比较。

法语短音( =c(c)("完成","凯西埃"))#[1] “完成”“档案”
#下面的双字母并没有重复:caissière->caisier法语短音( =c(c)("测试器","遗嘱","切沃(chevaux)","香的","人员","富利铜币"))#[1] “test”“testment”“cheval”“arom”“personel”“fou”
#下面的双字母并没有重复:personnel->personel

#看看上面“testment”和“tester”是如何词根化的。
#现在使用Porter词干分析器:
雪球C::词干(c("遗嘱","测试器"),语言 = "法国人")#[1] “测试”“测试”

工具书类

如果使用此R包,请引用[1]。

[1] J.Savoy,通用法语语料库的词干提取过程和关键词列表

@第{savoy1999steming条,title={一般法语语料库的词尾处理过程和停止语列表},author={萨沃伊,雅克},journal={美国信息科学学会杂志50(10),944-952.},年份={2009}}

关于

法国、德国、意大利、西班牙语、葡萄牙语、芬兰语、瑞典语的Unine轻型茎杆钳

主题

资源

许可证

未知,找到MIT许可证

找到的许可证

未知
许可证
麻省理工学院
许可.md

星星

观察者

叉子

包装

未发布包