法语的词干分析程序见(Savoy,1999)。 在意大利语中,主要的屈折规则是将最后一个字符(例如,«-o»、«-a»或«-e»)修改为另一个字符。 作为第二条规则,意大利形态学也可能改变最后两个字母(例如,«-o»中的«-io»、«-chi»里的«-co»和«-ghe»里是«-ga»)。 在德语中,可以应用一些规则来获得单词的复数形式(例如,“Frau”变成“Frauen”(woman),“Bild”变成“Bilder”(picture),“Sohn”变成“Söhne”(son),“Apfel”变成“Pale”(apple)),但建议的算法没有考虑人称和时态变化,也没有考虑动词使用的形态变化。
安装.包( " 尤尼 " )
开发工具 :: 安装github( " pommeterresautee/unine公司 " )
法语短音( 话 = c(c)( " 完成 " , " 凯西埃 " )) # [1] “完成”“档案”
# 下面的双字母并没有重复:caissière->caisier 法语短音( 话 = c(c)( " 测试器 " , " 遗嘱 " , " 切沃(chevaux) " , " 香的 " , " 人员 " , " 富利铜币 " )) # [1] “test”“testment”“cheval”“arom”“personel”“fou”
# 下面的双字母并没有重复:personnel->personel
# 看看上面“testment”和“tester”是如何词根化的。
# 现在使用Porter词干分析器:
雪球C :: 词干(c( " 遗嘱 " , " 测试器 " ), 语言 = " 法国人 " ) # [1] “测试”“测试”
@第{savoy1999steming条, title={一般法语语料库的词尾处理过程和停止语列表}, author={萨沃伊,雅克}, journal={美国信息科学学会杂志50(10),944-952.}, 年份={2009} }