开始搜索几个单词就足够了。如果您需要进行更复杂的查询,请使用以下提示进行指导。
文章类型:研究文章
作者:乔·普利松|纳达·拉夫拉奇;|达尼亚·姆拉德尼奇|托马·埃尔贾维克
附属公司:斯洛文尼亚卢布尔雅那1000号Jamova 39号Joíef Stefan研究所。电子邮件:[电子邮件保护]|斯洛文尼亚新戈里察大学维帕夫斯卡13号,邮编:5000
摘要:柠檬化是在文本中发现词语的规范化形式的过程。对于大量的语言工程任务来说,这是一个有用的预处理步骤,对于具有丰富屈折形态的语言尤其重要。本文提出了一种机器学习方法使用Ripple-Down规则学习算法(特别适用于此任务)实现自动单词词义化。通过关注单词后缀,归纳的Ripple-Down规则确定应该删除和/或添加哪个词形后缀来生成引理。这些规则是从一个由柠檬化斯洛文尼亚语单词组成的词典中归纳出来的,通过在词典中和一个手验证注释语料库中的交叉验证进行评估,并与之前使用两个其他归纳柠檬化器ATRIS和CLOG的工作进行比较。我们表明,RDR优于ATRIS,并且比CLOG更灵活,因为与CLOG不同,它也可以在没有先前词性标记的情况下工作。RDR lemmatiser易于训练和用于新语言,并且与CLOG一起通过Web服务提供。
关键词:Ripple Down规则、柠檬化、机器学习、斯洛文尼亚语言
期刊:人工智能通信,第21卷,第1期,第15-26页,2008年