×

一个用于形态和语音处理的功能工具包,应用于梵语标记器。 (英语) Zbl 1086.68628号

摘要:我们展示了自然语言形态和语音处理的禅宗工具箱。该工具包以文字编程风格呈现,位于Objective Caml函数编程语言的Pidgin ML子集中。该工具包基于有限状态自动机和变换器作为修饰词法树的系统表示。状态空间数据结构上的所有操作都使用zippers技术,统一共享函子允许系统最大共享为dag。词汇映射的特殊情况特别便于使用微分词的概念构建可逆的形态操作,例如屈折形式词典。作为一个特殊的应用,我们描述了一种通用的方法,通过分析属于屈折形式词汇的单词之间可能存在的谐音联系来标记作为音素流给出的自然语言文本。该方法使用工具包方法,通过构造一个非确定性传感器,通过对词典索引的trie表示进行机械修饰,实现合理的重写规则。该算法在词典大小上是线性的。给出了一个协同程序解释器,并对其正确性和完备性进行了形式化证明。本文介绍了变调分析在梵语切分中的应用。

MSC公司:

68T50型 自然语言处理

关键词:

禅宗工具箱
PDF格式BibTeX公司 XML格式引用
全文: 内政部