×

集成多策略web文档预处理,用于句子和单词边界检测。 (英语) Zbl 1052.68742号

摘要:NLP的大多数工作都要求文本事先被分割成句子和单词。然而,由于许多标点符号和空格的歧义性,将文本分割成句子和单词是一项复杂的任务。此外,像HTML文档这样的网络文本更难制作成精细和分段的文本,因为它们以更自由的风格描述,有许多句子边界和间距错误。本文的目的是针对Web文本的句子边界消歧和单词边界消歧这两个难题,介绍一种多策略集成文本预处理方法。我们将一种混合方法(正则表达式规则、启发式规则和统计决策树归纳学习,使用C4.5学习器)协同应用于原始语料库预处理任务。
这项工作有助于进行更正确的形态分析,并确保应用系统工作更稳定。我们使用自动获取的约束来处理容易定义的问题,并使用归纳学习的决策树通过合并多个特征(图、相对频率、熵、三项指数)来解决不确定的模糊性问题。该多策略方法经过了彻底的测试:在句子边界消歧中,它达到了约99.12(带标点符号)和98.04(不带标点标记)的准确度,词距校正的准确度为95.39(%),在整个混合文本预处理问题中,达到了94.61(%)的准确率,来自韩国新闻脚本Web文档。

MSC公司:

68T50型 自然语言处理
68T05型 人工智能中的学习和自适应系统

软件:

4.5条
PDF格式BibTeX公司 XML格式引用
全文: 内政部