文件Zbl 1052.68742-zbMATH Open

Junhyeok Shim；金东石；Cha、Jeongwon；Lee，Gary Geunbae先生；Seo、Jungyun

集成多策略web文档预处理，用于句子和单词边界检测。（英语） Zbl 1052.68742号

信息处理。管理。 38，第4期，509-527（2002）.

摘要：NLP的大多数工作都要求文本事先被分割成句子和单词。然而，由于许多标点符号和空格的歧义性，将文本分割成句子和单词是一项复杂的任务。此外，像HTML文档这样的网络文本更难制作成精细和分段的文本，因为它们以更自由的风格描述，有许多句子边界和间距错误。本文的目的是针对Web文本的句子边界消歧和单词边界消歧这两个难题，介绍一种多策略集成文本预处理方法。我们将一种混合方法（正则表达式规则、启发式规则和统计决策树归纳学习，使用C4.5学习器）协同应用于原始语料库预处理任务。
这项工作有助于进行更正确的形态分析，并确保应用系统工作更稳定。我们使用自动获取的约束来处理容易定义的问题，并使用归纳学习的决策树通过合并多个特征（图、相对频率、熵、三项指数）来解决不确定的模糊性问题。该多策略方法经过了彻底的测试：在句子边界消歧中，它达到了约99.12（带标点符号）和98.04（不带标点标记）的准确度，词距校正的准确度为95.39（%），在整个混合文本预处理问题中，达到了94.61（%）的准确率，来自韩国新闻脚本Web文档。

MSC公司：

68T50型	自然语言处理
68T05型	人工智能中的学习和自适应系统

关键词：

文本规范化；句子边界消歧；单词边界消歧；字距校正

软件：

4.5条

PDF格式 BibTeX公司 XML格式引用

全文：内政部

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

集成多策略web文档预处理，用于句子和单词边界检测。（英语） Zbl 1052.68742号

MSC公司：

关键词：

软件：

示例

领域

操作员

集成多策略web文档预处理，用于句子和单词边界检测。 （英语） Zbl 1052.68742号

MSC公司：

关键词：

软件：

集成多策略web文档预处理，用于句子和单词边界检测。（英语） Zbl 1052.68742号