×

DIAsDEM公司

swMATH ID: 29650
软件作者: Henner Graubitz、Myra Spiliopoulou、Karsten Winkler
描述: DIAsDEM框架,用于使用数据挖掘技术将特定于域的文本转换为XML文档。现代组织正在积累大量的文本文档。要将档案变成有价值的知识源,文本内容必须明确并能够查询。使用标记语言(如XML)进行语义标记可以满足这两种要求。因此,我们引入了DIAsDEM*框架,用于从结构化文本单元(例如句子)中提取语义,为其分配XML标记,并为存档导出平面XML DTD。DIAsDEM侧重于以特殊术语和隐含结构(如法院文件和公司报告)为特征的档案。在知识发现阶段,文本单元通过其内容的相似性进行迭代聚类。每次迭代输出满足一组质量标准的簇。这些簇中包含的文本单元分别用半自动确定的簇标签和XML标签进行标记。此外,提取的命名实体(例如人员)用作XML标记的属性。我们在德国商业登记处的案例研究中应用了该框架。
主页: https://ieeexplore.ieee.org/document/989515
相关软件: WUM公司
引用于: 1文件

0连载引用

在1个字段中引用

1 计算机科学(68至XX)

按年份列出的引文