×

DIAsDEM公司

swMATH ID: 29650
软件作者: Henner Graubitz、Myra Spiliopoulou、Karsten Winkler
描述: DIAsDEM框架,用于使用数据挖掘技术将特定于域的文本转换为XML文档。现代组织正在积累大量的文本文档。要将档案变成有价值的知识源,文本内容必须明确并能够查询。使用标记语言(如XML)进行语义标记可以满足这两个要求。因此,我们引入了DIAsDEM*框架,用于从结构化文本单元(例如句子)中提取语义,为其分配XML标记,并为存档导出平面XML DTD。DIAsDEM侧重于以特殊术语和隐含结构(如法院文件和公司报告)为特征的档案。在知识发现阶段,通过内容的相似性对文本单元进行迭代聚类。每次迭代输出满足一组质量标准的簇。这些簇中包含的文本单元分别用半自动确定的簇标签和XML标签进行标记。此外,提取的命名实体(例如人员)用作XML标记的属性。我们将该框架应用于德国商业注册的案例研究。
主页: https://ieeexplore.iee.org/document/989515
相关软件: 乌姆
引用于: 1文件

0连载引用

在1个字段中引用

1 计算机科学(68-XX)

按年份列出的引文