×

发现半结构化web文档中的频繁标记树模式。 (英语) Zbl 1048.68848号

Chen,Ming-Syan(编辑)等,《知识发现和数据挖掘的进展》。第六届亚太会议,2002年PAKDD,2002年5月6日至8日,台湾台北。诉讼程序。柏林:施普林格出版社(ISBN 3-540-43704-5)。莱克特。票据计算。科学。2336, 341-355 (2002).
摘要:许多Web文档(如HTML文件和XML文件)没有刚性结构,称为半结构化数据。一般来说,这种半结构化Web文档由带有序子级的根树表示。我们提出了一种新的方法,通过使用标记树模式作为假设来发现半结构化Web文档中的频繁树结构模式。标记树模式是一种带有有序子级的边缘标记树,具有结构化变量。边缘标签是此类Web文档中的标记或关键字,变量可以由任意树替换。因此,标记树模式适合表示此类Web文档中的树结构模式。首先,我们表明很难计算最佳频繁标记树模式。因此,我们提出了一种生成所有最大频繁标记树模式的算法,并给出了它的正确性。最后,我们报告了我们算法的一些实验结果。尽管该算法效率不高,但实验表明,我们可以在这些数据中提取特征树结构模式。
有关整个系列,请参见[Zbl 0992.68521号].

MSC公司:

68单位99 计算方法和应用
第68页,共15页 数据库理论
68第20页 信息存储和数据检索
PDF格式BibTeX公司 XML格式引用
全文: 链接