宫原美彦(Tetsuhiro Miyahara);铃木,Yusuke;寿代、高崎;Tomoyuki Uchida;高桥贤一;Hiroaki上田 发现半结构化web文档中的频繁标记树模式。 (英语) Zbl 1048.68848号 Chen,Ming-Syan(编辑)等,《知识发现和数据挖掘的进展》。第六届亚太会议,2002年PAKDD,2002年5月6日至8日,台湾台北。诉讼程序。柏林:施普林格出版社(ISBN 3-540-43704-5)。莱克特。票据计算。科学。2336, 341-355 (2002). 摘要:许多Web文档(如HTML文件和XML文件)没有刚性结构,称为半结构化数据。一般来说,这种半结构化Web文档由带有序子级的根树表示。我们提出了一种新的方法,通过使用标记树模式作为假设来发现半结构化Web文档中的频繁树结构模式。标记树模式是一种带有有序子级的边缘标记树,具有结构化变量。边缘标签是此类Web文档中的标记或关键字,变量可以由任意树替换。因此,标记树模式适合表示此类Web文档中的树结构模式。首先,我们表明很难计算最佳频繁标记树模式。因此,我们提出了一种生成所有最大频繁标记树模式的算法,并给出了它的正确性。最后,我们报告了我们算法的一些实验结果。尽管该算法效率不高,但实验表明,我们可以在这些数据中提取特征树结构模式。有关整个系列,请参见[Zbl 0992.68521号]. 引用于三文件 MSC公司: 68单位99 计算方法和应用 第68页,共15页 数据库理论 68第20页 信息存储和数据检索 软件:相对标准偏差_ PDF格式BibTeX公司 XML格式引用 \textit{T.Miyahara}等人,Lect。票据计算。科学。23363141-355(2002年;兹比尔1048.68848) 全文: 链接