朱军;聂再清;张波;文吉荣 用于集成web数据提取的动态分层马尔可夫随机场。 (英语) Zbl 1225.68226号 J.马赫。学习。物件。 9, 1583-1614 (2008). 摘要:现有的模板依赖的web数据提取方法采用了效率很低的解耦策略——尝试在两个不同的阶段进行数据记录检测和属性标记。在本文中,我们提出了一种具有层次模型的集成web数据提取范式。该模型称为动态层次马尔可夫随机场(DHMRF)。DHMRF考虑了结构不确定性,并定义了模型结构和类标签的联合分布。联合分布是指数族分布。作为条件模型,DHMRF放松了定向模型中的独立性假设。由于精确推理很难实现,因此开发了一种变分方法来学习模型参数,并找到MAP模型结构和标签分配。我们将DHMRF应用于实际的web数据提取任务。实验结果表明:(1)与解耦模型相比,集成的web数据提取模型在记录检测和属性标注方面都有显著的改进;(2) 在不同的web数据提取中,DHMRF可以潜在地解决固定结构层次模型所面临的块状伪影问题。 引用于3文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 68单位35 信息系统的计算方法(超文本导航、接口、决策支持等) 关键词:条件随机场;动态层次马尔可夫随机场;集成web数据提取;统计层次建模;块状伪影问题 软件:罗丹纳;L-BFGS公司 PDF格式BibTeX公司 XML格式引用 \textit{J.Zhu}等人,J.Mach。学习。第9号决议,1583-1614(2008年;Zbl 1225.68226) 全文: 链接