×

用于集成web数据提取的动态分层马尔可夫随机场。 (英语) Zbl 1225.68226号

摘要:现有的模板依赖的web数据提取方法采用了效率很低的解耦策略——尝试在两个不同的阶段进行数据记录检测和属性标记。在本文中,我们提出了一种具有层次模型的集成web数据提取范式。该模型称为动态层次马尔可夫随机场(DHMRF)。DHMRF考虑了结构不确定性,并定义了模型结构和类标签的联合分布。联合分布是指数族分布。作为条件模型,DHMRF放松了定向模型中的独立性假设。由于精确推理很难实现,因此开发了一种变分方法来学习模型参数,并找到MAP模型结构和标签分配。我们将DHMRF应用于实际的web数据提取任务。实验结果表明:(1)与解耦模型相比,集成的web数据提取模型在记录检测和属性标注方面都有显著的改进;(2) 在不同的web数据提取中,DHMRF可以潜在地解决固定结构层次模型所面临的块状伪影问题。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68单位35 信息系统的计算方法(超文本导航、接口、决策支持等)
PDF格式BibTeX公司 XML格式引用
全文: 链接