点头

半结构化文本和半结构化文档自动提取工具。有趣的结构化或半结构化数据通常不在数据库系统中,而是在HTML页面、文本文件或纸上。标准查询处理引擎无法使用这些格式的数据,因此用户需要一种方法将这些源中的数据提取到DBMS中,或者在源代码周围编写包装器。本文介绍了Northwestern文档结构提取器NoDoSE,它是一个半自动确定文档结构并提取其数据的交互式工具。使用GUI,用户分层地分解文件,勾勒出它感兴趣的区域,然后描述它们的语义。此任务由一个挖掘组件加快,该组件尝试从用户迄今为止输入的信息推断文件的语法。一旦确定了文档的格式,就可以将其数据提取成许多有用的形式。文中提出的挖掘算法可以作为本文所开发的通用结构和算法基础。本文介绍了用Java语言编写的原型系统,并给出了分析各种文档的经验。


zbMATH参考文献(13篇文章引用)

显示结果1到13,共13个。
按年份排序(引用)

  1. Doermann,David(编辑);Tombre,Karl(编辑):《文档图像处理和识别手册》(2014)
  2. Qureshi,Pir Abdul Rasool;Memon,Nasrullah:内容提取的混合模型(2012)ioport公司
  3. Fazzinga,Bettina;Flesca,Sergio;Tagarelli,Andrea:基于模式的Web包装(2011)ioport公司
  4. 刘伟;阎华亮;肖建国:从论坛站点自动提取用户评论(2011)ioport公司
  5. 李青;陈静;吴亦普:通过挖掘严格模式提取松散结构数据记录的算法(2009)ioport公司
  6. Cesario,Eugenio;Folino,Francesco;Locane,Antonio;Manco,Giuseppe;Ortale,Riccardo:通过渐进分类促进文本分割(2008)ioport公司
  7. Becker,Simon M.;Haase,Thomas;Westfechtel,Bernhard:增量开发过程中基于模型的工程工具后验集成(2005)ioport公司
  8. 邓,徐斌;朱,杨勇:L-树匹配:一种新的带噪文本流数据抽取模型与算法(2005)ioport公司
  9. 基于马里奥纳尼和梅雷拉迪诺的整合方法(基于马里奥纳尼和梅雷拉迪诺的工具)ioport公司
  10. Corradini,Flavio;Mariani,Leonardo;Merelli,Emanuela:基于代理的工具集成方法(2004)ioport公司
  11. Corradini,Flavio;Mariani,Leonardo;Merelli,Emanuela:基于代理的工具集成方法(2004)ioport公司
  12. 拉贾拉曼,阿南德;乌尔曼,杰弗里D.:使用紧凑的骨架查询网站。(2003年)
  13. Kushmerick,N.:包装归纳法:效率和表现力(2000)