Weakly supervised information extraction from inscrutable handwritten document images

Paul, Sujoy; Madan, Gagan; Mishra, Akankshya; Hegde, Narayan; Kumar, Pradeep; Aggarwal, Gaurav

计算机科学>计算机视觉和模式识别

arXiv:2306.06823（cs）

【于2023年6月12日提交】

标题：基于模糊手写文档图像的弱监督信息提取

作者：苏霍伊·保罗，加甘·马丹，阿坎什亚·米什拉，纳拉扬·赫格德，普拉迪普·库马尔，高拉夫·阿加瓦尔

查看PDF

摘要：先进的信息提取方法受到OCR错误的限制。它们适用于格式文档中的打印文本，但非结构化手写文档仍然是一个挑战。使现有模型适应特定领域的培训数据是相当昂贵的，因为有两个因素：1）特定领域文档的可用性有限（例如手写处方、实验室笔记等），2）注释变得更具挑战性，因为需要特定领域的知识来解码难以理解的手写文档图像。在这项工作中，我们关注的是仅使用弱标记数据从手写处方中提取药物名称的复杂问题。数据包括图像和其中的药物名称列表，但不包括它们在图像中的位置。我们首先通过识别感兴趣的区域来解决这个问题，即仅从弱标签中识别药物行，然后注入仅使用合成生成的数据学习的特定于域的药物语言模型。与现有最先进的方法相比，我们的方法在从处方中提取药物名称方面的性能要好2.5倍以上。

评论：	ICDAR 2023验收
学科：	计算机视觉和模式识别（cs.CV）; 计算与语言（cs.CL）
引用为：	arXiv:2306.06823[cs.CV]
	（或 arX病毒：2306.06823v1[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2306.06823

提交历史记录

发件人：Sujoy Paul[查看电子邮件]
[第1版]2023年6月12日星期一02:22:30 UTC（1751 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。个人简历

<上一版本 | 下一个>

新的 | 最近的 |2023-06

更改为浏览方式：

反恐精英
反恐精英。氯

参考文献和引文

导出BibTeX引文

计算机科学>计算机视觉和模式识别

标题：基于模糊手写文档图像的弱监督信息提取

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：基于模糊手写文档图像的弱监督信息提取

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目