计算机科学>计算机视觉和模式识别
标题: 基于模糊手写文档图像的弱监督信息提取
摘要: 先进的信息提取方法受到OCR错误的限制。 它们适用于格式文档中的打印文本,但非结构化手写文档仍然是一个挑战。 使现有模型适应特定领域的培训数据是相当昂贵的,因为有两个因素:1)特定领域文档的可用性有限(例如手写处方、实验室笔记等), 2)注释变得更具挑战性,因为需要特定领域的知识来解码难以理解的手写文档图像。 在这项工作中,我们关注的是仅使用弱标记数据从手写处方中提取药物名称的复杂问题。 数据包括图像和其中的药物名称列表,但不包括它们在图像中的位置。 我们首先通过识别感兴趣的区域来解决这个问题,即仅从弱标签中识别药物行,然后注入仅使用合成生成的数据学习的特定于域的药物语言模型。 与现有最先进的方法相比,我们的方法在从处方中提取药物名称方面的性能要好2.5倍以上。