基于视觉匹配的自适应文本识别

张楚翰(Chuhan Zhang)1
安库什·古普塔2
安德鲁·齐瑟曼1
1牛津大学视觉几何组
2伦敦DeepMind
2020年ECCV

[纸张]
[代码和数据]
[视频]



当前的文本识别模型从预定义(固定)字母表中学习特定于字符形状(字形)的识别特征。我们训练我们的模型来建立给定字符字形(顶部)和待识别文本线图像(左侧)之间的视觉相似性。这使得该模型对看不见的字形、新字母(不同语言)具有高度适应性,并可扩展到新的字符类,例如英语希腊语,无需进一步培训。较亮的颜色对应较高的视觉相似性。

摘要

在这项工作中,我们的目标是解决文档中文本识别的通用性和灵活性问题。我们引入了一种新的模型,该模型利用了语言中字符的重复性,并将视觉表征学习和语言建模阶段解耦。通过这样做,我们将文本识别转化为形状匹配问题从而在外观和类中实现通用性和灵活性。我们在不同字母表的合成数据集和真实数据集上评估了新模型,并表明它可以应对传统架构在不进行昂贵的再培训的情况下无法解决的挑战,包括:(i)它可以推广到看不见的字体,而无需从中获取新的示例;(ii)它可以通过简单地改变所提供的范例,灵活地改变类别的数量;并且(iii)它可以通过提供新的字形集来推广到新的语言和新的字符,而这些新的字符是它没有经过训练的。在所有这些案例中,我们展示了与最先进的模型相比的显著改进。




方法



我们的模型通过视觉匹配将字形样本定位在给定的文本线图像中,从而识别出该文本线图像。它以文本线图像和包含一组样本的字母图像作为输入,并预测N类上的概率序列作为输出,其中N等于字母图像中给定的样本数。该模型有两个主要组成部分:(1)视觉相似性编码器,它输出一个相似性图,编码文本线图像中每个字形的相似性;(2)字母不可知解码器,它接收这个相似性图来推断最可能的字符串。

视觉编码器Φ嵌入字形线和文本线x个并生成相似性图S公司,它根据文本线上的每个位置对每个字形的相似性进行评分。然后,解决(潜在的)不完美视觉匹配中的歧义,以生成增强的相似性映射S公司*最后,将相似性得分聚合为输出概率P(P)在范例集上A类使用包含在M(M).


视频




纸张和辅助材料

C.Zhang、A.Gupta、A.Zisserman
基于视觉匹配的自适应文本识别
2020年ECCV
[arXiv公司][Biptex公司]



示例和可视化

我们通过原始相似图的可视化显示了不同情况下的结果S公司,S公司使用位置编码和增强的相似性映射S公司*.
交叉字体匹配






拉丁语泛化





非语言的泛化




更多示例可以在我们的补充资料.




鸣谢

本研究由Google-DeepMind研究生奖学金和EPSRC项目资助Seebbyte EP/M013774/1。我们要感谢Triantafyllos Afouras、Weidi Xie、Yang Liu和Erika Lu的讨论和校对。