马克斯·贾德伯格凯伦·西蒙扬埃内斯托·科托安德烈亚·维达尔迪安德鲁·齐瑟曼


介绍

这项工作的目标是文本定位‐定位和识别自然场景图像中的文本。

  1. 技术细节
  2. 演示
  3. 数据
  4. 模型
  5. 出版物

技术细节

我们的端到端文本识别管道使用了高召回率区域建议方法的组合,然后是级联分类器和边界框回归器。


文本识别由深度卷积神经网络执行

有关详细信息,请参阅我们的出版物.


演示


您可以试用我们应用于图像检索的文本识别管道。我们有两个不同的演示:


数据

我们的文本识别模型经过训练纯粹基于合成数据我们发布了一个9M的综合生成单词图像的图像数据集,用于训练和测试单词识别。

单击此处查看数据集


模型

我们已经发布了ECCV 2014论文中的模型文本识别的深层功能.

点击此处查看ECCV 2014车型

我们还发布了NIPS 2014深度学习研讨会论文的模型用于自然场景文本识别的合成数据和人工神经网络.他们使用MatConvNet公司包含在软件包中的MATLAB工具箱。

单击此处查看NIPS DLW 2014车型


出版物

M.Jaderberg,K.Simonyan,A.维达尔迪,A.齐瑟曼
国际计算机视觉杂志,2016

M.Jaderberg,K.Simonyan,A.维达尔迪,A.齐瑟曼
深度学习研讨会,NIPS,2014

M.Jaderberg,A.维达尔迪,A.齐瑟曼
2014年欧洲计算机视觉会议

致谢

所有数据均为2007-2012 BBC版权所有,仅用于技术演示。牛津大学和英国广播公司保留修改或撤回作为现场演示一部分提供的任何数据和/或节目材料的权利。

这项工作得到了EPSRC和ERC拨款VisRec no.228180的支持。我们感谢NVIDIA Corporation对本研究所用GPU的捐赠。我们感谢英国广播公司,特别是罗伯·库珀(Rob Cooper)访问数据和视频处理资源。