视觉几何组-牛津大学

这项工作的目标是文本定位‐定位和识别自然场景图像中的文本。

我们的端到端文本识别管道使用了高召回率区域建议方法的组合，然后是级联分类器和边界框回归器。

文本识别由深度卷积神经网络执行

有关详细信息，请参阅我们的出版物.

您可以试用我们应用于图像检索的文本识别管道。我们有两个不同的演示：

我们的文本识别模型经过训练纯粹基于合成数据我们发布了一个9M的综合生成单词图像的图像数据集，用于训练和测试单词识别。

我们已经发布了ECCV 2014论文中的模型文本识别的深层功能.

我们还发布了NIPS 2014深度学习研讨会论文的模型用于自然场景文本识别的合成数据和人工神经网络.他们使用MatConvNet公司包含在软件包中的MATLAB工具箱。

M.Jaderberg，K.Simonyan，A.维达尔迪，A.齐瑟曼

国际计算机视觉杂志，2016

M.Jaderberg，K.Simonyan，A.维达尔迪，A.齐瑟曼

深度学习研讨会，NIPS，2014

M.Jaderberg，A.维达尔迪，A.齐瑟曼

2014年欧洲计算机视觉会议

这项工作得到了EPSRC和ERC拨款VisRec no.228180的支持。我们感谢NVIDIA Corporation对本研究所用GPU的捐赠。我们感谢英国广播公司，特别是罗伯·库珀（Rob Cooper）访问数据和视频处理资源。