×

基于马尔可夫聚类网络的自下而上场景文本检测。 (英语) Zbl 1471.68283号

摘要:提出了一种新的检测框架——马尔可夫聚类网络(MCN),用于快速、鲁棒的场景文本检测。与继承经典对象检测的传统自顶向下场景文本检测方法不同,MCN以自下而上的方式检测场景文本对象。MCN通过首先将图像转换为随机流图其中,基于预测的随机流执行马尔可夫聚类。随机流对场景文本对象的局部相关性和语义信息进行编码。通过流将对象建模为强连接节点,从而可以在不预先知道对象大小的情况下,灵活地对缩放和旋转文本对象进行自下而上的检测。流量预测由先进的卷积神经网络体系结构和位置软件空间注意机制支持,该机制通过自适应融合空间表示提供增强的流量预测。公共基准测试的实验评估表明,我们的MCN方法在公共基准测试上取得了最先进的性能,尤其是在检索长文本和定向文本方面。

MSC公司:

68T45型 机器视觉和场景理解
62H30型 分类和区分;聚类分析(统计方面)
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bissacco,A.、Cummins,M.、Netzer,Y.、Neven,H.(2013)。Photoocr:在不受控制的条件下阅读文本。IEEE计算机视觉国际会议论文集,第785-792页
[2] Chen,D.,Olobez,J.M.,Bourlard,H.(2002)。基于马尔可夫随机场的复杂背景下文本分割与识别。《服务机器人用户交互支持的对象识别》,第4卷,第227-230页。
[3] Dai,Y.、Huang,Z.、Gao,Y.和Chen,K.(2017)。用于多方向场景文本检测的融合文本分割网络。arXiv预打印arXiv:1709.03272
[4] Deng,J.、Berg,A.、Satheesh,S.、Su,H.、Khosla,A.、Fei-Fei,L.(2012)。Ilsvrc-2012年
[5] Deng,D.,Liu,H.,Li,X.,Cai,D.(2017)。Pixellink:通过实例分割检测场景文本。在第三十二届AAAI人工智能会议上
[6] Donahue,J.、Anne Hendricks,L.、Guadarrama,S.、Rohrbach,M.、Venugopalan,S.、Saenko,K.、Darrell,T.(2015)。用于视觉识别和描述的长期递归卷积网络。在IEEE关于计算机视觉和模式识别的会议记录中,第2625-2634页
[7] Girshick,R.(2015)。快速r-cnn。IEEE计算机视觉国际会议论文集,第1440-1448页
[8] Girshick,R。;Donahue,J。;Darrell,T。;Malik,J.,《用于精确目标检测和分割的基于区域的卷积网络》,IEEE模式分析和机器智能汇刊,38,1,142-158(2016)·doi:10.1109/TPAMI.2015.2437384
[9] Gupta,A.、Vedaldi,A.、Zisserman,A.(2016)。用于自然图像中文本定位的合成数据。IEEE计算机视觉和模式识别会议记录,第2315-2324页
[10] 何,P.,黄,W.,何,T.,朱,Q.,乔,Y.,李,X.(2017a)。区域关注的单发文本检测器。IEEE计算机视觉国际会议论文集,第3047-3055页
[11] He,D.、Yang,X.、Liang,C.、Zhou,Z.、Ororbi,A.G.、Kifer,D.和Lee Giles,C.(2017b)。具有级联实例感知分割的多尺度fcn,用于野外任意定向的单词识别。IEEE计算机视觉和模式识别会议记录,第3519-3528页
[12] 何伟、张晓云、尹芳、刘春兰(2017c)。用于多方向场景文本检测的深度直接回归。arXiv预打印arXiv:1703.08289
[13] Hu,H.,Zhang,C.,Luo,Y.,Wang,Y.、Han,J.、Ding,E.(2017)。Wordsup:利用单词注释进行基于字符的文本检测。IEEE计算机视觉国际会议论文集
[14] Huang,W.,Lin,Z.,Yang,J.,Wang,J..(2013)。使用笔划特征变换和文本协方差描述符在自然图像中进行文本定位。IEEE计算机视觉国际会议论文集,第1241-1248页
[15] 黄维、乔毅、唐熙(2014)。卷积神经网络诱导mser树的鲁棒场景文本检测。在欧洲计算机视觉会议上,第497-511页。施普林格
[16] ICDAR(2017)。稳健的阅读比赛。http://u-pat.org/ICDAR2017/index.php
[17] Jaderberg,M。;Simonyan,K。;Vedaldi,A。;Zisserman,A.,用卷积神经网络在野外阅读文本,国际计算机视觉杂志,116,1,1-20(2016)·doi:10.1007/s11263-015-0823-z
[18] 姜凤、郝中、刘霞(2017a)。具有连接组件建议的深度场景文本检测。arXiv预打印arXiv:1708.05133
[19] 姜瑜、朱旭、王旭、杨旭、李旭、王旭、傅鹏、罗旭(2017b)。R2cnn:用于定向鲁棒场景文本检测的旋转区域cnn。arXiv预印本arXiv:1706.09579
[20] Karatzas,D.、Gomez-Bigorda,L.、Nicolaou,A.、Ghosh,S.、Bagdanov,A.、Iwamura,M.、Matas,J.、Neumann,L.、Chandrasekhar,V.R.、Lu,S.等人(2017)。Icdar 2015强劲阅读竞赛。第十三届国际文件分析与识别会议(ICDAR),2015年,第1156-1160页。电气与电子工程师协会
[21] Karatzas,D.,Shafait,F.,Uchida,S.,Iwamura,M.,i Bigorda,L.G.,Mestre,S.R.,Mas,J.,Mota,D.F.,Almazan,J.A.,de las Heras,L.P.(2013年)。2013年国际阅读大赛。2013年第12届国际文件分析与识别会议,第1484-1493页。电气与电子工程师协会
[22] LeCun,Y。;博图,L。;本吉奥,Y。;Haffner,P.,《基于梯度的学习应用于文档识别》,IEEE会议记录,86,11,2278-2324(1998)·数字对象标识代码:10.1109/5.726791
[23] Li,Y.,Ma,J.(2017)。用于场景文本检测的统一深度神经网络。在智能计算国际会议上,第101-112页。施普林格
[24] Liao,M.、Shi,B.、Bai,X.、Wang,X.和Liu,W.(2017)。文本框:带有单个深度神经网络的快速文本检测器。在第三十一届AAAI人工智能会议上
[25] Liao,M.,Zhu,Z.,Shi,B.,Xia,G.S.,Bai,X.(2018a)。面向场景文本检测的旋转敏感回归。IEEE计算机视觉和模式识别会议记录,第5909-5918页
[26] 廖,M。;Shi,B。;Bai,X.,Textboxes++:一种单镜头场景文本检测器,IEEE图像处理汇刊,27,8,3676-3690(2018)·Zbl 1409.94333号 ·doi:10.1109/TIP.2018.2825107
[27] Liu,W.,Anguelov,D.,Erhan,D.,Szegedy,C.,Reed,S.,Fu,C.Y.,Berg,A.C.(2016)。单发多盒探测器。在欧洲计算机视觉会议上,第21-37页。施普林格
[28] Liu,X.,Liang,D.,Yan,S.,Chen,D.,Qiao,Y.,Yan。Fots:使用统一网络快速定位文本。《IEEE计算机视觉和模式识别会议论文集》,第5676-5685页
[29] 刘,Z.,林,G.,杨,S.,冯,J.,林,W.,Goh,W.L.(2018b)。学习马尔可夫聚类网络进行场景文本检测。在IEEE计算机视觉和模式识别(CVPR)会议上
[30] 龙、尚邦;阮家强;张文杰;何欣;吴文浩;姚聪,《TextSnake:检测任意形状文本的灵活表示法》,计算机视觉-ECCV 2018,19-35(2018),Cham:Springer International Publishing,Cham
[31] Lyu,P.、Yao,C.、Wu,W.、Yan,S.、Bai,X.(2018)。通过角点定位和区域分割实现多方向场景文本检测。IEEE计算机视觉和模式识别会议记录,第7553-7563页
[32] 马,J。;邵伟(Shao,W.)。;Ye,H。;Wang,L。;Wang,H。;郑毅。;Xue,X.,通过旋转提议进行任意定向场景文本检测,IEEE多媒体汇刊,20,11,3111-3122(2018)·doi:10.1109/TMM.2018.2818020
[33] 马塔斯,J。;查姆·O。;厄本,M。;Pajdla,T.,《来自最大稳定极值区域的鲁棒宽基线立体声》,图像和视觉计算,22,10,761-767(2004)·doi:10.1016/j.imavis.2004.02.006
[34] Mishra,A.、Alahari,K.、Jawahar,C.(2012)。基于高阶语言先验的场景文本识别
[35] Neumann,L.,Matas,J.(2012)。实时场景文本定位和识别。在IEEE计算机视觉和模式识别会议(CVPR)上,2012年,第3538-3545页。电气与电子工程师协会
[36] 诺依曼,L。;Matas,J.,实时无词典场景文本定位与识别,IEEE模式分析与机器智能汇刊,38,9,1872-1885(2016)·doi:10.1109/TPAMI.2015.2496234
[37] Nickolls,J。;巴克,I。;加兰,M。;Skadron,K.,使用cuda的可伸缩并行编程,Queue,6,2,40-53(2008)·doi:10.1145/1365490.1365500
[38] Nistér,D.,Stewénius,H.(2008)。线性时间最大稳定极值区域。在欧洲计算机视觉会议上,第183-196页。施普林格
[39] Redmon,J.、Divvala,S.、Girshick,R.、Farhadi,A.(2016)。你只看一次:统一的实时对象检测。IEEE计算机视觉和模式识别会议记录,第779-788页
[40] Ren,S.、He,K.、Girshick,R.、Sun,J.(2015)。更快的r-cnn:通过区域建议网络实现实时目标检测。神经信息处理系统进展,第91-99页
[41] 俄勒冈州Russakovsky。;邓,J。;苏,H。;克劳斯,J。;Satheesh,S。;马,S。;黄,Z。;Karpathy,A。;科斯拉,A。;Bernstein,M.,Imagenet大规模视觉识别挑战,国际计算机视觉杂志,115,3,211-252(2015)·doi:10.1007/s11263-015-0816-y
[42] Satuluri,V.,Parthasarathy,S.(2009年)。使用随机流的可伸缩图聚类:社区发现应用。第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第737-746页。ACM公司
[43] Satuluri,V.,Parthasarathy,S.,Ucar,D.(2010年)。蛋白质相互作用网络的马尔可夫聚类具有更好的平衡性和可扩展性。《第一届ACM生物信息学和计算生物学国际会议论文集》,第247-256页。ACM公司
[44] Semeniuta,S.、Severyn,A.、Barth,E.(2016)。无记忆丧失的反复辍学。arXiv预打印arXiv:1603.05118
[45] Shaw,P.、Uszkoreit,J.、Vaswani,A.(2018年)。使用相对位置表示法进行自我关注。arXiv预打印arXiv:1803.02155
[46] Shi,B.,Bai,X.,Belongie,S.(2017)。通过链接片段检测自然图像中的定向文本。IEEE计算机视觉和模式识别会议记录,第2550-2558页
[47] Shi,C.,Wang,C.,Xiao,B.,Zhang,Y.,Gao,S.,Zhang.(2013)。使用基于部分的树状结构字符检测的场景文本识别。在IEEE计算机视觉和模式识别会议论文集,第2961-2968页
[48] Shrivastava,A.,Gupta,A.,Girshick,R.(2016)。使用在线硬示例挖掘训练基于区域的对象检测器。IEEE计算机视觉和模式识别会议记录,第761-769页
[49] Simonyan,K.,Zisserman,A.(2014)。用于大规模图像识别的深度卷积网络。arXiv预打印arXiv:1409.1556
[50] 田振华、黄伟、何涛、何鹏、乔毅(2016)。用连接主义文本提议网络检测自然图像中的文本。在欧洲计算机视觉会议上,第56-72页。施普林格
[51] Tian,S.、Pan,Y.、Huang,C.、Lu,S.,Yu,K.、Lim Tan,C.(2015)。文本流:自然场景图像中的统一文本检测系统。IEEE计算机视觉国际会议论文集,第4651-4659页
[52] Van Dongen,S.M.(2001)。通过流模拟进行图形聚类。博士论文
[53] Wang,K.,Belongie,S.(2010年)。在野外发现单词。在欧洲计算机视觉会议上,第591-604页。施普林格
[54] Wang,T.、Wu,D.J.、Coates,A.、Ng,A.Y.(2012)。基于卷积神经网络的端到端文本识别。第21届模式识别国际会议(ICPR),2012年,第3304-3308页。电气与电子工程师协会
[55] 薛楚辉;陆世坚;詹方能,《通过边界语义感知和引导实现精确场景文本检测》,计算机视觉-ECCV 2018,370-387(2018),Cham:Springer International Publishing,Cham
[56] Yao,C.,Bai,X.,Liu,W.,Ma,Y.,Tu,Z.(2012)。检测自然图像中任意方向的文本。2012年IEEE计算机视觉和模式识别会议,第1083-1090页。电气与电子工程师协会
[57] Yao,C.、Bai,X.、Sang,N.、Zhou,X、Zhow,S.、Cao,Z.(2016)。通过整体多通道预测进行场景文本检测。arXiv预打印arXiv:1606.09002
[58] 姚,C。;Bai,X。;Liu,W.,《面向多个方向的文本检测和识别的统一框架》,IEEE Transactions on Image Processing,23,11,4737-4749(2014)·Zbl 1374.94430号 ·doi:10.1109/TIP.2014.2353813
[59] Yuliang,L.,Lianwen,J.,Shuaitao,Z.,Sheng,Z.(2017)。在野外检测曲线文本:新数据集和新解决方案。arXiv预打印arXiv:1712.02170
[60] Zamberletti,A.,Noce,L.,Gallo,I.(2014)。基于快速特征金字塔和多分辨率最大稳定极值区域的文本定位。在亚洲计算机视觉会议上,第91-105页。施普林格
[61] Zhang,S.,Liu,Y.,Jin,L.,Luo,C.(2018)。特征增强网络:一种精细的场景文本检测器。在第三十二届AAAI人工智能大会上
[62] Zhang,Z.,Shen,W.,Yao,C.,Bai,X.(2015)。自然场景中基于对称的文本行检测。IEEE计算机视觉和模式识别会议记录,第2558-2567页
[63] 张,Z.,张,C.,沈,W.,姚,C.,刘伟,白,X.(2016)。使用完全卷积网络的多方向文本检测。IEEE计算机视觉和模式识别会议记录,第4159-4167页
[64] 周,X.,姚,C.,温,H.,王,Y.,周,S.,何,W.,梁,J.(2017)。East:高效准确的场景文本检测器。IEEE计算机视觉和模式识别会议记录,第5551-556页
[65] Zhu,Y。;姚,C。;Bai,X.,场景文本检测和识别:最新进展和未来趋势,计算机科学前沿,10,1,19-36(2016)·doi:10.1007/s11704-015-4488-0
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。