×

改进用于“文本到语音”转换的端到端场景文本识别方法。 (英语) Zbl 1474.68397号

摘要:自然场景图像中的文本检测和识别方法已成为计算机视觉领域的一个活跃研究课题,并在多个基准上取得了令人鼓舞的成果。在本文中,我们介绍了一种强大而简单的流水线,该流水线使用全卷积网络和Tesseract OCR引擎在自然场景图像中为乌兹别克语产生准确快速的文本检测和识别。首先,文本检测步骤使用单个完全卷积神经网络快速预测全彩色图像中随机方向的文本,从而丢弃多余的中间阶段。然后,文本识别步骤使用经过训练的Tesseract OCR引擎识别乌兹别克语,包括拉丁字母和西里尔字母。最后,可以使用乌兹别克语文本到语音合成器读出识别的文本。该方法在ICDAR 2013、ICDAR 2015和MSRA-TD500数据集上进行了测试,在有效检测和识别自然场景图像中的文本以帮助视力受损者方面显示出优势。

MSC公司:

68T45型 机器视觉和场景理解
68吨10 模式识别、语音识别
68T50型 自然语言处理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abdusalomov,A.,Mukhiddinov,M.,Djuraev,O.,Khamdamov,U.和Whangbo,T.K.,基于局部自适应阈值生成触觉图形的自动显著对象提取,应用。科学10(2020)3350。
[2] Cheng,Z.,Bai,F.,Xu,Y.,Zheng,G.,Pu,S.和Zhou,S.,《关注:实现自然图像中的准确文本识别》,Proc。IEEE Int.Conf.Computer Vision(意大利威尼斯,2017),第5076-5084页。
[3] Clavelli,A.、Karatzas,D.和Lladós,J.,复杂彩色图像文本提取算法评估框架,Proc。第九届IAPR文件分析系统国际研讨会(ACM,美国马萨诸塞州波士顿,2010),第19-26页。
[4] Deng,D.,Liu,H.,Li,X.和Cai,D.,Pixellink:通过实例分割检测场景文本,第三十二届AAAI人工智能大会(美国路易斯安那州新奥尔良,2018),第6773-6780页。
[5] Fan,Y.、Qian,Y.,Xie,F.L.和Soong,F.K.,基于双向LSTM递归神经网络的TTS合成,第十五届国际语音通信协会年会(新加坡,2014),1964-1968页。
[6] Guariglia,E.和Silvestrov,S.,《(D\prime(C)上正定分布和小波的分数小波分析》,《工程数学II》,编辑Silvestorov,S.和Rancic,M.,第179卷(Springer,2016),第337-353页·Zbl 1365.65294号
[7] Guariglia,E.,Harmonic Sierpinski垫片和应用,Entropy20(2018)714,https://doi.org/10.3390/e20090714。
[8] Guariglia,E.,原始性、分形和图像分析,Entropy21(2019)304,https://doi.org/10.3390/e21030304。 ·Zbl 1459.26011号
[9] He,T.,Huang,W.,Qiao,Y.和Yao,J.,用于场景文本检测的文本注意卷积神经网络,IEEE Trans。图像处理。25(6)(2016)2529-2541·Zbl 1408.94242号
[10] 何伟,张,X.Y.,尹,F.和刘,C.L.,面向场景文本检测的深度直接回归,Proc。IEEE Int.Conf.Computer Vision(意大利威尼斯,2017),第745-753页。
[11] Hongchan,Y.,Baek,K.-H.,Mukhidinov,M.和Jinsoo,C.,基于全局对比度增强和显著性切割的视觉障碍图像信息识别的显著性区域提取,KSII Trans。国际信息系统12(5)(2018)2287-2312。
[12] M.Jaderberg、K.Simonyan、A.Vedaldi和A.Zisserman,无约束文本识别的深层结构输出学习,预印本(2014),arXiv:1412.5903。
[13] Jaderberg,M.、Simonyan,K.、Vedaldi,A.和Zisserman,A.,《用卷积神经网络在野外阅读文本》,国际计算机杂志。见116(1)(2016)1-20。
[14] Jaderberg,M.、Vedaldi,A.和Zisserman,A.,《文本识别的深层特征》,《欧洲计算机视觉会议》(Springer,Cham,2014),第512-528页。
[15] Karatzas,D.、Gomez-Bigorda,L.、Nicolaou,A.、Ghosh,S.、Bagdanov,A.、Iwamura,M.、Matas,J.、Neumann,L.,Chandrasekhar,V.R.、Lu,S.和Shafait,F.,ICDAR 2015年稳健阅读竞赛,2015年第13届国际协调文件分析与识别(ICDAR)(IEEE,突尼斯突尼斯,2015年),第1156-1160页。
[16] Karatzas,D.,Shafait,F.,Uchida,S.,Iwamura,M.,iBigorda,L.G.,Mestre,S.R.,Mas,J.,Mota,D.F.,Almazan,J.A.和De Las Heras,L.P.,ICDAR 2013年稳健阅读竞赛,2013年第12届国际Conf.文件分析与识别(IEEE,华盛顿特区,2013),第1484-1493页。
[17] Khamdamov,U.R.、Mukhiddinov,M.N.、Mukhamedaminov,A.O.和Djuraev,O.N.,一种从自然场景图像和TTS中提取文本的新方法,欧洲。科学。第1版(11-12)(2018)30-33。
[18] Kim,K.C.,Byun,H.R.,Song,Y.J.,Choi,Y.W.,Chi,S.Y.,Kim,K.K.和Chung,Y.,《使用层次特征组合和验证在自然场景图像中提取场景文本》,Proc。第17届国际会议模式识别,ICPR 2004,第2卷(IEEE,英国剑桥,2004),第679-682页。
[19] Kim,E.,Lee,S.和Kim,J.,使用移动相机的焦点提取场景文本,2009年第十届国际会议文件分析和识别(巴塞罗那,2009年),第166-170页。
[20] Lee,C.Y.和Osindero,S.,《野外OCR注意建模递归递归网》,Proc。IEEE Conf.计算机视觉和模式识别(内华达州拉斯维加斯,2016),第2231-2239页。
[21] Lee,J.J.、Lee,P.H.、Lee,S.W.、Yuille,A.和Koch,C.,《自然场景中文本检测的Adaboost》,2011年国际会议文件分析与识别(IEEE,中国北京,2011),第429-434页。
[22] Lina,Y.、Hailong,S.、Cheng,Z.、Zuqiang,M.、Huiwu,L.、Xichun,L.,Yuan,Y.T.和Yang,L.《使用基于小波变换的平滑排序的高光谱图像分类》,国际J小波,多分辨率。Inf.流程17(6)(2019)1950050·Zbl 1434.62140号
[23] Z.Liu,G.Lin,S.Yang,J.Feng,W.Lin和W.L.Goh,用于场景文本检测的学习马尔可夫聚类网络,预印本(2018),arXiv:1805.08365。
[24] Long,S.,Ruan,J.,Zhang,W.,He,X.,Wu,W.和Yao,C.,TextSnake:检测任意形状文本的灵活表示,Proc。欧洲计算机视觉会议(ECCV)(Springer,Cham,2018),第20-36页。
[25] Lyu,P.,Yao,C.,Wu,W.,Yan,S.和Bai,X.,通过角点定位和区域分割的多方向场景文本检测,Proc。IEEE Conf.CVPR(犹他州盐湖城,2018),第7553-7563页。
[26] Mukhiddinov,M.N.、Akmuradov,B.U.和Djuraev,O.N.,《自然场景图像中乌兹别克语的鲁棒文本识别》,国际信息科学与通信技术应用、趋势和机遇委员会(塔什干,2019),第1-5页。
[27] Mukhiddinov,M.N.,《使用完全卷积网络的场景文本检测和定位》,《国际信息科学与通信技术应用、趋势和机遇》(塔什干,2019年),第1-5页。
[28] Otsu,N.,从灰度直方图中选择阈值的方法,IEEE Trans。系统。《人类网络》9(1)(1979)62-66。
[29] Pan,Y.F.,Hou,X.和Liu,C.L.,检测和定位自然场景图像中文本的混合方法,IEEE Trans。图像处理。20(3)(2010)800-813·兹比尔1372.94199
[30] Pan,Y.F.,Hou,X.和Liu,C.L.,《一个检测和定位自然场景图像中文本的鲁棒系统》,2008年第八届IAPR国际文档分析系统研讨会(IEEE,日本奈良,2008),第35-42页。
[31] Qian,Y.、Fan,Y.,Hu,W.和Soong,F.K.,《关于参数TTS合成的深度神经网络(DNN)的训练方面》,2014 IEEE Int.Conf.Acoustics,Speech and Signal Processing(ICASSP)(IEEE,Florence,Italy,2014),第3829-3833页。
[32] Shi,B.,Bai,X.和Belongie,S.,通过链接片段检测自然图像中的定向文本,Proc。IEEE Conf.计算机视觉和模式识别(夏威夷州火奴鲁鲁,2017),第3482-3490页。
[33] Shi,B.,Bai,X.和Yao,C.,基于图像的序列识别的端到端可训练神经网络及其在场景文本识别中的应用,IEEE Trans。模式分析。机器。Intell.39(11)(2016)2298-2304。
[34] Shi,B.,Wang,X.,Lyu,P.,Yao,C.和Bai,X.《具有自动校正的鲁棒场景文本识别》,Proc。IEEE Conf.计算机视觉和模式识别(内华达州拉斯维加斯,2016),第4168-4176页。
[35] Shi,B.,Yang,M.,Wang,X.,Lyu,P.,Yao,C.和Bai,X。模式分析。机器。情报41(9)(2018)2035-2048。
[36] Smith,R.,《Tesseract OCR引擎概述》,第九届国际会议文件分析与识别(ICDAR 2007),第2卷(IEEE,巴拉那,巴西,2007年),第629-633页。
[37] Tian,S.、Pan,Y.、Huang,C.、Lu,S.,Yu,K.和Tan,C.Lim,文本流:自然场景图像中的统一文本检测系统,Proc。IEEE Int.Conf.Computer Vision(圣地亚哥,2015),第4651-4659页。
[38] Wang,K.和Belongie,S.,《野外单词识别》,《欧洲计算机视觉会议》(Springer,Berlin,Heidelberg,2010),第591-604页。
[39] Wang,F.,Zhao,L.,Li,X.,Wang,X.和Tao,D.,Geometry-aware场景文本检测与实例转换网络,Proc。IEEE Conf.计算机视觉和模式识别(犹他州盐湖城,2018),第1381-1389页。
[40] Xianwei,Z.,Yuan,Y.T.和Jiantao,Z.《无向图上信号的自适应多尺度小波分解框架》,IEEE Trans。信号处理。67(7)(2019)1696-1711·Zbl 1458.94160号
[41] Xin,L.,He,Z.,Yiu-ming,C.,Xinge,Y.和Yuan,Y.T.,《有效的单幅图像去噪和去噪:一种有效的多尺度相关小波方法》,计算。视觉。图片Und.162(2017)23-33。
[42] Yao,C.,Bai,X.,Liu,W.,Ma,Y.和Tu,Z.,检测自然图像中任意方向的文本,2012年IEEE计算机视觉和模式识别会议(IEEE,普罗维登斯,罗德岛,2012),第1083-1090页。
[43] C.Yao,X.Bai,N.Sang,X.Zhou,S.Zhou和Z.Cao,通过整体多通道预测进行场景文本检测,预印本(2016),arXiv:1606.09002。
[44] Yuan,Y.T.,《利用小波和分形理论进行文档分析和识别》(世界科学出版社,新加坡,2012年),第372页·兹比尔1254.68011
[45] Ze,H.,Senior,A.和Schuster,M.,使用深度神经网络的统计参数语音合成,2013 IEEE Int.Conf.Acoustics,speech and Signal Processing(IEEE,加拿大不列颠哥伦比亚省温哥华,2013),第7962-7966页。
[46] Zhang、Z.、Zhang,C.、Shen,W.、Yao,C.、Liu,W.和Bai,X.,《全卷积网络的多方向文本检测》,Proc。IEEE Conf.计算机视觉和模式识别(内华达州拉斯维加斯,2016),第4159-4167页。
[47] 周,X.,姚,C.,温,H.,王,Y.,周,S.,何,W.和梁,J.,EAST:一种高效准确的场景文本检测器,Proc。IEEE Conf.计算机视觉和模式识别(夏威夷州火奴鲁鲁,2017),第2642-2651页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。