×

基于特征融合的自然场景文本信息挖掘方法。 (英语) Zbl 1520.68199号

摘要:作为信息传播的重要媒介,文本在众多应用中发挥着关键作用。然而,复杂和非结构化环境中的文本检测面临着巨大的挑战,例如存在杂乱的背景、外观变化和不均匀的照明条件。为了解决这个问题,本研究提出了一种利用多级边缘检测和上下文信息的文本检测框架。该框架与传统方法不同,它包含四个主要处理步骤,包括文本视觉显著区域检测以突出文本区域并减少背景干扰,多级边缘检测以增强传统笔划宽度变换结果,基于纹理和连接组件的集成可以准确区分文本和背景,上下文融合步骤可以恢复丢失的文本区域并提高文本检测的召回率。该方法在两个广泛使用的基准数据集上进行了评估,即国际文档分析与识别会议(ICDAR)2005数据集和ICDAR 2011数据集,结果表明了该方法的先进性。

MSC公司:

68T45型 机器视觉和场景理解

软件:

性格
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] M.A.Klllopotek,关于fci算法从数据学习贝叶斯网络的不足,Demonstr。数学。33(2000),第1期,181-194·Zbl 0952.68138号
[2] R.Pugliese、S.Regondi和R.Marini,《基于机器学习的方法:全球趋势、研究方向和监管观点》,《数据科学》。管理4(2021),19-29。
[3] J.Liu,J.He,Z.Tang,Y.Xie,W.Gui,T.Ma,et al.,工业过程质量指标软传感器建模的框架相关卷积融合网络和基于GRU的自关注双通道网络,IEEE Trans。系统。人类网络。系统。52(2022),第9期,5989-6002。
[4] R.Minetto,N.Thome,M.Cord,N.J.Leite,J.Stolfi,T-HOG:单行文本区域的有效基于梯度的描述符,模式识别J.模式识别Soc.46(2013),第3期,1078-1090。
[5] Y.Li、W.Jia、C.Shen和A.van den Hengel,《性格:野外文本的指示器》,IEEE Trans。图像处理。23(2014),第4期,1666-1677·Zbl 1374.94207号
[6] V.Khare、P.Shivakumara和P.Raveendran,一种用于视频中多方向运动文本检测的新的面向直方图的矩描述符,专家系统。申请。42(2015),编号2177627-7640。
[7] 魏玉川和林春晖,一种使用支持向量机的鲁棒视频文本检测方法,专家系统。申请。39(2012),第12期,10832-10840。
[8] 廖明明,邹振中,万振中,姚振中,白欣,可微分二值化和自适应尺度融合的实时场景文本检测,IEEE Trans。模式分析。机器智能。45(2022年),第1期,919-931。
[9] Y.Liu,R.Wang,G.Zhu,M.Liu,C.Han,X.He,et al.,EWST:一种具有去叠和定位细化功能的极端天气场景文本检测器,J.Electr。伊玛格。32(2023),第1期,013007。
[10] 蔡彦,刘彦,沈春川,金立群,李彦,D.尔古,基于动态卷积的任意形状场景文本检测,模式识别127(2022),108608。
[11] Q.Ye,Q.Huang,W.Gao,和D.Zhao,《图像和视频帧中快速而稳健的文本检测》,《图像视觉计算》。23(2005),第6期,565-576。
[12] S.M.Hanif和L.Prevost,使用约束AdaBoost算法在复杂场景图像中进行文本检测和定位,收录于:2009年第10届国际文档分析和识别会议,IEEE,2009年,第1-5页。
[13] H.Xu和F.Su,基于卷积神经网络的场景文本鲁棒分层检测方法,收录于:2015 IEEE多媒体与博览会国际会议,IEEE,2015,第1-6页。
[14] T.Wang、D.J.Wu、A.Coates和A.Y.Ng,卷积神经网络的端到端文本识别,摘自:《第21届国际模式识别会议论文集》(ICPR2012),IEEE,2012年,第3304-3308页。
[15] L.Sun,Q.Huo,W.Jia,and K.Chen,《基于广义颜色增强对比极值区域和神经网络的自然场景图像鲁棒文本检测》,第22届模式识别国际会议,IEEE,2014年,第2715-2720页。
[16] C.Shi,C.Wang,B.Xiao,Y.Zhang,and S.Gao,使用基于最大稳定极值区域的图模型进行场景文本检测,《模式识别快报》34(2013),第2期,第107-116页。
[17] X.C.Yin,X.Yin,K.Huang和H.W.Hao,自然场景图像中的鲁棒文本检测,IEEE Trans。模式分析机智能。36(2013),第5期,970-983。
[18] C.Mancas-Thillou和B.Gosselin,基于选择性度量聚类的彩色文本提取,《计算机视觉图像理解》107(2007),第1-2期,97-107。
[19] P.Shivakumara、T.Q.Phan和C.L.Tan,视频中多方向文本检测的拉普拉斯方法。IEEE跨模式分析机智能。33(2010),第2期,412-419。
[20] L.Sun、Q.Huo、W.Jia和K.Chen,一种稳健的自然场景图像文本检测方法。模式识别48(2015),第9期,2906-2920。
[21] B.Epshtein、E.Ofek和Y.Wexler,使用笔划宽度变换检测自然场景中的文本,收录于:2010年IEEE计算机学会计算机视觉和模式识别会议,IEEE,2010年,第2963-2970页。
[22] H.Xu、L.Xue和F.Su,基于鲁棒笔划宽度变换和深度信念网络的场景文本检测,载于:第十二届亚洲计算机视觉会议,新加坡,2014年11月1日至5日,修订论文集,第二部分,第12部分,施普林格国际出版公司,2015年,195-209年。
[23] T.Judd、K.Ehinger、F.Durand和A.Torralba,《学习预测人类的外表》。摘自:第十二届计算机视觉国际会议,IEEE,2009年,第2106-2113页。
[24] S.Karaoglu、J.C.Van Gemert和T.Gevers,对象阅读:用于对象识别的文本识别。in:Computer Vision-ECCV 2012。研讨会和演示:意大利佛罗伦萨,2012年10月7日至13日,《会议记录》,第三部分,第12部分,施普林格,柏林-海德堡,2012年,第456-465页。
[25] Q.Sun、Y.Lu和S.Sun,基于视觉注意的文本提取方法,收录于:第20届模式识别国际会议,IEEE,2010年,第3991-3995页。
[26] C.Xue、W.Zhang、Y.Hao、S.Lu、P.H.Torr和S.Bai,《语言问题:用于场景文本检测和识别的弱监督视觉语言预训练方法》,载于:第17届欧洲会议,以色列特拉维夫,2022年10月23日至27日,会议记录,第二十八部分,瑞士施普林格自然,查姆,2022,第284-302页。
[27] C.Gu,S.Wang,Y.Zhu,Z.Huang,K.Chen,场景文本识别的弱监督注意纠正,载于:第25届模式识别国际会议,IEEE,2021年,第779-786页。
[28] R.Achanta、S.Hemami、F.Estrada和S.Susstrunk,频率调谐显著区域检测,收录于:2009 IEEE计算机视觉和模式识别会议,IEEE,2009年,第1597-1604页。
[29] S.M.Lucas、A.Panaretos、L.Sosa、A.Tang、S.Wong、R.Young等人,ICDAR 2003稳健阅读竞赛:参赛作品、结果和未来方向,国际文献分析识别杂志(IJDAR)7(2005),105-122。
[30] S.M.Lucas,ICDAR 2005文本定位竞赛结果,载于:第八届国际文档分析与识别会议(ICDAR'05),IEEE,2005,第80-84页。
[31] A.Shahab、F.Shafait和A.Dengel,ICDAR 2011强健阅读比赛挑战2:在场景图像中阅读文本。摘自:2011年文件分析和识别国际会议,IEEE,2011年,第1491-1496页。
[32] C.Wolf和J.M.Jolion,用于评估对象检测和分割算法的对象计数/面积图,国际期刊《文档分析识别》(IJDAR)8(2006),第4期,280-296。
[33] Y.Li、C.Shen、W.Jia和A.Van Den Hengel,利用周围环境检测场景文本,收录于:IEEE图像处理国际会议,IEEE,2013年,第2264-2268页。
[34] C.Yi和Y.L.Tian,通过基于结构的划分和分组从自然场景中检测文本字符串。IEEE图像处理汇刊,20(2011),第9期,2594-2605·兹比尔1372.94358
[35] Q.Meng和Y.Song,具有显著区域的自然场景中的文本检测,摘自:第十届IAPR文件分析系统国际研讨会,IEEE,2012年,第384-388页。
[36] 姚荣良,王永清,翁立波,杨永平,基于连通分量和支持向量机的文本定位,2007年小波分析与模式识别国际会议,IEEE,2007年第3卷,第1418-1423页。
[37] R.Wang、N.Sang、R.Waang和X.Kuang,自然场景中文本检测的混合方法,收录于:MIPPR 2013:模式识别和计算机视觉,第8919卷,SPIE,2013年,第137-142页。
[38] J.Fabrizio、B.Marcotegui和M.Cord,街道图像中的文本检测,模式分析应用。16 (2013), 519-533.
[39] J.Zhang和R.Kasturi,使用边缘梯度和图谱进行文本检测,收录于:第20届模式识别国际会议,IEEE,2010年,第3979-3982页。
[40] Y.Li和H.Lu,通过笔划宽度检测场景文本。摘自:《第21届模式识别国际会议论文集》(ICPR2012),IEEE,2012年,第681-684页。
[41] A.Mohammadzadeh、M.H.Sabzalian和W.Zhang,区间3型模糊系统和新的在线分数阶学习算法:理论与实践,IEEE Trans。模糊系统。28(2020),第9期,1940-1950。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。