×

让我们加强:一种深度学习方法,用于文本图像的极端去模糊。 (英语) Zbl 07710850号

摘要:这项工作提出了一种新的基于深度学习的流水线,用于解决图像去模糊、增强和用合成数据进行预训练的逆问题。我们的结果建立在我们最近向赫尔辛基Deblur Challenge 2021提交的获奖报告的基础上,该报告的目标是探索最先进的去模糊算法在现实世界数据设置中的局限性。挑战的任务是对随机文本的离焦图像进行去模糊处理,从而在下游任务中最大化基于光学字符识别的评分函数。我们解决方案的一个关键步骤是对描述模糊过程的物理正向模型进行数据驱动估计。这使得合成数据流能够实时生成地面实况和模糊图像,用于广泛增强提供的少量挑战数据。实际的去模糊管道包括径向透镜畸变的近似反演(由估计的正向模型确定)和U-Net架构,该架构是端到端训练的。我们的算法是唯一通过最难挑战级别的算法,实现了70%以上的字符识别准确率。我们的发现很好地符合以数据为中心的机器学习范式,并且我们证明了它在逆向问题中的有效性。除了详细介绍我们的方法外,我们还分析了在一系列消融研究中几种设计选择的重要性。我们提交的质询的代码可从以下网址获得https://github.com/theophil-trippe/HDC_TUBerlin_version_1.

MSC公司:

94A08型 信息与通信理论中的图像处理(压缩、重建等)
68T07型 人工神经网络与深度学习
68单位10 图像处理的计算方法
68分20秒 人工智能背景下的问题解决(启发式、搜索策略等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Tesseract OCR,网址:https://github.com/tesseract-ocr/tesseract网站, 2022.,
[2] N.Adaloglou,《理解深卷积网络的感受野》,网址:https://theaisummer.com/receptive-field网址/, 2020.
[3] J.O.AdlerÖktem,学习原始对偶重建,IEEE Trans。医学图像。,37, 1322-1332 (2018) ·doi:10.1109/TMI.2018.2799231
[4] H.K.M.P.M.Aggarwal Mani Jacob,MoDL:基于模型的反问题深度学习体系结构,IEEE Trans。医学图像。,38, 394-405 (2018) ·doi:10.1109/TMI.2018.2865356
[5] J.R.Alvim、K.N.Filho、M.L.B.Junior、R.D.B.Brotto、R.da Rocha Lopes、T.A.P.P.Teixeira和V.C.Lima,圣保罗集团HDC提交文件,网址:https://github.com/vclima/deblur_submit网站, 2021.
[6] J.M.M.Anderson,使用延迟和算法重建的基于脉冲的前瞻性探地雷达图像的去模糊算法,InIEEE雷达会议(RadarConf18), 2018, 1377-1382.
[7] S.P.O.C.-B.Arridge MaasÖktem Schönlieb,使用数据驱动模型解决反问题,数字学报,28,1-174(2019)·Zbl 1429.65116号 ·doi:10.1017/S096249291900059
[8] Y.Bahat、N.Efrat和M.Irani,通过重新模糊进行非均匀盲去模糊,InIEEE国际计算机视觉会议(ICCV), 2017, 3306-3314.
[9] B.Bascle、A.Blake和A.Zisserman,从图像序列中去除运动模糊和超分辨率,In计算机科学课堂讲稿施普林格-柏林-海德堡出版社,1996571-582。
[10] J.M.Bioucas-Dias、M.A.T.Figueiredo和J.P.Oliveira,基于总变量的图像反褶积:优化-最小化方法,InIEEE国际声学会议语音和信号处理会议记录,2006年·Zbl 1178.94029号
[11] D.C.Brown,《透镜的偏心畸变》,摄影测量工程,32,444-462(1966)
[12] A.S.M.N.W.Bub Gondrom Maisl Uhlmann Arnold,平板探测器内部安装康普顿散射导致的图像模糊,测量科学与技术,18,1270-1277(2007)·doi:10.1088/0957-0233/18/5/013
[13] W.Demtröder,电动力学和光学,施普林格商学院,2019年。
[14] G.W.L.M.W.Donald Snyder Vanner,通过迭代去模糊的局部计算机断层扫描,18,582-588(1996)·doi:10.1002/sca.4950180808
[15] A.W.Fitzgibbon,多视角几何和镜头畸变的同时线性估计,InIEEE计算机学会计算机视觉和模式识别会议(CVPR), 2001.
[16] H.Gao,X.Tao,X.Shen和J.Jia,使用参数选择性共享和嵌套跳过连接的动态场景去模糊,InIEEE/CVF计算机视觉和模式识别会议(CVPR), 2019.
[17] M.Genzel、I.Gühring、J.Macdonald和M.März,通过深度学习实现断层图像逆问题的近精确恢复,编辑K.Chaudhuri、S.Jegelka、L.Song、C.Szepesvari、G.Niu和S.Sabato,第39届国际机器学习会议(ICML)会议记录, 2022, 7368-7381.
[18] M.Genzel、J.Macdonald和M.März,用深度神经网络解决反问题-包括鲁棒性?,IEEE传输。模式分析。机器。智力。, 2022.
[19] I.J.M.B.D.S.A.Y.Goodfellow Pouget-Abadie Mirza Xu Warde-Farley Ozair Courville Bengio,生成性对抗网络,ACM通信,63,139-144(2020)·doi:10.1145/3422622
[20] K.Gregor和Y.LeCun。,学习稀疏编码的快速近似,In第27届国际机器学习会议(ICML)会议记录, 2010,399-406.
[21] K.J.C.J.R.M.D.Hammernik Schlember Qin Duan Summers Rueckert,利用灵敏度加权线圈组合快速并行mri重建迭代深度神经网络的系统评估,Magn。Reson公司。医学,86,1859-1872(2021)·doi:10.1002每分钟2.8827
[22] P.C.Hansen、J.G.Nagy和D.P.O'Leary,消除图像模糊工业和应用数学学会(SIAM),2006年·Zbl 1112.68127号
[23] G.Hinton、O.Vinyals和J.Dean,《在神经网络中提取知识》,Preprint,arXiv:153.025312015年。
[24] D.P.Kingma和J.L.Ba,Adam:随机优化方法,预印本,arXiv:1412.6980,2014年。
[25] D.P.Kingma和M.Welling,自动编码变分贝叶斯,预打印,arXiv:1312.6114,2013年。
[26] M.Knudsen、F.L.-S.Pedersen和K.Scheel,DTU group 1提交的HDC,网址:https://github.com/KennethScheel/HDC_2021_team_DTU_1, 2021.
[27] O.Kupyn,V.Budzan,M.Mykhailych,D.Mishkin和J.Matas,Deblurgan:使用条件对抗性网络的盲运动去模糊,InIEEE/CVF国际计算机视觉和模式识别会议(CVPR), 2018.
[28] O.Kupyn、T.Martyniuk、J.Wu和Z.Wang,Deblurgan-v2:更快更好地消除模糊(数量级),InIEEE/CVF国际计算机视觉会议(ICCV), 2019, 8877-8886.
[29] V.I.Levenshtein,《能够纠正删除、插入和反转的二进制码》,《苏联物理学杜克拉迪》,第10707-710页(1966年)·Zbl 0149.15905号
[30] A.Levin、Y.Weiss、F.Durand和W.T.Freeman,理解和评估盲反褶积算法,InIEEE计算机视觉与模式识别会议(CVPR), 2009, 1964-1971.
[31] J.Z.Y.Li Liu Yao,成像传感器的离焦模糊检测和估计,sensors,18,1135(2018)·doi:10.3390/s18041135
[32] V.Y.Y.C.Monga Li Eldar,《算法展开:信号和图像处理的可解释、高效深度学习》,IEEE信号处理。Mag.,38,18-44(2021年)·doi:10.1109/MSP.2020.3016905
[33] S.Nah,T.H.Kim和K.M.Lee,用于动态场景去模糊的深度多尺度卷积神经网络,InIEEE计算机视觉与模式识别会议(CVPR), 2017.
[34] A.Ng,与Andrew关于MLOps的聊天:从以模型为中心到以数据为中心的人工智能,网址:https://youtu.be/06-AZXmwHjo, 2021.
[35] S.I.Nikolenko,用于深度学习的合成数据,预印本,arXiv:1909.115122019年。
[36] T.M.Nimisha、A.K.Singh和A.N.Rajagopalan,《盲去模糊的模糊不变深度学习》,InIEEE国际计算机视觉会议(ICCV), 2017, 4762-4770.
[37] G.A.C.R.G.A.G.R.Ongie Jalal Metzler Baraniuk Dimakis Willett,成像逆问题的深度学习技术,IEEE信息理论选定领域期刊,139-56(2020)·doi:10.1109/JSAIT.2020.2991563
[38] A.Paszke、S.Gross、S.Chintala、G.Chanan、E.Yang、Z.DeVito、Z.Lin、A.Desmaison、L.Antiga和A.Lerer,《PyTorch中的自动区分》,对NIPS 2017 Autodiff研讨会的贡献,在线提供:https://openreview.net/论坛?id=BJJsrmfCZ,2017年。
[39] F.H.Pedersen、M.E.Dahlgaard、M.T.R.Henriksen和R.O.Ochoa,DTU第2组提交的HDChttps://github.com/raulorteg/HDC2021_Team_DTU, 2021.
[40] D.M.Pelt,莱顿大学集团提交的HDC,URL:https://github.com/dmpelt/hdc2021_pelt, 2021.
[41] O.Ronneberger,P.Fischer和T.Brox,U-net:生物医学图像分割的卷积网络,In国际医学图像计算和计算机辅助干预会议(MICCAI),施普林格,2015234-241。
[42] G.Ros,L.Sellart,J.Materzynska,D.Vazquez和A.M.Lopez,《SYNTHIA数据集:用于城市场景语义分割的大量合成图像集》,InIEEE计算机视觉与模式识别会议(CVPR), 2016.
[43] L.I.S.E.Rudin Osher Fatemi,基于非线性总变差的噪声去除算法,《物理D:非线性现象》,60,259-268(1992)·Zbl 0780.49028号 ·doi:10.1016/0167-2789(92)90242-F
[44] C.J.M.S.B.Schuler Hirsch Harmeling Scholkopf,学习去模糊,IEEE Trans。模式分析。机器。智力。,38, 1439-1451 (2015) ·doi:10.1109/TPAMI.2015.2481418
[45] S.Siltanen、M.Juvonen和F.Moura,赫尔辛基德布尔挑战2021,URL:https://www.aapm.org/GrandChallenge/DL-sparse-view-CT/, 2021.
[46] S.Siltanen、M.Juvonen和F.Moura,2021年赫尔辛基德布尔挑战赛-结果,URL:https://zenodo.org/record/4916176, 2021.
[47] S.Siltanen、M.Juvonen和F.Moura,2021年赫尔辛基德布尔挑战赛-结果,URL:https://www.fips.fi/HDC结果.php#anchor1, 2021.
[48] X.Tao,H.Gao,X.Shen,J.Wang和J.Jia,深度图像去模糊的尺度递归网络,InIEEE/CVF计算机视觉和模式识别会议(CVPR), 2018.
[49] A.N.Tikhonov和V.Y.Arsenin,不适定问题的解决方案威利,1977年·兹比尔0354.65028
[50] T.Trippe、M.Genzel、M.März和J.Macdonald,TU Berlin Group提交的HDC,URL:https://github.com/theophil-trippe/HDC_TUBerlin_version_1, 2021.
[51] A.T.L.王秋韶,一种简单的基于畸变中心估计的径向畸变校正方法,数学成像与视觉杂志,35,165-172(2009)·doi:10.1007/s10851-009-0162-1
[52] L.J.L.H.-Y.袁孙权Shum,模糊/噪声图像对的图像去模糊,ACM图形汇刊,26,1-es(2007)·数字对象标识代码:10.1145/1275808.1276379
[53] K.Zhang,W.Luo,Y.Zhong,L.Ma,B.Stenger,W.Liu和H.Li,通过现实模糊消除模糊,InIEEE/CFF计算机视觉与模式识别会议(CVPR), 2020.
[54] K.W.W.W-S.B.M.-H.H.H.张仁洛赖Stenger Yang Li,深度图像去模糊:一项调查,国际计算机视觉杂志,130,2103-2130(2022)·doi:10.1007/s11263-022-0163-5
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。