\`x^2+y_1+z_12^34\`
高级搜索
文章内容
文章内容

让我们增强:一种对文本图像进行极端去模糊的深度学习方法

  • *通讯作者:Theophil Trippe

    *通讯作者:Theophil Trippe

1这项工作是在荷兰乌得勒支大学完成的
2这项工作是在加入亚马逊之前完成的。

摘要 全文(HTML) (23) 相关论文 引用人
  • 本文提出了一种新的基于深度学习的流水线,用于解决图像去模糊、增强和用合成数据进行预训练的逆问题。我们的成果建立在我们向最近赫尔辛基德布尔挑战2021,其目标是探索最先进的去模糊算法在现实世界数据设置中的局限性。挑战的任务是对随机文本的离焦图像进行去模糊处理,从而在下游任务中最大化基于光学字符识别的评分函数。我们解决方案的一个关键步骤是对描述模糊过程的物理正向模型进行数据驱动估计。这使得合成数据流能够实时生成地面实况和模糊图像,用于广泛增强提供的少量挑战数据。实际的去模糊管道包括径向透镜畸变的近似反演(由估计的正向模型确定)和U-Net架构,该架构是端到端训练的。我们的算法是唯一一个通过最难挑战级别的算法,实现了超过$70\%$的字符识别精度。我们的发现很好地符合以数据为中心的机器学习范式,并且我们证明了它在逆向问题中的有效性。除了详细介绍我们的方法外,我们还分析了在一系列消融研究中几种设计选择的重要性。我们提交的质询的代码可从以下网址获得https://github.com/theophil-trippe/HDC_TUBerlin_version_1

    数学学科分类:一次:94A08、68T07;次要:68T20。

    引文:

    \开始{方程式}\\结束{方程式{
  • 加载中
  • 图1。 具有不同模糊级别(左栏和右栏)的HDC数据集示例。模糊的严重程度随着每个级别的增加而增加(总共20个,范围从0到19)。中间的列显示了使用基于深度学习的管道进行的相应重建(示例取自验证集)

    图2。 我们去模糊管道的示意图。左上角(绿色):合成数据以增加可用的HDC训练数据(此处省略了第3.1节中描述的背景删除步骤的详细信息;参见图6精确描述该步骤)。中心(紫色):重建管道由反向透镜畸变和改进的U-Net结构组成。底部:修改后的架构不同于普通的U-Net(参见[41])通过增加引入池层和额外的下采样和上采样水平,增加整体感受野

    图3。 径向透镜畸变引起的坐标变形可视化

    图4。 HDC实验装置图解取自[46]. 在半透明分束镜的帮助下,两个相同的照相机瞄准相同的电子墨水显示器

    图5。 显示文本(顶行)和校准目标(第二行)的清晰和模糊图像的HDC训练数据对示例。在提交截止日期之前,参与者不知道测试数据(第三行)和健全性检查数据(最下面一行)的示例

    图6。 具有背景去除和添加功能的前向模糊模型示意图。背景(bg)$\mathbf{x} _0(0)$及其对应的模糊版本$\mathbf{y} _0(0)$根据提供的显示单个中心点的校准目标进行估算。它们分别在离散卷积之前和之后与估计的模糊核相减和相加

    图7。 估计内核$\mathbf{k} _B(_B)$用于增强对比度的模糊级别4、9、14和19。八角形状是现代光圈的多边形快门透镜的典型形状,这表明这些估计的内核反映了潜在的物理现实

    图8。 来自(a)原始HDC数据、(b)合成HDC数据和(c)合成健全性检查数据的清晰和模糊图像对示例。所有模糊图像对应相同的模糊级别

    图9。 示例重建结果(右栏)以及模糊级别4、9、14和19的清晰地面真实图像(左栏)和模糊输入图像(中栏)。对于级别14和19,显示了两种字体(上部:Times New Roman,下部:Verdana)。右栏显示了这些特定样本的OCR得分,为了完整性,还报告了标准评估指标SSIM和PSNR;看见图14,图19图20对应的平均分数

    图10。 从HDC健全性检查数据重建两个分布外图像的示例,显示模糊级别4、9、14和19

    图11。 HDC结果总结。该图绘制了模糊度与每个参与团队在HDC测试集中取得的平均OCR得分的对比。我们的获奖作品以粗线条突出显示。请注意,一些团队提交了多种方法,我们在每种情况下都采用了最准确的方法

    图12。 将HDC数据集的模糊图像与两个模拟正向模型的结果进行比较:一个简单的模型,仅使用与单个空间不变模糊核的卷积,另一个来自第3.1节,使用考虑径向透镜畸变的空间可变模糊核

    图13。 可视化估计的径向透镜畸变和对应的反向畸变,显示模糊级别4、9、14和19

    图14。 第4.3节中给出了所有消融研究的OCR评分汇总。类似于图11,OCR得分计算为挑战测试集的平均值。每一行对应于我们最终挑战提交的不同修改,以粗体线突出显示。有关报告SSIM和PSNR的类似图,请参见图19图20附录A.1

    图15。 比较仅基于合成数据训练的去模糊网络(=仅预训练)、仅基于原始HDC数据训练的网络(=只微调)和第3.4节训练的网络

    图16。 无初始反向径向畸变(中柱)和第3.3节(右柱)所述初始反向径向失真的U形网去模糊比较;看见图17用于缩放级别19的结果

    图17。 标高19的缩放图16,将无(左)和(右)反向径向畸变的U形网的去模糊结果作为初始步骤进行比较

    图18。 不同深度的去模糊U-Nets的比较(=向下和向上采样步骤的数量)

    图19。 第4.3节中消融研究的平均SSIM得分;囊性纤维变性。图14

    图20。 第4.3节中消融研究的平均PSNR得分;囊性纤维变性。图14

    图21。 测试数据集示例的分发外性能。图像取自模糊级别$i=4、9、14、17$和19,而使用的重建管道已在更容易的级别$i-1$和$i-2$上进行了训练(右列=级别$i$的管道,以供参考)

    图22。 测试数据集示例的分发外性能。图像取自模糊级别$i=4、9、14$和17,而使用的重建管道已在较难级别$i+1$和$i+2$上进行了训练(右列=级别$i$的管道,以供参考)。请注意,对于级别$i=19$,没有相应的管道,这解释了为什么我们将级别17包含在内

    图23。 最终管道测试数据的平均OCR得分,但适用于相邻级别

  • [1] Tesseract OCR,网址:https://github.com/tesseract-ocr/tesseract网站, 2022.,
    [2] N.Adaloglou,《理解深卷积网络的感受野》,网址:https://theaisummer.com/receptive-field网址/, 2020.
    [3] J.阿德勒O.Øktem学习的原-对偶重建,IEEE传输。医学图像。,37(2018), 1322-1332. 数字对象标识:10.1109/TMI.2018.2799231。
    [4] 香港阿加瓦尔M.P.Mani先生M.雅各布,MoDL:基于模型的反问题深度学习体系结构,IEEE传输。医学图像。,38(2018), 394-405. 数字对象标识:10.1109/TMI.2018.2865356。
    [5] J.R.Alvim、K.N.Filho、M.L.B.Junior、R.D.B.Brotto、R.da Rocha Lopes、T.A.P.P.Teixeira和V.C.Lima,圣保罗集团HDC提交文件,网址:https://github.com/vclima/deblur_submit网站, 2021.
    [6] J.M.M.Anderson,使用延迟和算法重建的基于脉冲的前瞻性探地雷达图像的去模糊算法,InIEEE雷达会议(RadarConf18), 2018, 1377-1382.数字对象标识:10.1109/RADAR.2018.8378765。
    [7] S.Arridge公司P.马斯O.ØktemC.-B.舍恩利布,使用数据驱动模型解决反问题,数字学报,28(2019), 1-174. 数字对象标识:10.1017/S096249291900059。
    [8] Y.Bahat、N.Efrat和M.Irani,通过再模糊进行非均匀盲去模糊,InIEEE国际计算机视觉会议(ICCV), 2017, 3306-3314.数字对象标识:10.1109/ICCV.2017.356。
    [9] B.Bascle、A.Blake和A.Zisserman,从图像序列中去除运动模糊和超分辨率,In计算机科学课堂讲稿施普林格-柏林-海德堡出版社,1996571-582。数字对象标识:10.1007/3-540-61123-1_171。
    [10] J.M.Bioucas-Dias、M.A.T.Figueiredo和J.P.Oliveira,基于总变量的图像反褶积:优化-最小化方法,InIEEE国际声学会议语音和信号处理会议记录, 2006.
    [11] D.C.布朗、透镜的偏心畸变,摄影测量工程,32(1966), 444-462. 
    [12] A.气囊南部Gondrom迈斯尔先生N.乌尔曼W.阿诺德,由于内部安装处的康普顿散射,平板探测器中的图像模糊,测量科学与技术,18(2007), 1270-1277. 数字对象标识:10.1088/0957-0233/18/5/013.
    [13] W.Demtröder,电动力学和光学,施普林格商学院,2019年。
    [14] G.W.唐纳德L.斯奈德M.W.Vanner先生,通过迭代去模糊进行局部计算机断层扫描,正在扫描,18(1996), 582-588. 数字对象标识:10.1002/sca.4950180808。
    [15] A.W.Fitzgibbon,多视角几何和镜头失真的同时线性估计,InIEEE计算机学会计算机视觉和模式识别会议(CVPR), 2001.数字对象标识:10.1109/CVPR.2001.990465。
    [16] H.Gao,X.Tao,X.Shen和J.Jia,使用参数选择性共享和嵌套跳过连接的动态场景去模糊,InIEEE/CVF计算机视觉和模式识别会议(CVPR), 2019.数字对象标识:10.1109/CVPR.2019.00397。
    [17] M.Genzel、I.Gühring、J.Macdonald和M.März,通过深度学习实现层析成像逆问题的近精确恢复,In K.Chaudhuri、S.Jegelka、L.Song、C.Szepesvari、G.Niu和S.Sabato,编辑,第39届国际机器学习会议(ICML)会议记录, 2022, 7368-7381.
    [18] M.Genzel、J.Macdonald和M.März,用深度神经网络解决反问题-包括鲁棒性?,IEEE传输。模式分析。机器。因特尔。, 2022.数字对象标识:10.1109/TPAMI.2022.3148324。
    [19] I.古德费罗J.Pouget-Abadie公司米尔扎B.徐D.沃德·法利S.Ozair公司A.库尔维尔Y.本吉奥、生成性对抗网络、,ACM通信,63(2020), 139-144. 数字对象标识:10.1145/3422622.
    [20] K.Gregor和Y.LeCun。,学习稀疏编码的快速近似,In第27届国际机器学习会议(ICML)会议记录, 2010,399-406.
    [21] K.哈默尼克J.Schlember(施莱默)C.秦J.段R.M.萨默斯D.鲁克特迭代深度神经网络用于灵敏度加权线圈组合的快速并行mri重建的系统评估,Magn.公司。Reson公司。医学。,86(2021), 1859-1872. 数字对象标识:10.1002/mrm.28827。
    [22] P.C.Hansen、J.G.Nagy和D.P.O'Leary,消除图像模糊工业和应用数学学会(SIAM),2006年。数字对象标识:10.1137/1.9780898718874。
    [23] G.Hinton、O.Vinyals和J.Dean,《在神经网络中提取知识》,预印本,arXiv公司:1503.02531, 2015.
    [24] D.P.Kingma和J.L.Ba,Adam:随机优化方法,预印本,arXiv:1412.6980, 2014.
    [25] D.P.Kingma和M.Welling,自动编码变分贝叶斯,预打印,arXiv:1312.6114, 2013.
    [26] M.Knudsen、F.L.-S.Pedersen和K.Scheel,DTU group 1提交的HDC,网址:https://github.com/KennethScheel/HDC_2021_team_DTU_1, 2021.
    [27] O.Kupyn、V.Budzan、M.Mykhailych、D.Mishkin和J.Matas,《Deblurgan:使用条件对抗网络的盲运动去模糊》,InIEEE/CVF国际计算机视觉和模式识别会议(CVPR), 2018.数字对象标识:10.1109/CVPR.2018.00854。
    [28] O.Kupyn、T.Martyniuk、J.Wu和Z.Wang,Deblurgan-v2:更快更好地消除模糊(数量级),InIEEE/CVF国际计算机视觉会议(ICCV), 2019, 8877-8886.数字对象标识:10.1109/ICCV.2019.00897。
    [29] V.I.列文斯坦,能够纠正删除、插入和反转的二进制代码,苏联物理学杜克拉迪,10(1966), 707-710. 
    [30] A.Levin、Y.Weiss、F.Durand和W.T.Freeman,理解和评估盲反褶积算法,InIEEE计算机视觉和模式识别会议(CVPR), 2009, 1964-1971.数字对象标识:10.1109/CVPR.2009.5206815。
    [31] J.李Z.刘姚毅(Y.Yao)、成像传感器的散焦模糊检测和估计,传感器,18(2018),1135数字对象标识:10.3390/s18041135。
    [32] V.蒙加Y.Li(李彦宏)Y.C.埃尔达尔算法展开:信号和图像处理的可解释、高效的深度学习,IEEE信号处理。美格。,38(2021), 18-44. 数字对象标识:10.1109/MSP.2020.3016905。
    [33] S.Nah,T.H.Kim和K.M.Lee,用于动态场景去模糊的深度多尺度卷积神经网络,InIEEE计算机视觉和模式识别会议(CVPR), 2017.数字对象标识:10.1109/CVPR.2017.35。
    [34] A.Ng,与Andrew就MLOps聊天:从以模型为中心到以数据为中心的人工智能,网址:https://youtu.be/06-AZXmwHjo, 2021.
    [35] S.I.Nikolenko,用于深度学习的合成数据,预打印,arXiv:1909.11512年, 2019.数字对象标识:10.1007/978-3-030-75178-4.
    [36] T.M.Nimisha、A.K.Singh和A.N.Rajagopalan,《盲去模糊的模糊不变深度学习》,InIEEE国际计算机视觉会议(ICCV), 2017, 4762-4770.数字对象标识:10.1109/ICCV.2017.509。
    [37] G.昂吉A.贾拉尔C.A.梅茨勒R.G.巴拉纽克A.G.迪马基斯R.威利特成像反问题的深度学习技术,IEEE信息理论选定领域杂志,1(2020), 39-56. 数字对象标识:10.1109/j等待.2020.2991563。
    [38] A.Paszke、S.Gross、S.Chintala、G.Chanan、E.Yang、Z.DeVito、Z.Lin、A.Desmaison、L.Antiga和A.Lerer,《PyTorch中的自动区分》,对NIPS 2017 Autodiff研讨会的贡献,在线提供:https://openreview.net/forum?id=BJJsrmfCZ, 2017.
    [39] F.H.Pedersen、M.E.Dahlgaard、M.T.R.Henriksen和R.O.Ochoa,DTU第2组提交的HDC,https://github.com/raulorteg/HDC2021_Team_DTU, 2021.
    [40] D.M.Pelt,莱顿大学集团提交的HDC,URL:https://github.com/dmpelt/hdc2021_pelt, 2021.
    [41] O.Ronneberger,P.Fischer和T.Brox,U-net:生物医学图像分割的卷积网络,In医学图像计算和计算机辅助干预国际会议(MICCAI),施普林格,2015234-241。数字对象标识:10.1007/978-3-319-24574-4_28.
    [42] G.Ros、L.Sellart、J.Materzynska、D.Vazquez和A.M.Lopez,合成数据集:用于城市场景语义分割的大量合成图像集合,InIEEE计算机视觉和模式识别会议(CVPR), 2016.数字对象标识:10.1109/CVPR.2016.352。
    [43] L.I.鲁丁S.Osher公司E.法特米、基于非线性全变分的噪声去除算法,物理D:非线性现象,60(1992), 259-268. 数字对象标识:2016年10月17日-2789(92)90242-F。
    [44] C.J.舒勒M.赫希S.哈梅林B.肖尔科夫学习去模糊,IEEE传输。模式分析。机器。因特尔。,38(2015), 1439-1451. 数字对象标识:10.1109/TPAMI.2015.2481418。
    [45] S.Siltanen、M.Juvonen和F.Moura,赫尔辛基德布尔挑战2021,URL:https://www.aapm.org/GrandChallenge/DL-sparse-view-CT/, 2021.
    [46] S.Siltanen、M.Juvonen和F.Moura,2021年赫尔辛基德布尔挑战赛-结果,URL:https://zenodo.org/record/4916176, 2021.
    [47] S.Siltanen、M.Juvonen和F.Moura,2021年赫尔辛基德布尔挑战赛-结果,URL:https://www.fips.fi/HDC结果.php#anchor1, 2021.
    [48] X.Tao,H.Gao,X.Shen,J.Wang和J.Jia,深度图像去模糊的尺度递归网络,InIEEE/CVF计算机视觉和模式识别会议(CVPR), 2018.数字对象标识:10.1109/CVPR.2018.00853。
    [49] A.N.Tikhonov和V.Y.Arsenin,不适定问题的解决方案,威利,1977年。
    [50] T.Trippe、M.Genzel、M.März和J.Macdonald,TU Berlin Group提交的HDC,URL:https://github.com/theophil-trippe/HDC_TUBerlin_version_1,2021年。
    [51] A.王T.邱L·邵,一种简单的径向畸变校正方法,带有畸变中心估计,数学成像与视觉杂志,35(2009), 165-172. 数字对象标识:10.1007/s10851-009-0162-1。
    [52] L·袁J.孙L.Quan先生H.-Y.Shum先生,使用模糊/噪声图像对进行图像去模糊,ACM图形事务,26(2007),1-es数字对象标识:10.1145/1275808.1276379.
    [53] K.Zhang,W.Luo,Y.Zhong,L.Ma,B.Stenger,W.Liu和H.Li,通过现实模糊消除模糊,InIEEE/CVF计算机视觉和模式识别会议(CVPR), 2020.数字对象标识:10.1109/CVPR42600.2020.00281。
    [54] K·张W.Ren先生W.罗W.-S.赖B.支架M.-H.杨H.李,深度图像去模糊:一项调查,国际计算机视觉杂志,130(2022), 2103-2130. 数字对象标识:10.1007/s11263-022-0163-5。
  • 加载中

数字(23)

分享

文章指标

HTML视图(1691) PDF下载(144) 引用人(0)

访问历史记录

目录

    /

    返回
    返回