文本核重建与扩展实现任意形状文本检测

doi:10.3778/j.issn.1002-8331.2301-0074

摘要/摘要

摘要：基于分割的方法对自然场景中的文本进行像素级预测，大幅度提升了对任意形状文本的检测效果，但是如何有效分离相邻文本仍然是检测中的难题。目前广泛采用的方法是通过缩小文本注释边界得到文本核来分离相邻文本。然而，网络预测文本核时舍弃了文本核外大部分信息，降低了基于分割的文本检测方法的性能。为了解决这个问题，提出了一种文本核重建算法，将文本核的生成放在后处理阶段，通过网络预测的方向场将文本实例向内收缩形成文本核。同时，提出了一种文本核扩展算法用于将文本核恢复为完整的文本实例。实验表明，所提方法在总文本（88.66%）、CTW-1500（87.28%）和MSRA-TD500（90.65%）三个数据集上取得了相似或最好的检测性能。

关键词: 预测文，任意形状, 文本核

摘要：基于分割的方法用于自然场景中像素级文本预测，在检测任意形状文本方面有了显著的改进。然而，相邻文本的分离仍然是文本检测中的一个挑战。解决此问题的一种常见方法是使用文本内核，通过缩小注释边界来分隔相邻实例。虽然此方法在某些情况下有效，但它会丢弃文本内核之外的大量信息，这可能会降低基于分段的文本检测方法的性能。为了解决这一局限性，提出了一种文本核重建算法，将文本核的生成推迟到后处理阶段。该方法利用网络预测的方向场对文本实例进行内部收缩，从而形成文本核。此外，还提出了一种文本核扩展算法，用于从生成的文本核恢复全文实例。在Total-Text、CTW-1500和MSRA-TD500数据集上的实验表明，与现有方法（分别为88.66%、87.28%和90.65%）相比，该方法实现了相似或优越的检测性能。

关键词： 场景文本检测，任意形状，文本内核

邓胜军, 陈念年. 文本核重建与扩展实现任意形状文本检测[J] ●●●●。计算机工程与应用, 2024, 60(9): 228-236.

邓胜军、陈念年。用于任意形状文本检测的文本核重构与扩展[J]。计算机工程与应用，2024，60（9）：228-236。

参考文献

[1] MAFLA A，DEY S，BITEN A F，等.基于场景文本的细粒度图像分类与检索的多模式推理图[C]//IEEE/CVF计算机视觉应用冬季会议论文集，2021:4023-4033。
[2] KANG C，KIM G，YOO S.通过神经上下文模型检测和识别在线图像中嵌入的文本[C]//《AAAI人工智能会议论文集》，2017年。
[3] 朱毅，廖明，杨明，等.基于文本的交通标志检测级联分段检测网络[J]。IEEE智能交通系统汇刊，2017，19（1）：209-219。
[4] ZHOU X，YAO C，WEN H，et al.East:一种高效准确的场景文本检测器[C]//IEEE计算机视觉与模式识别会议论文集，2017:55551-5560。
[5] 廖敏，史斌，白霞.文本框++：一种面向单镜头的场景文本检测器[J]。IEEE图像处理汇刊，2018，27（8）：3676-3690。
[6] 李玉良，连文J，帅涛Z，等.野外曲线文本检测：新数据集与新解[J]。arXiv:1712.021702017年。
[7] CH'NG C K，CHAN C S.Total-text：用于场景文本检测和识别的综合数据集[C]//2017第14届IAPR国际文档分析与识别会议（ICDAR），2017:935-942。
[8] 徐毅，王毅，周伟，等.文本域：学习深度方向场用于不规则场景文本检测[J]。IEEE图像处理汇刊，2019，28（11）：5566-5579。
[9] 朱毅，杜J.Textmountain：通过实例分割实现准确的场景文本检测[J]。模式识别，2021，110:107336。
[10] 王伟，谢英，李霞，等.基于渐进尺度扩展网络的形状鲁棒文本检测[C]//IEEE/CVF计算机视觉与模式识别会议论文集，2019:9336-9345。
[11] WANG W，XIE E，SONG X等。使用像素聚合网络进行高效准确的任意形状文本检测[C]//IEEE/CFF国际计算机视觉会议论文集，2019:8440-8449。
[12] 廖M，WAN Z，姚C，等.基于微分二值化的实时场景文本检测[C]//AAAI人工智能会议论文集，2020：11474-11481。
[13] LIAO M，ZOU Z，WAN Z，等.基于微分二值化和自适应尺度融合的实时场景文本检测[J]。IEEE模式分析和机器智能汇刊，2023，45（1）：919-931。
[14] LIN T Y，DOLLáR P，GIRSHICK R，等.用于目标检测的特征金字塔网络[C]//IEEE计算机视觉和模式识别会议论文集，2017:2117-2125。
[15] 何凯，张旭，REN S，等.深度剩余网络中的身份映射[C]//欧洲计算机视觉会议，2016:630-645。
[16] 戴杰，齐赫，熊勇，等.可变形卷积网络[C]//IEEE国际计算机视觉会议论文集，2017:764-773。
[17] 朱旭，胡赫，林斯，等.可变形卷积v2:可变形性更强，结果更好[C]//IEEE/CVF计算机视觉与模式识别会议论文集，2019:9308-9316。
[18] BORGEFORS G.任意维距离变换[J]。计算机视觉、图形和图像处理，1984，27（3）：321-345。
[19] 张世新，朱世新，HOU J B，等.用于任意形状文本检测的深度关系推理图网络[C]//IEEE/CVF计算机视觉与模式识别会议论文集，2020：9699-9708。
[20] SHENG T，CHEN J，LIAN Z.Centripetaltext:一种用于场景文本检测的高效文本实例表示[C]//神经信息处理系统进展，2021:335-346。
[21]SHRIVASTAVA A，GUPTA A，GIRSHICK R.使用在线硬示例挖掘训练基于区域的目标检测器[C]//IEEE计算机视觉和模式识别会议论文集，2016:761-769。
[22]GUPTA A，VEDALDI A，ZISSERMAN A.自然图像中文本定位的合成数据[C]//IEEE计算机视觉和模式识别会议论文集，2016:2315-2324。
[23]姚C，白X，刘伟，等.自然图像中任意方向文本的检测[C]//2012 IEEE计算机视觉与模式识别会议，2012:1083-1090。
[24]LONG S，RUAN J，ZHANG W，et al.文本蛇：检测任意形状文本的一种灵活表示[C]//欧洲计算机视觉会议论文集，2018:20-36。
[25]姚C，白X，刘伟.面向多方向文本检测与识别的统一框架[J]。IEEE图像处理汇刊，2014，23（11）：4737-4749。
[26]NAYEF N，YIN F，BIZID I，et al.Icdar2017多语言场景文本检测和脚本识别鲁棒阅读挑战-RRC-MLT[C]//2017第14届IAPR国际文档分析与识别会议（ICDAR），2017:1454-1459。
[27]邓J，董伟，SOCHER R，等.ImageNet:一个大规模层次化图像数据库[C]//2009 IEEE计算机视觉与模式识别会议，2009。
[28]KINGMA D P，BA J.Adam：一种随机优化方法[J]。arXiv:1412.69802014年。
[29]史密斯·L·N，托宾·N。超级收敛：使用大学习率的神经网络的快速训练[C]//用于多域操作应用的人工智能和机器学习，2019：369-386。
[30]VATTI B R.多边形裁剪的通用解决方案[J]。ACM通讯，1992，35（7）：56-63。
[31]ZHANG S X，ZHU X，YANG C，et al.用于任意形状文本检测的自适应边界建议网络[C]//IEEE/CVF国际计算机视觉会议论文集，2021:1305-1314。
[32]ZHANG S X，ZHU X，CHEN L，等.基于概率图分割的任意形状文本检测[J]。IEEE模式分析和机器智能汇刊，2023，45（1）：2736-2750。