计算机工程与应用››2024,第60卷››问题(9):228-236。内政部:10.3778/j.issn.1002-8331.2301-0074

模式识别与人工智能 • 上一篇   下一篇

文本核重建与扩展实现任意形状文本检测

邓胜军,陈念年  

  1. 韩国621010
  • 日本:2024-05-01 发布日期:2024-04-29

用于任意形状文本检测的文本核重构与扩展

邓胜军、陈念年  

  1. 西南科技大学计算机科学与技术学院,四川绵阳,621010
  • 在线:2024-05-01 出版:2024-04-29

摘要:基于分割的方法对自然场景中的文本进行像素级预测,大幅度提升了对任意形状文本的检测效果,但是如何有效分离相邻文本仍然是检测中的难题。目前广泛采用的方法是通过缩小文本注释边界得到文本核来分离相邻文本。然而,网络预测文本核时舍弃了文本核外大部分信息,降低了基于分割的文本检测方法的性能。为了解决这个问题,提出了一种文本核重建算法,将文本核的生成放在后处理阶段,通过网络预测的方向场将文本实例向内收缩形成文本核。同时,提出了一种文本核扩展算法用于将文本核恢复为完整的文本实例。实验表明,所提方法在总文本(88.66%)、CTW-1500(87.28%)MSRA-TD500(90.65%)三个数据集上取得了相似或最好的检测性能。

关键词: 预测文, 任意形状, 文本核

摘要:基于分割的方法用于自然场景中像素级文本预测,在检测任意形状文本方面有了显著的改进。然而,相邻文本的分离仍然是文本检测中的一个挑战。解决此问题的一种常见方法是使用文本内核,通过缩小注释边界来分隔相邻实例。虽然此方法在某些情况下有效,但它会丢弃文本内核之外的大量信息,这可能会降低基于分段的文本检测方法的性能。为了解决这一局限性,提出了一种文本核重建算法,将文本核的生成推迟到后处理阶段。该方法利用网络预测的方向场对文本实例进行内部收缩,从而形成文本核。此外,还提出了一种文本核扩展算法,用于从生成的文本核恢复全文实例。在Total-Text、CTW-1500和MSRA-TD500数据集上的实验表明,与现有方法(分别为88.66%、87.28%和90.65%)相比,该方法实现了相似或优越的检测性能。

关键词: 场景文本检测, 任意形状, 文本内核