不确定的图像字幕

作者

  • 郑聪飞 美团
  • 名媛范 美团
  • 李朱 美团
  • 黄俊时 美团
  • 魏晓明 美团
  • 魏晓林 美团

内政部:

https://doi.org/10.1609/aai.v37i1.25137

关键词:

简历:语言与愿景,简历:应用

摘要

众所周知,字幕中的一个单词的不确定性越高,就需要越多的相关上下文信息来确定它。然而,当前的图像字幕方法通常都是按顺序平等地考虑句子中所有单词的生成。在本文中,我们提出了一个不确定感知的图像字幕框架,该框架并行迭代地在现有单词之间插入不连续的候选单词,从容易到困难,直到收敛。我们假设句子中的高不确定性单词需要更多的先验信息才能做出正确的决定,并且应该在以后的阶段生成。由此产生的非自回归层次结构使字幕生成易于解释和直观。具体来说,我们利用图像条件下的bagof-word模型来测量单词的不确定性,并应用动态规划算法来构造训练对。在推理过程中,我们设计了一种不确定性自适应并行波束搜索技术,该技术产生了经验上的对数时间复杂度。在MS COCO基准上的大量实验表明,我们的方法在字幕质量和解码速度方面都优于强基线和相关方法。

下载

出版

2023-06-26

如何引用

Fei,Z.、Fan,M.、Zhu,L.、Huang,J.、Wei,X.和Wei,X(2023)。不确定性感知图像字幕。AAAI人工智能会议记录,37(1), 614-622. https://doi.org/10.1609/aaai.v37i1.25137

问题

章节

AAAI计算机视觉技术跟踪I