研究论文

使用Transformer的自下而上和自上而下的图像字幕方法

作者:

桑迪普·纳拉扬帕拉梅斯瓦兰,

苏克亨德达斯作者信息和声明

ICVGIP’18：第11届印度计算机视觉、图形和图像处理会议记录

文章编号：38，页数1-9

https://doi.org/10.1145/32933353.3293391

出版:2020年5月3日出版历史

获取访问权限

摘要

图像内容的自动描述一直是人工智能和计算机视觉领域的一个基本问题。现有的方法要么是自上而下的，即从图像的简单表示开始，然后将其转换为文本描述；或者自下而上，它提供了描述图像多个方面的属性，以形成标题或两者的组合。由长短期记忆网络（LSTM）增强的递归神经网络（RNN）已成为解决图像字幕任务的几个框架的主要组件。尽管它们能够减少消失梯度问题，并捕获相关性，但它们在时间上具有内在的顺序性。在这项工作中，我们提出了两种新的方法，一种是自上而下的方法，另一种是自底向上的方法，它通过使用Transformer（一种完全依赖注意机制生成序列的网络架构）来完全避免重复。引入了图像中空间位置的自适应位置编码和训练期间的新正则化成本。我们的模型能够自动聚焦图像中的显著区域，这一点在视觉上得到了证明。在MS-COCO数据集上对所提出的体系结构进行了实验评估，以展示我们的方法的优越性。

工具书类

[1]

彼得·安德森、巴苏拉·费尔南多、马克·约翰逊和斯蒂芬·古尔德。2016年。Spice:语义命题图片说明评估。欧洲计算机视觉会议（ECCV）论文集。382--398.

[2]

彼得·安德森、何晓东、克里斯·布勒、达米安·特尼、马克·约翰逊、斯蒂芬·古尔德和张磊。2018年。图像字幕和视觉问题解答的自下而上和自上而下关注。IEEE计算机视觉和模式识别会议（CVPR）论文集。

[3]

Jyoti Aneja、Aditya Deshpande和Alexander G.Schwing。2018.卷积图像字幕。IEEE计算机视觉和模式识别会议（CVPR）论文集。

[4]

Satanjeev Banerjee和Alon Lavie。2005.METEOR：机器翻译评估的自动指标，与人类判断的相关性得到改善。计算语言学协会（ACL）研讨会论文集，第29卷。65--72.

[5]

贾登、魏东、理查德·索彻、李佳丽、凯丽和李飞飞。2009年，Imagenet：大型分层图像数据库。IEEE计算机视觉和模式识别会议（CVPR）论文集。248--255.

[6]

雅各布·德夫林（Jacob Devlin）、索拉巴·古普塔（Saurabh Gupta）、罗斯·吉希克（Ross Girshick）、玛格丽特·米切尔（Margaret Mitchell）和C·劳伦斯·齐特尼克（C Lawrence。2015.探索图像字幕的最近邻方法。arXiv预印本arXiv:1505.04467（2015）。

[7]

J.Donahue、L.A.Hendricks、S.Guadarrama、M.Rohrbach、S.Venugopalan、T.Darrell和K.Saenko。2015.用于视觉识别和描述的长期循环卷积网络。IEEE计算机视觉和模式识别会议（CVPR）论文集。2625--2634.

[8]

H.Fang、S.Gupta、F.Iandola、R.K.Srivastava、L.Deng、P.DolláR、J.Gao、X.He、M.Mitchell、J.C.Platt、C.L.Zitnick和G.Zweig。2015年。从字幕到视觉概念再到背面。IEEE计算机视觉和模式识别会议（CVPR）论文集。1473--1482.

[9]

Jonas Gehring、Michael Auli、David Grangier、Denis Yarats和Yann N Dauphin。2017.卷积序列到序列学习。arXiv预印arXiv:1705.03122（2017）。

[10]

泽维尔·格洛洛特和约舒亚·本吉奥。2010年。了解训练深度前馈神经网络的困难。国际人工智能与统计会议（ICAIS）论文集。249--256.

[11]

何开明、张湘玉、任少清、孙建军。2016.图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上发表。770--778.

[12]

Nal Kalchbrenner、Lasse Espeholt、Karen Simonyan、Aaron van den Oord、Alex Graves和Koray Kavukcuoglu。2016年，线性时间内的神经机器翻译。arXiv预印arXiv:1610.10099（2016）。

[13]

Andrej Karpathy和Li Fei Fei。2015.生成图像描述的深度视觉-语义对齐。在IEEE计算机视觉和模式识别会议（CVPR）上发表。3128--3137.

[14]

Diederik P Kingma和Jimmy Ba.2014年。亚当：一种随机优化方法。arXiv预印arXiv:1412.6980（2014）。

[15]

Ranjay Krishna、Yuke Zhu、Oliver Groth、Justin Johnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalandis、Li-Jia Li、David A Shamma等，2017年。视觉基因组：使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志（IJCV）123，1（2017），32--73。

数字图书馆

[16]

Chin-Yew Lin.2004年。Rouge：自动评估摘要的包。计算语言学协会（ACL）研讨会论文集，第8卷。

[17]

林宗毅、迈克尔·梅尔、谢尔盖·贝隆吉、詹姆斯·海斯、彼得罗·佩罗纳、德瓦·拉马南、彼得罗尔·多拉和C·劳伦斯·兹尼克。2014.Microsoft COCO:上下文中的通用对象。欧洲计算机视觉会议（ECCV）论文集。740--755.

[18]

Kishore Papineni、Salim Roukos、Todd Ward和Wei-Jing Zhu。2002.BLEU：机器翻译的自动评估方法。在计算语言学协会（ACL）年度会议记录中。311--318.

[19]

任少清、何开明、罗斯·吉希克和孙健。2015.更快的r-cnn：利用区域提议网络实现实时目标检测。神经信息处理系统（NIPS）进展。91--99.

[20]

S.J.Rennie、E.Marcheret、Y.Mroueh、J.Ross和V.Goel。2017.图像字幕的自我关键序列训练。IEEE计算机视觉和模式识别会议（CVPR）论文集。1179--1195.

[21]

凯伦·西蒙扬和安德鲁·齐瑟曼。2014.用于大规模图像识别的超深卷积网络。arXiv预印本arXiv:1409.1556（2014）。

[22]

阿什什·瓦斯瓦尼（Ashish Vaswani）、诺姆·沙泽尔（Noam Shazeer）、尼基·帕尔玛（Niki Parmar）、雅各布·乌斯科雷特（Jakob Uszkoreit）、利昂·琼斯（Llion Jones）、艾丹·戈麦斯（Aidan N Gomez）、尤卡斯·凯泽（ukasz Kaiser。2017年。你所需要的就是关注。神经信息处理系统（NIPS）进展。6000--6010.

[23]

罗马克里什纳·维丹塔姆（Ramakrishna Vedantam）、C劳伦斯·齐特尼克（C Lawrence Zitnick）和德维·帕里赫（Devi Parikh）。2015年，苹果酒：基于共识的图像描述评估。IEEE计算机视觉和模式识别会议（CVPR）论文集。4566--4575.

[24]

O.Vinyals、A.Toshev、S.Bengio和D.Erhan。2015.展示和讲述：一个神经图像字幕生成器。在IEEE计算机视觉和模式识别会议（CVPR）上发表。3156--3164.

[25]

Y.Wang、Z.Lin、X.Shen、S.Cohen和G.W.Cottrell。2017.骨架键：通过骨架属性分解进行图像字幕。在IEEE计算机视觉和模式识别会议（CVPR）上发表。7378--7387.

[26]

Q.Wu、C.Shen、L.Liu、A.Dick和A.v.d.Hengel.2016。明确的高水平概念对语言问题有什么价值？。IEEE计算机视觉和模式识别会议（CVPR）论文集。203--212.

[27]

吴琦、沈春华、王鹏、安东尼·迪克和安东·范登·亨格尔。2017.基于属性和外部知识的图像字幕和视觉问答。IEEE模式分析和机器智能汇刊（T-PAMI）（2017年）。

[28]

Kelvin Xu、Jimmy Lei Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville、Ruslan Salakhutdinov、Richard S.Zemel和Yoshua Bengio。2015.展示、出席和讲述：视觉注意力下的神经图像字幕生成。机器学习国际会议（ICML）国际会议记录。2048--2057.

[29]

杨志林（Zhilin Yang）、叶媛（Ye Yuan）、吴月新（Yuexin Wu）、威廉·科恩（William W Cohen）和鲁斯兰·萨拉库丁诺夫（Ruslan R Salakhutdinov）。2016年，审查字幕生成网络。神经信息处理系统（NIPS）进展。2361--2369.

[30]

Quanzeng You、Hailin Jin、Zhaowen Wang、Chen Fang和Jiebo Luo。2016.带语义关注的图像字幕。IEEE计算机视觉和模式识别会议（CVPR）论文集。4651--4659.

[31]

朱新新、李丽香、刘静、彭海鹏和牛新新。2018年。带有堆叠注意模块的字幕变压器。应用科学8，5（2018）。

引用人

阿尔萨耶德A阿里夫·MQadah T公司阿洛塔比S(2023)英语和阿拉伯语中使用编码器-解码器模型进行图像字幕的系统文献综述应用科学10.3390/应用13191089413:19(10894)在线发布日期：2023年9月30日
https://doi.org/10.3390/app131910894
库马尔D斯利瓦斯塔瓦五世波佩斯库D赫曼斯J(2022)用于图像字幕的增强模态间和模态内交互的双模变换器应用科学10.3390/app1213673312:13(6733)在线发布日期：2022年7月2日
https://doi.org/10.3390/app12136733
张伟马J(2022)通过GRIT、便携式ResNet和BART上下文调整增强图像标题2022年第六届环球村国际会议（UV）10.1109/UV56588.2022.10185494号(1-6)在线发布日期：2022年10月22日
https://doi.org/10.109/UV56588.2022.10185494

索引术语

使用Transformer的自下而上和自上而下的图像字幕方法
1. 计算方法
  1. 人工智能
    1. 计算机视觉

建议

用于图像字幕的自下而上和自上而下对象推理网络
自下而上和自上而下的注意机制导致了图像字幕技术的革命性变革，它使对象级的注意能够对所有检测到的对象进行多步骤推理。然而，当人类描述图像时，他们经常。。。
自上而下和自下而上的混合过程间分析
PLDI’14：第35届ACM SIGPLAN编程语言设计与实现会议记录

过程间静态分析大致分为自顶向下和自下而上，具体取决于它们如何计算、实例化和重用过程摘要。这两种分析都很难按比例进行：自上而下的分析受到。。。
图像字幕神经网络模型中的融合技术
ICIMMI’22：第四届信息管理与机器智能国际会议记录

任何给定图像的字幕的无人生成都可以定义为图像字幕。它仍然是最重要和研究的主题之一，因为它被用于许多工具，如虚拟助理、聊天机器人、可视问答系统等。。。

评论

信息和贡献者

问询处

发布于

封面图片ACM其他会议

ICVGIP’18：第11届印度计算机视觉、图形和图像处理会议记录

2018年12月

659页

国际标准图书编号：9781450366151

内政部：10.1145/3293353

版权所有©2018 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2020年5月3日

权限

请求对此文章的权限。

检查更新

限定符

研究文章
研究
推荐有限公司

会议

2018年ICVGIP

ICVGIP 2018：第11届印度计算机视觉、图形和图像处理会议

2018年12月18日至22日

印度海得拉巴

接受率

286份提交文件的总体接受率为95，33%

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

三
引文总数
查看引文
76
总下载次数

下载量（最近12个月）6
下载次数（最近6周）0

反映截至2024年9月22日的下载量

其他指标

查看作者指标

引文

引用人

阿尔萨耶德A阿里夫·MQadah T公司阿洛塔比S(2023)英语和阿拉伯语中使用编码器-解码器模型进行图像字幕的系统文献综述应用科学10.3390/应用13191089413:19(10894)在线发布日期：2023年9月30日
https://doi.org/10.3390/app131910894
库马尔D斯里瓦斯塔瓦五世波佩斯库D赫曼思J(2022)用于图像字幕的增强模间和模内交互的双模变压器应用科学10.3390/app1213673312:13(6733)在线发布日期：2022年7月2日
https://doi.org/10.3390/app12136733
张伟马J(2022)通过GRIT、便携式ResNet和BART上下文调整增强图像标题2022年第六届环球村国际会议（UV）10.1109/UV56588.2022.10185494号(1-6)在线发布日期：2022年10月22日
https://doi.org/10.109/UV56588.2022.10185494
Gogineni N公司拉查马利Y萨拉迪R普拉卡什K(2022)微光图像的图像标题生成信息、通信和计算技术10.1007/978-3-031-20977-2_5(57-72)在线发布日期：2022年11月12日
https://doi.org/10.1007/978-3-031-20977-2_5

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子