多模式视频描述

作者：
瓦西里·拉马尼什卡

美国马萨诸塞大学洛厄尔分校

美国马萨诸塞大学洛厄尔分校
查看个人资料

,
阿比尔·达斯

美国马萨诸塞大学洛厄尔分校

马萨诸塞大学洛厄尔分校，美国马萨诸塞州洛厄尔
查看个人资料

,
东湖公园

加利福尼亚大学伯克利分校，伯克利，加利福尼亚州，美国

加利福尼亚大学伯克利分校，伯克利，加利福尼亚州，美国
查看个人资料

,
Subhashini Venugopalan公司

德克萨斯大学奥斯汀分校，奥斯汀，德克萨斯州，美国

德克萨斯大学奥斯汀分校，奥斯汀，德克萨斯州，美国
查看个人资料

,
丽莎·安妮·亨德里克斯

加利福尼亚大学伯克利分校，伯克利，加利福尼亚州，美国

加利福尼亚大学伯克利分校，伯克利，加利福尼亚州，美国
查看个人资料

,
马库斯·罗尔巴赫

美国加州大学伯克利分校

加利福尼亚大学伯克利分校，伯克利，加利福尼亚州，美国
查看个人资料

,
凯特·萨恩科

美国马萨诸塞大学洛厄尔分校

美国马萨诸塞大学洛厄尔分校
查看个人资料

作者信息和声明

2016年MM：第24届ACM多媒体国际会议记录2016年10月第1092–1096页https://doi.org/10.1145/2964284.2984066

出版：2016年10月1日出版历史

2016年MM：第24届ACM多媒体国际会议记录

第1092–1096页

摘要

现实世界的网络视频通常包含一些提示，以补充生成自然语言描述的视觉信息。在本文中，我们提出了一个序列到序列模型，用于探索此类辅助信息。特别是，除了多模态框架中的视觉信息外，还使用音频和视频主题来生成“野外”视频的连贯描述。与当前仅在编码阶段利用视觉信息的基于编码器-解码器的模型相比，我们的模型明智地融合了多个信息源，相对于单独使用不同的模式显示出了改进。我们将我们的多模式视频描述网络建立在最先进的序列到序列视频到文本（S2VT）模型的基础上，并将其扩展以利用多种模式。在具有挑战性的MSR-VTT数据集上进行了大量实验，以表明该方法在web上发现的自然视频上的优越性能。

工具书类

M.Abadi、A.Agarwal、P.Barham、E.Brevdo、Z.Chen、C.Citro、G.S.Corrado、A.Davis、J.Dean、M.Devin等人。TensorFlow:异构分布式系统上的大规模机器学习。arXiv预印arXiv:1603.044672016。谷歌学者
D.Bahdanau、K.Cho和Y.Bengio。联合学习对齐和翻译的神经机器翻译。在2015年国际学习代表大会上。谷歌学者
S.Banerjee和A.Lavie。METEOR：一种改进了人类判断相关性的机器翻译自动评估指标。计算语言学协会研讨会，2005年。谷歌学者数字图书馆
F.Beritelli和R.Grasso。基于MFCC和神经网络的环境声音分类模式识别系统。在IEEE信号处理和通信系统国际会议上，第1-4页，2008年。谷歌学者交叉引用
P.Das、C.Xu、R.F.Doell和J.J.Corso。千篇一律：通过潜在主题和稀疏对象缝合对视频进行语言描述。2013年IEEE计算机视觉和模式识别会议。谷歌学者数字图书馆
A.Farhadi、M.Hejrati、M.A.Sadeghi、P.Young、C.Rashtchian、J.Hockenmaier和D.Forsyth。每张图片都讲述一个故事：从图像中生成句子。2010年欧洲计算机视觉会议。谷歌学者数字图书馆
T.吉安娜科普洛斯。pyaudioanalysis：一个用于音频信号分析的开源python库。《公共科学图书馆·综合》，10（12）：2015年1-17月12日。谷歌学者交叉引用
S.Guadarrama、N.Krishnamoorthy、G.Malkarnenkar、S.Venugopalan、R.Mooney、T.Darrell和K.Saenko。Youtube2text:使用语义层次和零镜头识别识别和描述任意活动。2013年IEEE国际计算机视觉会议。谷歌学者数字图书馆
K.He、X.Zhang、S.Ren和J.Sun。用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议。谷歌学者
G.Hinton、L.Deng、D.Yu、G.Dahl、A.rahman Mohamed、N.Jaitly、A.Senior、V.Vanhoucke、P.Nguyen、T.Sainath和B.Kingsbury。语音识别中声学建模的深度神经网络。IEEE信号处理杂志，29（6）：82-972012。谷歌学者交叉引用
S.Hochreiter和J.Schmidhuber。长短记忆。神经计算，9（8）：1735-17801997年11月。谷歌学者数字图书馆
A.Karpathy、G.Toderici、S.Shetty、T.Leung、R.Sukthankar和L.Fei-Fei。基于卷积神经网络的大规模视频分类。在IEEE计算机视觉和模式识别会议上，2014年6月。谷歌学者数字图书馆
N.Krishnamoorthy、G.Malkarnenkar、R.J.Mooney、K.Saenko和S.Guadarrama。使用文本定义的知识生成自然语言视频描述。在2013年AAAI人工智能会议上。谷歌学者数字图书馆
G.Kulkarni、V.Premraj、S.Dhar、S.Li、Y.Choi、A.C.Berg和T.L.Berg，《婴儿谈话：理解和生成简单的图像描述》。在2011年IEEE计算机视觉和模式识别会议上。谷歌学者数字图书馆
S.Li、G.Kulkarni、T.L.Berg、A.C.Berg和Y.Choi。使用Web-scale n-grams编写简单图像描述。2011年，在计算自然语言学习会议上。谷歌学者数字图书馆
C.-Y.Lin.Rouge：自动评估摘要的软件包。计算语言学协会研讨会，第8卷，2004年。谷歌学者
B.洛根。用于音乐建模的梅尔频率倒谱系数。2000年国际音乐信息检索研讨会。谷歌学者
K.Papineni、S.Roukos、T.Ward和W.-J.Zhu。BLEU：一种自动评估机器翻译的方法。计算语言学协会，第311-318页，2002年。谷歌学者数字图书馆
J.Pennington、R.Socher和C.D.Manning。手套：单词表示的全局向量。在2014年自然语言处理实证方法会议上。谷歌学者
A.Rohrbach、M.Rohrback和B.Schiele。电影描述的长短故事。在2015年德国模式识别会议上。谷歌学者
I.Sutskever、O.Vinyals和Q.V.Le。用神经网络进行序列到序列的学习。神经信息处理系统进展。2014谷歌学者数字图书馆
J.Thomason、S.Venugopalan、S.Guadarrama、K.Saenko和R.J.Mooney。整合语言和视觉，生成野外视频的自然语言描述。在2014年国际计算语言学会议上。谷歌学者
D.Tran、L.Bourdev、R.Fergus、L.Torresani和M.Paluri。利用3D卷积网络学习时空特征。2015年IEEE国际计算机视觉会议。谷歌学者数字图书馆
L.van der Maaten和G.Hinton。使用t-SNE可视化数据。机器学习研究杂志，9:2579-26052008。谷歌学者
R.Vedantam、L.C.Zitnick和D.Parikh。苹果酒：基于共识的图像描述评估。2015年IEEE计算机视觉和模式识别会议。谷歌学者
S.Venugopalan、M.Rohrbach、J.Donahue、R.Mooney、T.Darrell和K.Saenko。序列到序列-视频到文本。2015年IEEE国际计算机视觉会议。谷歌学者数字图书馆
J.Xu、T.Mei、T.Yao和Y.Rui。MSR-VTT：用于连接视频和语言的大型视频描述数据集。2016年IEEE计算机视觉和模式识别会议。谷歌学者
姚炳中、X.Yang、L.Lin、M.W.Lee和S.C.Zhu。I2t：图像解析为文本描述。IEEE会议录，98（8）：1485--15082010。谷歌学者交叉引用

索引术语

多模式视频描述
1. 计算方法
  1. 人工智能
    1. 计算机视觉
      1. 计算机视觉任务
        场景理解
    2. 自然语言处理
  2. 机器学习
    1. 学习范式
      1. 监督学习
        分类指导学习

建议

学习用于视频字幕的多模式注意力LSTM网络
17岁MM：第25届ACM多媒体国际会议记录

视频是一种信息密集型媒体，具有复杂的变化，因此视频字幕的自动生成是一项具有挑战性的任务。大多数现有的方法，无论是基于语言模板还是序列学习，都将视频视为平面数据序列。。。
阅读更多信息
使用音频和视频提示生成视频描述
ICMR’16：2016 ACM国际多媒体检索会议论文集

图像字幕的最新进展刺激了为视觉内容生成自然语言描述的研究，这可以广泛应用于许多应用，例如帮助盲人。视频描述生成更复杂。。。
阅读更多信息
视频描述的视觉和语言语义混合增强和补充
摘要
用自然语言描述和表达视频的视觉内容是计算机视觉的一项基本任务，它不仅对视频进行了高度概括，而且以合理的方式呈现了描述语句中的视觉信息。。。 $^{}$
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

发布于
MM'16：第24届ACM多媒体国际会议论文集
2016年10月
1542页
国际标准图书编号：9781450336031
DOI（操作界面）：10.1145/2964284
总主席：
阿兰·汉贾利奇
代尔夫特理工大学
,
塞斯·斯诺克
高通荷兰研究院/阿姆斯特丹大学
,
马赛尔·沃林
阿姆斯特丹大学
,
主持人：
迪克·布尔特曼
阿姆斯特丹CWI/VU大学
,
课程主席：
贝诺伊特·休特
欧洲经济共同体
,
艾斯林·凯利赫
弗吉尼亚理工大学
,
孔帕蒂亚里斯
CERTH-ITI公司
,
金丽
微软
版权所有©2016 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2016年10月1日
权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
顺序到顺序
视频描述
限定符
- 研究论文
会议

接受率
2016年MM纸张接受率52属于237提交文件，22%总体验收率995属于4,171提交文件，24%
更多
即将召开的会议
24年月日

赞助商：

西格玛

24岁MM：第32届ACM国际多媒体会议

2024年10月28日至11月1日

墨尔本，VIC，澳大利亚
资金来源
其他指标
查看文章指标

文章指标
- 96
  引文总数
  查看引文
- 1,742
  总下载次数
- 下载次数（过去12个月）214
- 下载次数（最近6周）32
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

多模式视频描述

2016年MM：第24届ACM多媒体国际会议记录

摘要

工具书类

引用人

索引术语

建议

学习用于视频字幕的多模式注意力LSTM网络

使用音频和视频提示生成视频描述

视频描述的视觉和语言语义混合增强和补充

评论