跳到主要内容
10.1145/2964284.2984066acm会议文章/章节视图摘要出版物页面毫米会议记录会议集合
研究论文
公共访问

多模式视频描述

作者信息和声明
出版:2016年10月1日出版历史

摘要

现实世界的网络视频通常包含一些提示,以补充生成自然语言描述的视觉信息。在本文中,我们提出了一个序列到序列模型,用于探索此类辅助信息。特别是,除了多模态框架中的视觉信息外,还使用音频和视频主题来生成“野外”视频的连贯描述。与当前仅在编码阶段利用视觉信息的基于编码器-解码器的模型相比,我们的模型明智地融合了多个信息源,相对于单独使用不同的模式显示出了改进。我们将我们的多模式视频描述网络建立在最先进的序列到序列视频到文本(S2VT)模型的基础上,并将其扩展以利用多种模式。在具有挑战性的MSR-VTT数据集上进行了大量实验,以表明该方法在web上发现的自然视频上的优越性能。

工具书类

  1. M.Abadi、A.Agarwal、P.Barham、E.Brevdo、Z.Chen、C.Citro、G.S.Corrado、A.Davis、J.Dean、M.Devin等人。TensorFlow:异构分布式系统上的大规模机器学习。arXiv预印arXiv:1603.044672016。谷歌学者谷歌学者
  2. D.Bahdanau、K.Cho和Y.Bengio。联合学习对齐和翻译的神经机器翻译。在2015年国际学习代表大会上。谷歌学者谷歌学者
  3. S.Banerjee和A.Lavie。METEOR:一种改进了人类判断相关性的机器翻译自动评估指标。计算语言学协会研讨会,2005年。谷歌学者谷歌学者数字图书馆数字图书馆
  4. F.Beritelli和R.Grasso。基于MFCC和神经网络的环境声音分类模式识别系统。在IEEE信号处理和通信系统国际会议上,第1-4页,2008年。谷歌学者谷歌学者交叉引用交叉引用
  5. P.Das、C.Xu、R.F.Doell和J.J.Corso。千篇一律:通过潜在主题和稀疏对象缝合对视频进行语言描述。2013年IEEE计算机视觉和模式识别会议。谷歌学者谷歌学者数字图书馆数字图书馆
  6. A.Farhadi、M.Hejrati、M.A.Sadeghi、P.Young、C.Rashtchian、J.Hockenmaier和D.Forsyth。每张图片都讲述一个故事:从图像中生成句子。2010年欧洲计算机视觉会议。谷歌学者谷歌学者数字图书馆数字图书馆
  7. T.吉安娜科普洛斯。pyaudioanalysis:一个用于音频信号分析的开源python库。《公共科学图书馆·综合》,10(12):2015年1-17月12日。谷歌学者谷歌学者交叉引用交叉引用
  8. S.Guadarrama、N.Krishnamoorthy、G.Malkarnenkar、S.Venugopalan、R.Mooney、T.Darrell和K.Saenko。Youtube2text:使用语义层次和零镜头识别识别和描述任意活动。2013年IEEE国际计算机视觉会议。谷歌学者谷歌学者数字图书馆数字图书馆
  9. K.He、X.Zhang、S.Ren和J.Sun。用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议。谷歌学者谷歌学者
  10. G.Hinton、L.Deng、D.Yu、G.Dahl、A.rahman Mohamed、N.Jaitly、A.Senior、V.Vanhoucke、P.Nguyen、T.Sainath和B.Kingsbury。语音识别中声学建模的深度神经网络。IEEE信号处理杂志,29(6):82-972012。谷歌学者谷歌学者交叉引用交叉引用
  11. S.Hochreiter和J.Schmidhuber。长短记忆。神经计算,9(8):1735-17801997年11月。谷歌学者谷歌学者数字图书馆数字图书馆
  12. A.Karpathy、G.Toderici、S.Shetty、T.Leung、R.Sukthankar和L.Fei-Fei。基于卷积神经网络的大规模视频分类。在IEEE计算机视觉和模式识别会议上,2014年6月。谷歌学者谷歌学者数字图书馆数字图书馆
  13. N.Krishnamoorthy、G.Malkarnenkar、R.J.Mooney、K.Saenko和S.Guadarrama。使用文本定义的知识生成自然语言视频描述。在2013年AAAI人工智能会议上。谷歌学者谷歌学者数字图书馆数字图书馆
  14. G.Kulkarni、V.Premraj、S.Dhar、S.Li、Y.Choi、A.C.Berg和T.L.Berg,《婴儿谈话:理解和生成简单的图像描述》。在2011年IEEE计算机视觉和模式识别会议上。谷歌学者谷歌学者数字图书馆数字图书馆
  15. S.Li、G.Kulkarni、T.L.Berg、A.C.Berg和Y.Choi。使用Web-scale n-grams编写简单图像描述。2011年,在计算自然语言学习会议上。谷歌学者谷歌学者数字图书馆数字图书馆
  16. C.-Y.Lin.Rouge:自动评估摘要的软件包。计算语言学协会研讨会,第8卷,2004年。谷歌学者谷歌学者
  17. B.洛根。用于音乐建模的梅尔频率倒谱系数。2000年国际音乐信息检索研讨会。谷歌学者谷歌学者
  18. K.Papineni、S.Roukos、T.Ward和W.-J.Zhu。BLEU:一种自动评估机器翻译的方法。计算语言学协会,第311-318页,2002年。谷歌学者谷歌学者数字图书馆数字图书馆
  19. J.Pennington、R.Socher和C.D.Manning。手套:单词表示的全局向量。在2014年自然语言处理实证方法会议上。谷歌学者谷歌学者
  20. A.Rohrbach、M.Rohrback和B.Schiele。电影描述的长短故事。在2015年德国模式识别会议上。谷歌学者谷歌学者
  21. I.Sutskever、O.Vinyals和Q.V.Le。用神经网络进行序列到序列的学习。神经信息处理系统进展。2014谷歌学者谷歌学者数字图书馆数字图书馆
  22. J.Thomason、S.Venugopalan、S.Guadarrama、K.Saenko和R.J.Mooney。整合语言和视觉,生成野外视频的自然语言描述。在2014年国际计算语言学会议上。谷歌学者谷歌学者
  23. D.Tran、L.Bourdev、R.Fergus、L.Torresani和M.Paluri。利用3D卷积网络学习时空特征。2015年IEEE国际计算机视觉会议。谷歌学者谷歌学者数字图书馆数字图书馆
  24. L.van der Maaten和G.Hinton。使用t-SNE可视化数据。机器学习研究杂志,9:2579-26052008。谷歌学者谷歌学者
  25. R.Vedantam、L.C.Zitnick和D.Parikh。苹果酒:基于共识的图像描述评估。2015年IEEE计算机视觉和模式识别会议。谷歌学者谷歌学者
  26. S.Venugopalan、M.Rohrbach、J.Donahue、R.Mooney、T.Darrell和K.Saenko。序列到序列-视频到文本。2015年IEEE国际计算机视觉会议。谷歌学者谷歌学者数字图书馆数字图书馆
  27. J.Xu、T.Mei、T.Yao和Y.Rui。MSR-VTT:用于连接视频和语言的大型视频描述数据集。2016年IEEE计算机视觉和模式识别会议。谷歌学者谷歌学者
  28. 姚炳中、X.Yang、L.Lin、M.W.Lee和S.C.Zhu。I2t:图像解析为文本描述。IEEE会议录,98(8):1485--15082010。谷歌学者谷歌学者交叉引用交叉引用

索引术语

  1. 多模式视频描述

        建议

        评论

        登录选项

        检查您是否可以通过登录凭据或您的机构访问本文。

        登录

        完全访问权限

        • 发布于

          封面图片ACM会议
          MM'16:第24届ACM多媒体国际会议论文集
          2016年10月
          1542页
          国际标准图书编号:9781450336031
          DOI(操作界面):10.1145/2964284

          版权所有©2016 ACM

          如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

          出版商

          计算机协会

          美国纽约州纽约市

          出版历史

          • 出版:2016年10月1日

          权限

          请求有关此文章的权限。

          请求权限

          检查更新

          限定符

          • 研究论文

          接受率

          2016年MM纸张接受率52属于237提交文件,22%总体验收率995属于4,171提交文件,24%

          即将召开的会议

          24年月日
          24岁MM:第32届ACM国际多媒体会议
          2024年10月28日至11月1日
          墨尔本,VIC,澳大利亚

        PDF格式

        以PDF文件查看或下载。

        PDF格式

        电子阅读器

        使用eReader联机查看。

        电子阅读器