摘要
M.Abadi、A.Agarwal、P.Barham、E.Brevdo、Z.Chen、C.Citro、G.S.Corrado、A.Davis、J.Dean、M.Devin等人。TensorFlow:异构分布式系统上的大规模机器学习。 arXiv预印arXiv:1603.044672016。 谷歌学者 D.Bahdanau、K.Cho和Y.Bengio。 联合学习对齐和翻译的神经机器翻译。 在2015年国际学习代表大会上。 谷歌学者 S.Banerjee和A.Lavie。 METEOR:一种改进了人类判断相关性的机器翻译自动评估指标。 计算语言学协会研讨会,2005年。 谷歌学者 数字图书馆 F.Beritelli和R.Grasso。 基于MFCC和神经网络的环境声音分类模式识别系统。 在IEEE信号处理和通信系统国际会议上,第1-4页,2008年。 谷歌学者 交叉引用 P.Das、C.Xu、R.F.Doell和J.J.Corso。 千篇一律:通过潜在主题和稀疏对象缝合对视频进行语言描述。 2013年IEEE计算机视觉和模式识别会议。 谷歌学者 数字图书馆 A.Farhadi、M.Hejrati、M.A.Sadeghi、P.Young、C.Rashtchian、J.Hockenmaier和D.Forsyth。 每张图片都讲述一个故事:从图像中生成句子。 2010年欧洲计算机视觉会议。 谷歌学者 数字图书馆 T.吉安娜科普洛斯。 pyaudioanalysis:一个用于音频信号分析的开源python库。 《公共科学图书馆·综合》,10(12):2015年1-17月12日。 谷歌学者 交叉引用 S.Guadarrama、N.Krishnamoorthy、G.Malkarnenkar、S.Venugopalan、R.Mooney、T.Darrell和K.Saenko。 Youtube2text:使用语义层次和零镜头识别识别和描述任意活动。 2013年IEEE国际计算机视觉会议。 谷歌学者 数字图书馆 K.He、X.Zhang、S.Ren和J.Sun。 用于图像识别的深度残差学习。 2016年IEEE计算机视觉和模式识别会议。 谷歌学者 G.Hinton、L.Deng、D.Yu、G.Dahl、A.rahman Mohamed、N.Jaitly、A.Senior、V.Vanhoucke、P.Nguyen、T.Sainath和B.Kingsbury。 语音识别中声学建模的深度神经网络。 IEEE信号处理杂志,29(6):82-972012。 谷歌学者 交叉引用 S.Hochreiter和J.Schmidhuber。 长短记忆。 神经计算,9(8):1735-17801997年11月。 谷歌学者 数字图书馆 A.Karpathy、G.Toderici、S.Shetty、T.Leung、R.Sukthankar和L.Fei-Fei。 基于卷积神经网络的大规模视频分类。 在IEEE计算机视觉和模式识别会议上,2014年6月。 谷歌学者 数字图书馆 N.Krishnamoorthy、G.Malkarnenkar、R.J.Mooney、K.Saenko和S.Guadarrama。 使用文本定义的知识生成自然语言视频描述。 在2013年AAAI人工智能会议上。 谷歌学者 数字图书馆 G.Kulkarni、V.Premraj、S.Dhar、S.Li、Y.Choi、A.C.Berg和T.L.Berg,《婴儿谈话:理解和生成简单的图像描述》。 在2011年IEEE计算机视觉和模式识别会议上。 谷歌学者 数字图书馆 S.Li、G.Kulkarni、T.L.Berg、A.C.Berg和Y.Choi。 使用Web-scale n-grams编写简单图像描述。 2011年,在计算自然语言学习会议上。 谷歌学者 数字图书馆 C.-Y.Lin.Rouge:自动评估摘要的软件包。 计算语言学协会研讨会,第8卷,2004年。 谷歌学者 B.洛根。 用于音乐建模的梅尔频率倒谱系数。 2000年国际音乐信息检索研讨会。 谷歌学者 K.Papineni、S.Roukos、T.Ward和W.-J.Zhu。 BLEU:一种自动评估机器翻译的方法。 计算语言学协会,第311-318页,2002年。 谷歌学者 数字图书馆 J.Pennington、R.Socher和C.D.Manning。 手套:单词表示的全局向量。 在2014年自然语言处理实证方法会议上。 谷歌学者 A.Rohrbach、M.Rohrback和B.Schiele。 电影描述的长短故事。 在2015年德国模式识别会议上。 谷歌学者 I.Sutskever、O.Vinyals和Q.V.Le。 用神经网络进行序列到序列的学习。 神经信息处理系统进展。 2014 谷歌学者 数字图书馆 J.Thomason、S.Venugopalan、S.Guadarrama、K.Saenko和R.J.Mooney。 整合语言和视觉,生成野外视频的自然语言描述。 在2014年国际计算语言学会议上。 谷歌学者 D.Tran、L.Bourdev、R.Fergus、L.Torresani和M.Paluri。利用3D卷积网络学习时空特征。 2015年IEEE国际计算机视觉会议。 谷歌学者 数字图书馆 L.van der Maaten和G.Hinton。 使用t-SNE可视化数据。 机器学习研究杂志,9:2579-26052008。 谷歌学者 R.Vedantam、L.C.Zitnick和D.Parikh。 苹果酒:基于共识的图像描述评估。 2015年IEEE计算机视觉和模式识别会议。 谷歌学者 S.Venugopalan、M.Rohrbach、J.Donahue、R.Mooney、T.Darrell和K.Saenko。 序列到序列-视频到文本。 2015年IEEE国际计算机视觉会议。 谷歌学者 数字图书馆 J.Xu、T.Mei、T.Yao和Y.Rui。 MSR-VTT:用于连接视频和语言的大型视频描述数据集。 2016年IEEE计算机视觉和模式识别会议。 谷歌学者 姚炳中、X.Yang、L.Lin、M.W.Lee和S.C.Zhu。 I2t:图像解析为文本描述。 IEEE会议录,98(8):1485--15082010。 谷歌学者 交叉引用
建议
学习用于视频字幕的多模式注意力LSTM网络 17岁MM:第25届ACM多媒体国际会议记录 视频是一种信息密集型媒体,具有复杂的变化,因此视频字幕的自动生成是一项具有挑战性的任务。 大多数现有的方法,无论是基于语言模板还是序列学习,都将视频视为平面数据序列。。。 使用音频和视频提示生成视频描述 ICMR’16:2016 ACM国际多媒体检索会议论文集 图像字幕的最新进展刺激了为视觉内容生成自然语言描述的研究,这可以广泛应用于许多应用,例如帮助盲人。 视频描述生成更复杂。。。