×

在模式理论框架中使用常识知识生成视频的开放世界描述。 (英语) Zbl 1442.68224号

小结:解读视频中捕捉到的活动的任务不仅仅是识别观察到的动作和物体。它涉及到开放世界推理和构建深层语义连接,超越了视频中直接观察到的内容和训练数据中的注释。先前的知识起着很大的作用。Grenander的规范模式理论表示提供了一种优雅的机制来捕捉图像中直接观察到的内容与大规模常识知识库(如ConceptNet)中过去知识之间的语义联系。我们使用基本检测到的(扎根的)概念(如对象和动作)的连接结构来表示解释,这些概念受语义和其他未直接观察到的背景概念(即语境化线索)的约束。概念是基本的生成器,概念之间的语义关系定义了它们之间的联系。局部和全局规则性约束控制着这些键和整体连接结构。我们使用基于能量最小化的推理引擎,使用高效的马尔可夫链蒙特卡罗(Markov chain Monte Carlo),在其移动建议中使用概念网(ConceptNet)来找到描述图像内容的这些结构。使用四个不同的公开可用的大型数据集,Charades、Microsoft Visual Description语料库(MSVD)、Breakfast Actions和CMU Kitchen,我们表明,所提出的模型可以生成质量与最新方法相当或更好的视频解释,例如不同形式的深度学习模型、图形模型和无上下文语法。除了提高性能外,使用编码的常识知识源还可以减少对大型带注释训练数据集的需要,并有助于通过先验知识解决数据中的任何不平衡,这是当前机器学习方法的致命弱点。

MSC公司:

68立方英尺 知识表示
68T45型 机器视觉和场景理解

软件:

概念网BLEU公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] aakurCRV2017 Sathyanarayanan N号。Aakur、Fillipe DM de Souza和Sudeep Sarkar,面向生成视频描述的基于知识的方法,计算机和机器人视觉会议(CRV),施普林格,2017年。
[2] aakurAAAI2018北萨提亚纳拉扬。Aakur、Fillipe DM de Souza和Sudeep Sarkar,《视频活动解释的内在可解释模型》,AAAI人工智能会议研讨会,AAAI2018年。
[3] aditya2015图像Somak Aditya、Yezhou Yang、Chitta Baral、Cornelia Fermuler和Yiannis Aloimonos,使用常识推理和知识通过场景描述图从图像到句子,arXiv预印本arXiv:1511.03292(2015)。
[4] albanes2010pads Massimiliano Albanese、Rama Chellappa、Naresh Cuntoor、Vincenzo Moscato、Antonio Picariello、VS Subrahmanian和Octavian Udrea,《Pads:视频数据的概率活动检测框架》,IEEE Transactions on Pattern Analysis and Machine Intelligence 32(2010),第12期,2246-2261。
[5] albanee-2008约束Massimiliano Albanese、Rama Chellappa、Vincenzo Moscato、Antonio Picariello、VS Subrahmanian、Pavan Turaga和Octavian Udrea,视频中人类活动检测的约束概率petri网框架,IEEE多媒体交易10(2008),第6期,982-996。
[6] amer2013monte Mohamed R Amer,Sinisa Todorovic,Alan Fern,and Song-Chun Zhu,Montecarlo tree search for scheduling activity recognition,IEEE International Conference on Computer Vision(ICCV),2013年,第1353-1360页。
[7] amit:结构图像Y.amit、U.Grenander和M.Piccioni,《通过可变形模板恢复结构图像》,美国统计协会期刊(1991)。
[8] amit1996graphical Y.Amit和A.Kong,模型注册的图形模板,模式分析和机器智能,IEEE Transactions on 18(1996),第3期,225-236。
[9] bienenstock1997合成E.Bienenstock,S.Geman和D.Potter,合成,mdl先验和对象识别,神经信息处理系统进展(1997),838-844。
[10] cai2007contextualization蔡国雷,用于人机交互的地理空间数据库语义的上下文化,Geoinformatica 11(2007),第2期,217-237。
[11] Chang,Lo-Bin;Jin,Ya;张伟;Eran Borenstein;Geman,Stuart,Context,computation,and optimal ROC performance in hierarchical models,国际计算杂志。视觉。,93, 2, 117-140 (2011) ·Zbl 1235.68251号 ·doi:10.1007/s11263-010-0391-1
[12] Chaudhry 2009直方图Rizwan Chaudhry、Avinash Ravichandran、Gregory Hager和Ren’e Vidal,用于识别人类行为的非线性动力系统上的定向光流直方图和二进制核,IEEE计算机视觉和模式识别会议(CVPR),IEEE,2009年,第1932-1939页。
[13] chen2015contextualizing Qiang Chen,Zheng Song,Jian Dong,Zhongyang Huang,Yang Hua,and Shuecheng Yan,Contextualization object detection and classification,IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)37(2015),第1期,第13-27页。
[14] 纳雷什·P·昆托。;Yegnanarayana,B。;Chellappa,Rama,使用事件概率序列的活动建模,IEEE Trans。图像处理。,17, 4, 594-607 (2008) ·doi:10.1109/TIP.2008.916991
[15] dalal2005直方图Navneet Dalal和Bill Triggs,人类检测定向梯度直方图,IEEE计算机视觉和模式识别会议(CVPR),第1卷,IEEE,2005年,第886-893页。
[16] das2013000 Pradipto Das,Chenliang Xu,Richard F Doell,and Jason J Corso,《用几个词描述一千帧:通过潜在主题和稀疏对象拼接对视频进行语言描述》,IEEE计算机视觉和模式识别会议(CVPR),2013年,第2634-2641页。
[17] de2016building Fillipe DM de Souza、Sudeep Sarkar和Guillermo C\'amara-Ch\'avez,《从声音和视觉中构建深度学习之外的语义理解》,第23届国际模式识别会议(ICPR),IEEE,2016年,第2097-2102页。
[18] de2014pattern Fillipe DM De Souza、Sudeep Sarkar、Anuj Srivastava和Jingyong Su,基于模式理论的活动解释,第22届模式识别国际会议,IEEE,2014年,第106-111页。
[19] de2016pattern Fillipe DM de Souza、Sudeep Sarkar、Anuj Srivastava和Jingyong Su,视频中语义结构表示和推理的模式理论,《模式识别快报》72(2016),41-51。
[20] de2017spatially Fillipe DM de Souza,Sudeep Sarkar,Anuj Srivastava,and Jingyong Su,《利用模式理论对视频进行空间相干解释》,《国际计算机视觉杂志》121(2017),第1期,第5-25页。
[21] geman2002dynamic S.Geman和M.Johnson,《基于随机统一语法的解析和估计的动态规划》,计算语言学协会第40届年会论文集,计算语言学学会,2002年,第279-286页。
[22] 斯图亚特·杰曼;丹尼尔·波特。;Chi,Zhiyi,作曲系统,四重奏。申请。数学。,60707-736(2002年)·兹比尔1060.68122 ·doi:10.1090/qam/1939008
[23] 美国格伦纳德。;周,Y。;Keenan,D.M.,Hands:生物形状的模式理论研究,神经计算研究笔记2,vi+128 pp.(1991),Springer-Verlag,纽约·Zbl 0808.68018号 ·doi:10.1007/978-1-4612-3046-5
[24] 格伦纳德,乌尔夫;Miller,Michael I.,《复杂系统中知识的表征》,作者J.Roy进行了讨论和回复。统计师。Soc.序列号。B、 56、4、549-603(1994)·Zbl 0814.62009号
[25] 格伦纳德,乌尔夫;Miller,Michael I.,《计算解剖学:一门新兴学科——数学应用中的当前和未来挑战》(Providence,RI,1997),夸特。申请。数学。,56, 4, 617-694 (1998) ·Zbl 0952.92016号 ·doi:10.1090/qam/1668732
[26] grenander-srivastava-saini-MI U.grenander、A.Srivastaba和S.saini,生物生长的模式理论表征,IEEE医学成像学报26(2007),第5期,648-659。
[27] 格伦德,乌尔夫,《一般模式理论》,牛津数学专著,xxii+883页(1993),克拉伦登出版社,牛津大学出版社,纽约·Zbl 0827.68098号
[28] 《格伦纳德1996elements Ulf Grenander》,《Elements of pattern theory》,JHU出版社,1996年·Zbl 0869.68096号
[29] grenander2012calculation Ulf Grenander,《思想的演算:人类思维的数学研究》,《世界科学》,2012年·Zbl 1273.68003号
[30] 格伦纳德,乌尔夫;米歇尔·米勒,《模式理论:从表征到推理》,xii+596页(2007),牛津大学出版社,牛津·Zbl 1259.62089号
[31] Gumperz 1992语境化John J Gumperz,语境化与理解,《重新思考语境:作为互动现象的语言》11(1992),229-252。
[32] han2009bottom F.Han和S.C.Zhu,用属性语法进行自下而上/自上而下的图像解析,模式分析和机器智能,IEEE Transactions on 31(2009),第1期,59-73。
[33] huang2016连接主义者De-An Huang、Li Fei-Fei和Juan Carlos Niebles,弱监督动作标记的连接主义时间建模,欧洲计算机视觉会议,Springer,2016,第137-153页。
[34] johnson2015图像贾斯汀·约翰逊(Justin Johnson)、兰杰·克里希纳(Ranjay Krishna)、迈克尔·斯塔克(Michael Stark)、李佳丽(Li-Jia Li)、大卫·沙玛(David Shamma)、迈克尔伯恩斯坦(Michael Bernstein)和李飞飞(Li Fei-Fei),使用场景图进行图像检索,《IEEE计算机视觉和模式识别会议论文集》(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition),2015年,第3668-3678页。
[35] joo2006recognition Seong-Wook Joo和Rama Chellappa,使用属性文法识别多对象事件,国际图像处理会议(ICIP),IEEE,2006年,第2897-2900页。
[36] kovvuri2016段Rama Kovvuri、Ram Nevatia和Cees GM Snoek,基于段的事件检测和重新计数模型,模式识别(ICPR),2016年第23届国际会议,IEEE,2016年,第3868-3873页。
[37] kuehne2014语言Hilde Kuehne、Ali Arslan和Thomas Serre,《行动的语言:恢复以目标为导向的人类活动的语法和语义》,IEEE计算机视觉和模式识别会议(CVPR),2014年,第780-787页。
[38] lan2012social Tian Lan、Leonid Sigal和Greg Mori,人类活动识别层次模型中的社会角色,IEEE计算机视觉和模式识别会议(CVPR),IEEE,2012年,第1354-1361页。
[39] liu2004conceptnet Hugo Liu和Push Singh,ConceptNet-一个实用的常识推理工具套件,英国电信技术期刊22(2004),第4期,211-226。
[40] 米勒-srivastava-grenander-SP M.I。Miller,A.Srivastava和U.Grenander,通过多目标跟踪/识别中的跳跃-扩散过程进行条件期望估计,IEEE信号处理学报43(1995),第11期,2678-2690。
[41] miller-christensen-grenander M.I.miller、G.E.christensen、Y.Amit和U.grenander,变形神经解剖学数学教科书,美国国家科学院院刊90(1993),第24期·Zbl 0788.92011号
[42] morariu2011multi-Vlad I Morariu和Larry S Davis,结构化场景中的多代理事件识别,IEEE计算机视觉和模式识别会议(CVPR),IEEE,2011,第3289-3296页。
[43] 大卫·芒福德,《模式理论:统一的视角》。第一届欧洲数学大会,第一卷,巴黎,1992年,Progr。数学。119187-224(1994),Birkh“{a} 用户,巴塞尔·Zbl 0939.68820号
[44] nevatia2003hierarchical Ram Nevatia、Tao Zhao和Somboon Hongeng,视频流中基于层次语言的事件表示,计算机视觉和模式识别研讨会,2003年。03年CVPRW。会议,第4卷,IEEE,2003年,第39-39页。
[45] Pan_2016_CVPR潘平波、徐忠文、杨毅、吴飞和庄跃婷,视频表示的层次递归神经编码器及其字幕应用,IEEE计算机视觉和模式识别会议(CVPR),2016年6月。
[46] papineni2002bleu Kishore Papineni、Salim Roukos、Todd Ward和Wei-Jing Zhu,Bleu:机器翻译自动评估方法,计算语言学协会年会,计算语言学学会,2002年,第311-318页。
[47] 理查森2006markov Matthew Richardson和Pedro Domingos,马尔可夫逻辑网络,《机器学习》62(2006),第1-2期,第107-136页·Zbl 1470.68221号
[48] 《将视频内容翻译成自然语言描述》,IEEE国际计算机视觉会议(ICCV),2013年,第433-440页。
[49] 奥尔加·卢萨科夫斯基;邓,贾;苏浩;其他,ImageNet大规模视觉识别挑战,国际计算机杂志。视觉。,115, 3, 211-252 (2015) ·doi:10.1007/s11263-015-0816-y
[50] sigurdsson2016asynchronous Gunnar A Sigurdsson、Santosh Divvala、Ali Farhadi和Abhinav Gupta,动作识别的异步时域,arXiv预印本arXiv:1612.06371(2016)。
[51] sigurdsson2016hollywood Gunnar A Sigurdsson,G“ul Varol,Xiaolong Wang,Ali Farhadi,Ivan Laptev,and Abhinav Gupta,《好莱坞在家:众包数据收集以了解活动》,欧洲计算机视觉会议,斯普林格,2016年,第510-526页。
[52] 西蒙扬20142 Karen Simonyan和Andrew Zisserman,视频中动作识别的双流卷积网络,NIPS,2014年,第568-576页。
[53] souza2015temporally Fillipe Souza,Sudeep Sarkar,Anuj Srivastava,and Jingyong Su,使用模式理论对长视频进行时间相干解释,IEEE计算机视觉和模式识别会议论文集,2015年,第1229-1237页。
[54] speer2012代表Robert Speer和Catherine Havasi,在ConceptNet 5中代表一般关系知识,LREC,2012年,第3679-3686页。
[55] speer2013conceptnet Robert Speer和Catherine Havasi,ConceptNet 5:关系知识的大型语义网络,《人民网与NLP的会面》,Springer,2013年,第161-176页。
[56] 2009年春季临时环境影响。Spriggs、F.De La Torre和M.Hebert,第一人称感知的时间分割和活动分类,IEEE计算机视觉和模式识别研讨会(CVPRW),2009年6月,第17-24页。
[57] 斯里瓦斯塔瓦·米勒-格伦纳德-SP-corres A.srivastava,M.I。Miller和U.Grenander,多目标到达方向跟踪,IEEE信号处理学报43(1995),第5期,1282-85。
[58] szegedy2015going Christian Szegedy,Wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed,Dragomir Angelov,Dumitru Erhan,Vincent Vanhoucke,and Andrew Rabinovich,《卷积的深入》,IEEE计算机视觉与模式识别会议(CVPR),2015年,第1-9页。
[59] 托马森2014将杰西·托马森、苏巴西尼·维努戈帕兰、塞尔吉奥·瓜达拉玛、凯特·萨恩科和雷蒙德·穆尼整合在一起,将语言和视觉结合起来,生成野生视频的自然语言描述。,国际计算语言学会议(COLING),2014年第2卷,第9页。
[60] 图2005image Zhoowen Tu,Xiangrong Chen,Alan L Yuille,Song-Chun Zhu,图像解析:统一分割、检测和识别,国际计算机视觉杂志63(2005),第2期,113-140。
[61] venugopalan2014年翻译Subhashini Venugopalan、Huijuan Xu、Jeff Donahue、Marcus Rohrbach、Raymond Mooney和Kate Saenko,使用深度递归神经网络将视频翻译为自然语言,arXiv预印本arXiv:1412.4729(2014)。
[62] wang2007contextualized Yi Wang,David M Krum,Enylton M Coelho,and Doug A Bowman,《情境化视频:将视频与环境模型相结合以支持情境理解》,IEEE Transactions on Visualization and Computer Graphics 13(2007),第6期,1568-1575。
[63] wei2013modeling Ping Wei,Yibiao Zhao,Nanning Zheng,and Song Chun Zhu,《为事件和对象识别建模4d人机交互》,IEEE计算机视觉国际会议,IEEE,2013年,第3272-3279页。
[64] xu2017场景Danfei Xu、Yuke Zhu、Christopher B Choy和Li Fei-Fei,通过迭代消息传递生成场景图,arXiv预印本arXiv:1701.02426(2017)。
[65] yao2015描述了Li Yao、Atousa Torabi、Kyunghyun Cho、Nicolas Ballas、Christopher Pal、Hugo Larochelle和Aaron Courville,利用时间结构描述视频,IEEE国际计算机视觉会议(ICCV),2015年,第4507-4515页。
[66] Zhu2006randomic S.C.Zhu和D.Mumford,图像的随机语法,计算机图形和视觉的基础和趋势2(2006),第4期,259-362·Zbl 1198.68160号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。