×

用于无监督常见事件发现的分支绑定框架。 (英语) Zbl 1455.68220号

摘要:事件发现旨在发现感兴趣的时间段,例如人类行为、行动或活动。大多数时间序列内或时间序列之间的事件发现方法都使用监督学习。当相关事件标签未知、难以检测或没有预料到所有可能的事件组合时,这就成了问题。为了克服这些问题,本文探讨了公共事件发现(CED),这是一个旨在以无监督的方式发现可变长度段的公共事件的新问题。CED的一个潜在解决方案是搜索所有可能的段对,这将产生令人望而却步的四次成本。在本文中,我们提出了一个有效的分支定界(B&B)框架,该框架避免了穷举搜索,同时保证了全局最优解。为此,我们为各种公共性度量导出了新的边界函数,并为多公共性发现和加速搜索提供了扩展。B&B框架将任何可以量化为直方图的多维信号作为输入。框架的泛化可以很容易地应用于发现相同或不同时间的事件(分别是同步性和事件通用性)。我们考虑扩展视频搜索和监督事件检测。B&B框架的有效性通过对故意行为的动作捕捉和不同人际环境下自发面部行为的视频进行评估:访谈、年轻人小组和父母-孩子面对面的互动。

MSC公司:

68T45型 机器视觉和场景理解
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Amberg,B.和Vetter,T.(2011年)。使用形状模型和分支定界进行最佳地标检测。在ICCV中。
[2] Balakrishnan,V.、Boyd,S.和Balemi,S..(1991年)。计算参数相关线性系统最小稳定度的分枝定界算法。国际鲁棒与非线性控制杂志,1(4),295-317·Zbl 0759.93036号 ·doi:10.1002/rnc.4590010404
[3] Barbić,J.、Safonova,A.、Pan,J.Y.、Faloutsos,C.、Hodgins,J.K.和Pollard,N.S.(2004年)。将运动捕捉数据分割为不同的行为。在《图形界面学报》2004(第185-194页)中。加拿大人机通信协会。
[4] Bartlett,M.S.、Littleport,G.C.、Frank,M.G.、Lainssek,C.、Fasel,I.R.和Movellan,J.R.(2006年)。自动识别自发表情中的面部动作。多媒体杂志,1(6),22-35·doi:10.4304/jmm.1.6.22-35
[5] Begum,N.和Keogh,E.(2014年)。从无界流中发现罕见的时间序列主题。VLDB,8(2),149-160。
[6] Boiman,O.和Irani,M.(2005)。检测图像和视频中的不规则。在ICCV中。
[7] Brand,M.、Oliver,N.和Pentland,A.(1997年)。用于复杂动作识别的耦合HMM。在CVPR中。
[8] Brendel,W.和Todorovic,S.(2011年)。学习人类活动的时空图。ICCV会议记录(第778-785页)。
[9] Chaaraoui,A.A.、Climent-Pérez,P.和Flórez-Revuelta,F.(2012)。视觉技术在环境辅助生活人类行为分析中的应用综述。应用专家系统,39(12),10873-10888·doi:10.1016/j.eswa.2012.03.005
[10] Chu,W.S.、Chen,C.P.和Chen,C.S.(2010年)。Momi-cosegmentation:在多个图像中同时分割多个对象。ACCV会议记录。
[11] Chu,W.S.、De la Torre,F.和Cohn,J.F.(2016)。个性化面部表情分析的选择性转印机。TPAMI公司。
[12] Chu,W.S.、Zeng,J.、De la Torre,F.、Cohn,J.F.和Messinger,D.S.(2015)。人类互动中的无监督同步发现。在ICCV中。
[13] Chu,W.S.,Zhou,F.,&De la Torre,F.(2012)非监督时间共性发现。在ECCV中。
[14] Cooper,H.和Bowden,R.(2009年)。从字幕中学习手势:一种缺乏监督的手语识别方法。在CVPR中。
[15] De la Torre,F.、Chu,W.S.、Xiong,X.、Ding,X.和Cohn,J.F.(2015)。内部。在自动人脸和手势识别中。
[16] Delaherche,E.、Chetouani,M.、Mahdhaoui,A.、Saint-Georges,C.、Viaux,S.和Cohen,D.(2012)。人际同步:跨学科评估方法的调查。IEEE情感计算汇刊,3(3),349-365·doi:10.1109/T-AFFC.2012.12
[17] Ding,X.、Chu,W.S.、De la Torre,F.、Cohn,J.F.和Wang,Q.(2012)。通过级联任务进行面部动作单元事件检测。在ICCV(第2013卷)中。
[18] Du,S.、Tao,Y.和Martinez,A.M.(2014)。复杂的面部表情。《美国国家科学院院刊》,111(15),E1454-E1462·doi:10.1073/pnas.1322355111
[19] Duchenne,O.、Laptev,I.、Sivic,J.、Bach,F.和Ponce,J.(2009)。视频中人类动作的自动注释。在ICCV中。
[20] Everingham,M.、Zisserman,A.、Williams,C.I.和Van Gool,L.(2006)。PASCAL可视对象类挑战了2006年的结果。在第二次PASCAL挑战赛中。
[21] Feris,R.、Bobbitt,R.,Brown,L.和Pankanti,S.(2014)。基于属性的人员搜索:从实际监测系统中吸取的教训。在ICMR中。
[22] Gao,L.、Song,J.、Nie,F.、Yan,Y.、Sebe,N.和Tao Shen,H.(2015)。使用部分标记和多个特征进行图像和视频注释的优化图形学习。在CVPR中。
[23] Gendron,B.和Crainic,T.G.(1994)。并行分支算法:综述与综合。运筹学,42(6),1042-1066·Zbl 0824.90096号 ·doi:10.1287/opre.42.6.1042
[24] Girard,J.M.、Cohn,J.F.、Jeni,L.A.、Lucey,S.和De la Torre,F.(2015)。面部动作单元检测需要多少训练数据?在AFGR中。
[25] Goldberger,J.、Gordon,S.和Greenspan,H.(2003)。一种基于两个高斯混合函数之间kl离散度近似的有效图像相似性度量。在ICCV中。
[26] Gusfield,D.(1997)。字符串、树和序列的算法:计算机科学和计算生物学。剑桥:剑桥大学出版社·Zbl 0934.68103号 ·doi:10.1017/CBO9780511574931
[27] Han,D.、Bo,L.和Sminchisescu,C.(2009年)。动作识别的选择和上下文。在ICCV(2009)中
[28] Hoai,M.、Z.Zhong Lan和F.De la Torre(2011)。视频中人体动作的联合分割和分类。在CVPR中。
[29] Hongeng,S.和Nevatia,R.(2001年)。多代理事件识别。在ICCV中。
[30] Hu,W.,Xie,N.,Li,L.,Zeng,X.,&Maybank,S.(2011)。基于视觉内容的视频索引和检索综述。IEEE系统、人与控制论汇刊,C部分,41(6),797-819·doi:10.1109/TSMCC.2011.2109710
[31] Jhuang,H.、Serre,T.、Wolf,L.和Poggio,T.(2007)。一种受生物启发的动作识别系统。在ICCV中。
[32] Keogh,E.和Ratanamahatana,C.A.(2005年)。动态时间扭曲的精确索引。知识和信息系统,7(3),358-386·doi:10.1007/s10115-004-0154-9
[33] Krüger,S.E.,Schafföner,M.,Katz,M.、Andelic,E.和Wendemuth,A.(2005)。混合系统中使用支持向量机的语音识别。在Interspeech中。
[34] Lampert,C.、Blaschko,M.和Hofmann,T.(2009年)。高效的子窗口搜索:用于对象定位的分支绑定框架。IEEE TPAMI,31(12),2129-2142·doi:10.1109/TPAMI.2009.144
[35] Laptev,I.、Marszalek,M.、Schmid,C.和Rozenfeld,B.(2008)。从电影中学习真实的人类行为。CVPR会议记录。
[36] Lehmann,A.、Leibe,B.和Van Gool,L.(2011年)。快速棱镜:用于对象类检测的分支和绑定霍夫变换。IJCV,94(2),175-197·Zbl 1235.68273号 ·doi:10.1007/s11263-010-0342-x
[37] Littlewort,G.、Bartlett,M.S.、Fasel,I.、Susskind,J.和Movellan,J.(2006)。从视频中自动提取面部表情的动态。图像和视觉计算,24(6),615-625·doi:10.1016/j.imavis.2005.09.011
[38] Liu,C.D.、Chung,Y.N.和Chung的P.C.(2010年)。一个用于理解人类行为的交互式嵌入hmm框架:以护理环境为例。IEEE生物医学信息技术汇刊,14(5),1236-1246·doi:10.1109/TITB.2010.2052061
[39] Liu,H.和Yan,S.(2010年)。通过空间相干通信发现常见的视觉模式。CVPR会议记录。
[40] Liu,J.、Shah,M.、Kuipers,B.和Savarese,S.(2011年)。通过视图知识传递进行跨视图动作识别。In:CVPR。
[41] Lucey,P.、Cohn,J.F.、Kanade,T.、Saragih,J.、Ambadar,Z.和Matthews,I.(2010)。扩展的cohn-kanade数据集(CK+):一个用于动作单元和特定于情感的表达式的完整数据集。输入:CVPRW。
[42] Maier,D.(1978年)。关于子序列和超序列的一些问题的复杂性。美国医学会杂志,25(2),322-336·兹伯利0371.68018 ·doi:10.1145/322063.322075
[43] Matthews,I.和Baker,S.(2004年)。重新访问了活动外观模型。IJCV,60(2),135-164·doi:10.1023/B:VISI.0000029666.37597.d3
[44] Messinger,D.M.、Ruvolo,P.、Ekas,N.V.和Fogel,A.(2010年)。将机器学习应用于婴儿交互:发展在细节中。神经网络,23(8),1004-1016·doi:10.1016/j.neunet.2010.08.008
[45] Messinger,D.S.、Mahoor,M.H.、Chow,S.M.和Cohn,J.F.(2009年)。婴儿与母亲互动中面部表情的自动测量:一项初步研究。婴儿,14(3),285-305·doi:10.1080/15250000902839963
[46] Minnen,D.、Isbell,C.、Essa,I.和Starner,T.(2007年)。使用子序列密度估计发现多元模体。输入:AAAI。
[47] Mueen,A.和Keogh,E.(2010年)。时间序列主题的在线发现和维护。收信人:KDD。
[48] Mukherjee,L.、Singh,V.和Peng,J.(2011年)。图像组的缩放不变共分割。CVPR会议记录。
[49] Murphy,K.P.(2012)。机器学习:概率观点。剑桥:麻省理工学院出版社·Zbl 1295.68003号
[50] Narendra,P.M.和Fukunaga,K.(1977年)。一种用于特征子集选择的分枝定界算法。IEEE计算机汇刊,100(9),917-922·Zbl 0363.68059号 ·doi:10.1109/TC.1977.1674939
[51] Nayak,S.、Duncan,K.、Sarkar,S.和Loeding,B.(2012年)。从连续手语句子中找出循环模式,以便自动提取符号。机器学习研究杂志,13(1),2589-2615·Zbl 06276193号
[52] Oliver,N.M.、Rosario,B.和Pentland,A.P.(2000)。用于模拟人类交互的贝叶斯计算机视觉系统。IEEE模式分析和机器智能汇刊,22(8),831-843·doi:10.1109/34.868684
[53] Paterson,M.和Daník,V.(1994年)。最长的公共子序列。计算机科学数学基础,1994(841),127-142·兹伯利0941.68812
[54] Platt,J.等人(1999年)。支持向量机的概率输出以及与正则化似然方法的比较。大幅度分级机进展,10(3),61-74。
[55] Reddy,K.K.和Shah,M.(2013年)。识别50种网络视频的人类动作类别。机器视觉与应用,24(5),971-981·doi:10.1007/s00138-012-0450-4
[56] Rubner,Y.、Tomasi,C.和Guibas,L.J.(2000)。推土机距离作为图像检索的度量。IJCV,40(2),99-121·Zbl 1012.68705号 ·doi:10.1023/A:1026543900054
[57] Sadanand,S.和Corso,J.J.(2012年)。动作库:视频中活动的高级表示。在CVPR中。
[58] Sangineto,E.、Zen,G.、Ricci,E.和Sebe,N.(2014年)。我们并不都是平等的:使用传递性参数传递为面部表情分析建立个性化模型。ACMMM会议记录。
[59] Sayette,M.A.、Creswell,K.G.、Dimoff,J.D.、Fairbairn,C.E.、Cohn,J.F.、Heckman,B.W.等人(2012年)。酒精与群体形成:一项关于酒精对情绪和社会关系影响的多模式调查。心理科学,23869-878·doi:10.1177/0956797611435134
[60] Schindler,G.、Krishnamurthy,P.、Lublinerman,R.、Liu,Y.和Dellaert,F.(2008)。城市环境中自动地理标签的重复模式检测与匹配。CVPR会议记录。
[61] Schmidt,R.C.、Morr,S.、Fitzpatrick,P.和Richardson,M.J.(2012)。测量交互同步的动力学。非言语行为杂志,36(4),263-279·doi:10.1007/s10919-012-0138-5
[62] Scholkopf,B.(2001年)。距离的核心技巧。以NIPS为单位。
[63] Schuller,B.和Rigoll,G.(2006年)。基于分段的语音情感识别中的计时级别。在Interspeech中。
[64] Si,Z.、Pei,M.、Yao,B.和Zhu,S.(2011)。无监督学习视频中的事件和或语法和语义。在ICCV中。
[65] Sivic,J.和Zisserman,A.(2003年)。视频谷歌:一种用于视频中对象匹配的文本检索方法。在ICCV诉讼程序中。
[66] Sun,M.、Telaprolu,M.、Lee,H.和Savarese,S.(2012年)。一种用于最优人体姿态估计的有效分枝定界算法。在CVPR中。
[67] Turaga,P.、Veeraraghavan,A.和Chellappa,R.(2009年)。视频序列的无监督视图和速率不变聚类。CVIU,113(3),353-371。
[68] Valstar,M.和Pantic,M..(2006年)。全自动面部动作单元检测和时间分析。在CVPRW中。
[69] Viola,P.和Jones,M.J.(2004年)。强大的实时人脸检测。IJCV,57(2),137-154·doi:10.1023/B:VISI.0000013087.49260.fb
[70] Wang,H.,Zhao,G.,&Yuan,J.(2014)。图像和视频数据中的视觉模式发现:简要综述。威利跨学科评论:数据挖掘和知识发现,4(1),24-37。
[71] Wang,Y.,Jiang,H.,Drew,M.S.,Li,Z.,&Mori,G.(2006)。未经监督的操作类发现。CVPR会议记录。
[72] Wang,Y.和Velipasalar,S.(2009)。使用最长连续公共子序列对非同步相机进行帧级时间校准。在ICASSP中。
[73] Yang,Y.、Saleemi,I.和Shah,M.(2013a)。发现用于无监督分组和一次性学习人类动作、手势和表情的运动原语。TPAMI,第35(7)页,1635-1648。
[74] Yang,Y.、Song,J.、Huang,Z.、Ma,Z..、Sebe,N.和Hauptmann,A.G.(2013b)。基于层次回归的多媒体分析多特征融合。IEEE多媒体汇刊,15572-581。
[75] Yu,X.、Zhang,S.、Yu,Y.、Dunbar,N.、Jensen,M.、Burgoon,J.K.和Metaxas,D.N.(2013)。使用健壮的面部跟踪和表情识别自动分析交互同步性。在自动人脸和手势识别中。
[76] Yuan,J.、Liu,Z.和Wu,Y.(2011)。用于有效动作检测的鉴别视频模式搜索。IEEE TPAMI,33(9),1728-1743·doi:10.1109/TPAMI.2011.38
[77] Zheng,Y.、Gu,S.和Tomasi,C.(2011)。通过视频管检测运动同步性。在ACMMM中。
[78] Zhou,F.、De la Torre,F.和Hodgins,J.K.(2013)。用于人类运动的时间聚类的层次对齐聚类分析。IEEE TPAMI,35(3),582-596。
[79] Zhou,F.、De la Torre,F.和Cohn,J.F.(2010)。未经监督发现面部事件。CVPR会议记录。
[80] Zhu,S.和Mumford,D.(2006)。图像的随机语法。计算机图形和视觉基础与趋势,2(4),259-362·Zbl 1198.68160号 ·doi:10.1561/0600000018
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。