×

基于结构敏感各向异性流形排序的视频语义分析。 (英语) Zbl 1197.94012号

摘要:作为半监督学习(SSL)的一个主要家族,基于图形的SSL最近吸引了机器学习社区以及视频语义分析等应用领域的大量兴趣。本文分析了基于图形的SSL和基于偏微分方程(PDE)的扩散之间的联系。从基于PDE的扩散的观点来看,在正常的基于图形的SSL中,标签传播是各向同性的,并伴随着距离。然而,根据基于图形的SSL的两个基本假设之一的结构假设,我们需要增强同一结构中样本之间的标签传播,同时削弱不同结构中样本间的对应关系。因此,我们从基于PDE的各向异性扩散中推导出一种新的基于图的SSL框架,称为结构敏感各向异性流形排序(SSAniMR)。SSAniMR没有仅使用欧几里德距离,而是考虑了局部结构差异,使得标签传播各向异性,这与一般基于图形的SSL方法中的各向同性标签传播过程有本质区别。在TREC视频检索评估(TRECVID)数据集上进行的实验表明,该方法显著优于现有的基于图形的SSL方法,并且对视频语义标注有效。

MSC公司:

94A08型 信息与通信理论中的图像处理(压缩、重建等)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] TRECVID公司。\兰格;http://www-nlpir.nist.gov/projects/trecvid/\范围;。[在线]。可用:\langle;http://www-nlpir.nist.gov/projects/trecvid/\范围;。
[2] S.Feng,R.Manmatha,V.Lavrenko,图像和视频注释的多贝努利相关模型,收录于:IEEE计算机视觉和模式识别会议,2004年。
[3] A.Ghoshal,P.Arcing,S.Khudanpur,图像和视频自动注释和基于内容检索的隐马尔可夫模型,收录于:ACM研究会议;信息检索发展,2005年。
[4] L.Lavrenko,S.Feng,R.Manmatha,自动视频注释和检索的统计模型,在:IEEE声学、语音和信号处理国际会议,2004年。
[5] 陶,D。;唐,X。;李,X。;Rui,Y.:直接核偏向判别分析:一种新的基于内容的图像检索相关反馈算法,IEEE多媒体事务8,第4期,716-727(2006)
[6] 陶,D。;唐,X。;Li,X.:哪些组件对交互式图像搜索很重要?,IEEE视频技术电路和系统交易18,第1期,第1-11页(2008年1月)
[7] R.Yan,M.Naphade,视频中语义概念检测的半监督跨特征学习,收录于:IEEE计算机视觉和模式识别会议,2005年7月。
[8] 何俊杰、李明杰、张海杰、童海通、张春川,基于流形库的图像检索,载:ACM多媒体,2004·Zbl 1097.68557号
[9] He,J。;李,M。;张海杰。;Tong,H。;Zhang,C.:基于广义流形库的图像检索,IEEE图像处理事务15,第10期(2006)·Zbl 1097.68557号
[10] X.Yuan,X.-S.Hua,M.Wang,X.Wu,基于流形库的大型数据库和特征池视频概念检测,收录于:ACM Multimedia,2006。
[11] C.Wang,F.Jing,L.Zhang,H.J.Zhang.,使用随机行走和重新启动进行图像注释细化,收录于:ACM Multimedia,2006年。
[12] Tang,J。;华,X.-S。;梅,T。;齐国杰。;Wu,X.:基于时间一致高斯随机场的视频注释,电子信函43,第8期(2007)
[13] J.Yuan,J.Li,B.Zhang,使用支持集群机器从大规模不平衡数据集学习概念,在:ACM多媒体,2006。
[14] M.Wang,X.-S.Hua,Y.Song,X.Yuan,S.Li,H.J.Zhang,基于核密度估计的半监督学习视频自动标注,载于:ACM Multimedia,2006。
[15] J.Yang,Y.Liu,A.H.E.P.Xing,语义视频表示和分类的和谐模型,收录于:SIAM数据挖掘会议,2007年。
[16] Tang,J。;华,X.-S。;齐国杰。;Song,Y。;Wu,X.:基于核线性邻域传播的视频注释,IEEE多媒体事务10,第4期(2008)
[17] F.Wang,C.Zhang,通过线性邻里进行标签传播,载:第23届机器学习国际会议,2006年6月。
[18] 范,J。;Elmagarmid,A。;朱,X。;阿雷夫,W。;Wu,L.:Classview:分层视频镜头分类、索引和访问,IEEE多媒体事务1,第6期,70-86(2004)
[19] D.Wang,X.Liu,L.Luo,J.Li,B.Zhang,Video diver:具有不同特征的通用视频索引,收录于:ACM SIGMM多媒体信息检索研讨会,2007年。
[20] G.-J.Qi,X.-S.Hua,Y.Rui,J.Tang,T.Mei,H.-J.Zhang,相关多标签视频注释,收录于:ACM Multimedia,2007年。
[21] Naphade,M。;J.R.史密斯。;Tesic,J。;Chang,S.-F。;徐伟。;肯尼迪,L。;Hauptmann,A。;Curtis,J.:《多媒体的大尺度概念本体论》,IEEE多媒体杂志16,第3期,第1-5页(2006)
[22] C.G.M.Snoek,M.Worring,J.C.V.Gemert,J.-M.Geusebroek,A.W.M.Smeulders,《多媒体中101个语义概念自动检测的挑战问题》,载于:ACM multimedia,2006年。
[23] J.Tang,X.-S.Hua,Y.Song,T.Mei,X.Wu,优化视频语义分类训练集的构建,《EURASIP信号处理进展杂志》,2008(2008),文章ID 693731,第10页·Zbl 1153.68431号 ·doi:10.115/2008/693731
[24] 宋永生,华晓生,戴立林,王明明,基于主动学习和多个互补预测因子的半自动视频标注,载:ACM多媒体信息检索国际研讨会,2005年。
[25] 宋永生,华晓生,戴立林,王明明,张海杰,大型个人视频数据库索引的高效语义标注方法,载:ACM多媒体信息检索国际研讨会,2005。
[26] Wu Y.,E.Chang,多媒体数据分析的最优多模态融合,载:ACM multimedia,2004。
[27] C.G.M.Snoek,M.Worring,A.W.Smeulders,语义视频分析中早期与晚期融合,载于:ACM Multimedia,2005年。
[28] R.Yan,A.Hauptmann,多媒体检索中的组合限制,载于:ACM multimedia,2003年。
[29] X.Tong,Q.Liu,Y.Zhang,H.Lu,《体育视频浏览的亮点排名》,载《ACM多媒体国际会议论文集》,新加坡,2005年11月,第519-522页。
[30] M.Wang,X.-S.Hua,R.Hong,J.Tang,G.-J.Qi,Y.Song,通过多图学习进行统一视频注释,IEEE视频技术电路和系统汇刊(2009),接受出版。
[31] J.Tang,H.Li,G.-J.Qi,T.-S.Chua,图像标注的基于图形的半监督多/单实例集成学习框架,收录于:ACM Multimedia,2008年。
[32] 沙佩尔,O。;Zien,A。;Scholkopf,B.:半监督学习(2006)
[33] M.Seeger,使用标记和未标记数据学习,技术报告,爱丁堡大学,2001年。
[34] C.Rosenberg,M.Heberg,H.Schneiderman,对象检测模型的半监督自训练,收录于:IEEE第七届计算机视觉应用研讨会,2005年。
[35] A.Blum,T.Mitchell,《将标记和未标记数据与联合训练相结合》,载于:《计算学习理论研讨会》,1998年。
[36] T.Zhang,F.Oles,分类问题中未标记数据值的概率分析,载于:第17届机器学习国际会议,2000年。
[37] X.Zhu,图形半监督学习,博士论文,CMU-LTI-05-1922005。
[38] A.Blum,S.Chawla,《使用图形min-cuts从标记和未标记数据中学习》,载于:《第18届机器学习国际会议论文集》,2001年。
[39] X.Zhu,Z.Ghahramani,J.Lafferty,使用高斯场和调和函数的半监督学习,收录于:第20届机器学习国际会议,2003年。
[40] D.Zhou,O.Bousquet,T.N.Lal,J.Weston,B.Scholkopf,《学习与地方和全球一致性》,载于:第17届神经信息处理系统年会,2003年。
[41] Chung,F.:谱图理论(1997)·Zbl 0867.05046号
[42] 贝尔金,M。;Niyogi,P。;Sindhwani,V.:流形正则化:从标记和未标记示例学习的几何框架,机器学习研究杂志7,2399-2434(2006年11月)·Zbl 1222.68144号
[43] O.Bousquet,O.Chapelle,M.Hein,基于测量的正则化,收录于:第17届神经信息处理系统年会,2003年。
[44] Sapiro,G.:几何偏微分方程和图像分析,(2001)·Zbl 0968.35001号
[45] 佩罗纳,P。;Malik,J.:使用各向异性扩散的尺度空间和边缘检测,IEEE模式分析和机器智能事务12,第7期(1990年)
[46] 霍恩,R.A。;Johnson,C.R.:矩阵分析(1999)
[47] Roweis,S.T。;Saul,L.K.:局部线性嵌入的非线性降维,《科学》290,2323-2326(2000)
[48] 杜达,R。;鹳,D。;Hart,P.:模式分类,(2000)
[49] 陶,D。;李,X。;马来亚银行,S.:相关反馈中的负面样本分析,IEEE知识与数据工程交易19,第4期,568-580(2007)
[50] C.-C.Chang,C.-J.Lin,LIBSVM:支持向量机库,2001年,可在langle下载的软件;http://www.csie.ntu.edu.tw/∼cjlin/libsvm\范围;。
[51] Trec-10程序通用评估措施附录;http://trec.nist.gov/pubs/trec10/附录/measures.pdf\范围;。
[52] 唐骏,视频语义标注若干问题研究,中国科技大学博士论文,2008。
[53] J.Tang,X.-S.Hua,G.-J.Qi,M.Wang,T.Mei,X.Wu,视频概念检测的结构敏感流形排名,载于:ACM多媒体,德国奥格斯堡,2007年9月。
[54] R.Rahmani,S.A.Goldman,Missl:《多元半监督学习》,第23届机器学习国际会议,2006年。
[55] Pang,Y。;袁,Y。;Li,X.:高维空间中的有效特征提取,IEEE系统、人和控制论事务,B部分:控制论38,第6期,1652-1656(2008年12月)
[56] Pang,Y。;陶,D。;袁,Y。;Li,X.:二进制二维PCA,IEEE系统、人和控制论事务,B部分:控制论38,第3期,1176-1780(2008年8月)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。