{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部件”:[[2024,9,23]],“日期-时间”:“2024-09-23T04:32:31Z”,“时间戳”:1727065951613},“参考-计数”:80,“出版商”:“Springer Science and Business Media LLC”“:”2024-01-10T00:00:00Z“,“timestamp”:1704844800000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“https:\/\/creativecommons.org\/licenses\/by\/4.0”},{“start”:{“date-parts”:[2024,10]],“date-time”:“2024-01-10T00:00:00Z”,“timetamp”:1.704480000}/creativecommons.org\/licenses\/by\/4.0“}],”出资人“:[{”名称“:“国家重点研发计划”,“奖项”:[“2018AAA0100400”]},{“DOI”:“10.13039\/501100001809”,“名称”:“国家自然科学基金”,“DOI-asserted-by”:“publisher”,“奖”:[”U21B2013“,”61971277“],“id”:[{“id”:“10.13029\/5011000001809”,”id-type“:”DOI“,”asserted-by“:”publisher“}]}],“content-domain”:{“域”:[“link.springer.com”],“crossmark-restriction”:false},“short-container-title”:[“Vis.Intell.”],”抽象“:”摘要<\/jats:title>本文主要研究自监督视频表征学习。大多数现有方法遵循对比学习流程,通过对不同片段进行采样来构建正负对。然而,这种表述倾向于偏离静态背景,难以建立全局时间结构。主要原因是,阳性对,即从同一视频中采样的不同片段,具有有限的时间感受野,通常具有相似的背景,但运动不同。为了解决这些问题,我们提出了一个框架,联合利用本地剪辑和全球视频来学习详细的区域级通信以及一般的长期时间关系。基于一组设计的可控增强,我们通过软时空区域对比度实现精确的外观和运动模式对齐。我们的公式避免了低层冗余捷径,以对抗性互信息最小化为目标,以提高泛化能力。此外,我们引入了局部-全局时序依赖,以进一步弥合剪辑级和视频级表示之间的差距,从而实现稳健的时序建模。大量实验表明,我们的框架在动作识别和视频检索方面优于三个视频基准测试,并且捕获了更准确的时间动态<\/jats:p>“,”DOI“:”10.1007\/s44267-023-00034-7“,”type“:”journal-article“,”created“:{”date-parts“:[2024,1,10]],”date-time“:”2024-01-10T10:02:11Z“,”timestamp“:1704880931000},”update-policy“:“http://\/dx.DOI.org\/10.1007\/springer_crossmark_policy”,“source”:“Crossref”,”is-referenced-by-count“:2,”title“:[”视频表征学习的可控增强“],”前缀“:”10.1007“,”卷“:”2“,”作者“:[{”给定“:”瑞“,”家庭“:”钱“,”序列“:”第一“,”从属“:[]},{”给出“:”卫耀“,”家人“:”林“,”顺序“:”附加“,”隶属“:[]},”给定““:”约翰“,”家族“:”见“,”序号“:”额外“,”附属“:[[]}.,{“给定”:”甸“,”家庭“:”Li“,”sequence“:”additional“,”affiliation“:[]}],”member“:”297“,”published-on-line“:{”date-parts“:[[2024,10]]},”reference“:[{”key“:”34_CR1“,“first page”:“4724”,“volume-title”:“IEEE计算机视觉与模式识别会议论文集”,“author”:“J.Carreira”,“year”:“2017”,“unstructured”:“Carreira-,J.,&Zisserman,A.(2017)库瓦迪斯,动作识别?新模型和动力学数据集。IEEE计算机视觉和模式识别会议论文集(第4724\u20134733页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR2“,”first-page“:”318“,”volume-title“:”第十五届欧洲计算机视觉会议论文集“,”author“:”S.Xie“,”year“:”2018“,”unstructured“:”Xie,S.,Sun,C.,Huang,J.,Tu,Z.,&Murphy,K.(2018)。重新思考时空特征学习:视频分类中的速度-准确性权衡。V.Ferrari,M.Hebert,C。Sminchisescu等人(编辑),《第十五届欧洲计算机视觉会议论文集》(第318\u2013335页)。查姆:斯普林格。“},{”key“:”34_CR3“,”首页“:”6047“,”volume-title“:”IEEE\/CVF计算机视觉和模式识别会议论文集“,”author“:”C.Gu“,”year“:”2018“,”unstructured“:”Gu,C.,Sun,C.,Ross,D.A.,Vondrick,C.,Pantofaru,C.、Li,Y.等(2018).AVA:时空定位原子视觉动作的视频数据集。《IEEE计算机视觉和模式识别会议论文集》(第6047\u20136056页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR4“,”首页“:”961“,”volume-title“:”IEEE计算机视觉和模式识别会议论文集“,”author“:”F.C.Heilbron“,”year“:”2015“,”unstructured“:”Heilbrong,F.C.,Escorcia,V.,Ghanem,B.,&Niebles,J.C.(2015).Activitynet:一个用于理解人类活动的大型视频基准。《IEEE计算机视觉和模式识别会议论文集》(第961\u2013970页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR5“,”unstructured“:”Liu,Y.,Albanie,S.,Nagrani,A.,&Zisserman,A.(2019)。使用您所拥有的:使用协作专家的表示进行视频检索。arXiv预印本。arXiv:1907.13487。“}”,{“key”:“34_CR6”,“首页”:“2630”,“卷标”:“IEEE\/CVF计算机视觉国际会议论文集”,“作者:“A.Miech”,“年份”:“2019年”,“非结构化”:“Miech,A.,Zhukov,D.,Alayrac,J.-B.,Tapaswi,M.,Laptev,I.,&Sivic,J.(2019)。如何做到1亿:通过观看数亿段叙事视频片段来学习文本视频嵌入。在IEEE/CFF国际计算机视觉会议论文集(第2630\u20132640页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR7“,”unstructured“:”Soomro,K.,Zamir,A.R.,&Shah,M.(2012)。UCF101:来自野外视频的101个人类动作类的数据集。arXiv预印本。arXiv:1212.0402。“}”,{“key”:“34_CR8”,“首页”:“5843”,“卷标”:“IEEE计算机视觉国际会议论文集”,“作者”:“R.Goyal”,“年份”:“2017”,“非结构化”:“Goyal,R.、Kahou,S.E.、Michalski,V.、Materzynska,J.、Westphal,S.、Kim,H.等人(2017)。用于学习和评估视觉常识的\u201csomething\u201d视频数据库。IEEE计算机视觉国际会议论文集(第5843\u20135851页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR9“,”first page“:“520”,”volume-title“:”第十五届欧洲计算机视觉会议论文集“,”author“:”Y.Li“,”year“:”2018“,”unstructured“:”Li,Y.,&Vasconcelos,N.(2018)。RESOUND:走向没有表征偏见的行动识别。In V.Ferrari,M.Hebert,C.Sminchisescu,et al.(Eds.)《第15届欧洲计算机视觉会议论文集》(第520\u2013535页)。查姆:斯普林格。“},{”key“:”34_CR10“,”首页“:”9919“,”volume-title“:”IEEE\/CVF计算机视觉和模式识别会议论文集“,”author“:”S.Benaim“,”year“:”2020“,”unstructured“:”Benaim,S.,Ephrat,A.,Lang,O.,Mosseri,I.,Freeman,W.T.,Rubinstein,M.,et al.(2020)SpeedNet:学习视频的快速性。《IEEE计算机视觉和模式识别会议论文集》(第9919\u20139928页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR11“,”first-page“:”527“,”volume-title“:”第14届欧洲计算机视觉会议论文集“,”author“:”I.Misra“,”year“:”2016“,”unstructured“:”Misra,I.,Zitnick,C.L.,&Hebert,M.(2016)。洗牌和学习:使用时序验证的无监督学习。在B.Leibe,J.Matas,N.Sebe等人(编辑)《第14届欧洲计算机视觉会议论文集》(第527\u2013544页)。查姆:斯普林格。“},{”key“:”34_CR12“,”首页“:”8545“,”volume-title“:”第33届AAAI人工智能会议论文集“,”author“:”D.Kim“,”year“:”2019“,”unstructured“:”Kim,D.,Cho,D.,&Kweon,I.S.(2019).使用时空立方谜题的自我监督视频表示学习。第33届AAAI人工智能会议论文集(第8545\u20138552页)。Palo Alto:AAAI出版社。},{“key”:“34_CR13”,“首页”:“425”,“volume-title”:“第十六届欧洲计算机视觉会议论文集”,“author”:“J.Simon”,“year”:“2020”,“unstructured”:“Simon,J.,Meishvili,G.,&Favaro,P.(2020)。通过识别时间变换进行视频表征学习。A.Vedaldi,H.Bischof,T.Brox,et al.(Eds.)《第16届欧洲计算机视觉会议论文集》(第425\u2013442页)。查姆:斯普林格。“},{”key“:”34_CR14“,”首页“:”10334“,”volume-title“:”IEEE\/CVF计算机视觉与模式识别会议论文集“,”author“:”D.Xu“,”year“:”2019“,”unstructured“:”Xu,D.,Xiao,J.,Zhao,J..,Xie,D.,&Zhuang,Y.(2019).通过视频片段顺序预测进行自我监督的时空学习。《IEEE计算机视觉和模式识别会议论文集》(第10334\u201310343页)。皮斯卡塔韦:IEEE。},{“问题”:“7”,“关键”:“34_CR15”,“首页”:“3791”,“卷”:“44”,“作者”:“J.Wang”,“年份”:“2022”,“非结构化”:“Wang,J.,Jiao,3791\u20133806.“,”journal-title“:”IEEE Transactions on Pattern Analysis and Machine Intelligence“},{“key”:“34_CR16”,“unstructured”:“Gordon,D.,Ehsani,K.,Fox,D.,&Farhadi,A.(2020)。观察世界:从未标记视频中学习表征。arXiv预印本。arXiv:2003.07990。”},“key“:”34_CR17“,“首页”:“6964”,“volume-title“:《IEEE计算机视觉与模式识别会议论文集》,“author”:“R.Qian”,“year”:“2021”,“unstructured”:“Qian,R.,Meng,T.,Gong,B.,Yang,M.-H.,Wang,H.,Belongie,S.J.等人(2021)。时空对比视频表征学习。在关于计算机视觉和模式识别的IEEE/CFF会议记录中(第6964\u20136974页)。皮斯卡塔韦:IEEE。},{“key”:“34_CR18”,“首页”:“504”,“volume-title”:“第十六届欧洲计算机视觉会议论文集”,“author”:“J.Wang”,“year”:“2020”,“unstructured”:“Wang,J.,Jiao,J.和Liu,Y.-H.(2020)。通过速度预测进行自我监督视频表征学习。A.Vedaldi,H.Bischof,T.Brox,et al.(Eds.)《第16届欧洲计算机视觉会议论文集》(第504\u2013521页)。查姆:斯普林格。“},{”key“:”34_CR19“,”首页“:”10656“,”volume-title“:”第三十五届AAAI人工智能会议论文集“,”author“:”T.Yao“,”year“:”2021“,”unstructured“:”Yao,T.,Zhang,Y.,Qiu,Z.,Pan,Y.和Mei,T.(2021)SeCo:探索用于无监督表示学习的序列监督。第35届AAAI人工智能会议记录(第10656\u201310664页)。帕洛阿尔托:AAAI出版社。},{“key”:“34_CR20”,“volume-title”:“第34届神经信息处理系统国际会议论文集”,“author”:“T.Han”,“year”:“2020”,“unstructured”:“Han,T.,Xie,W.,&Zisserman,A.(2020)。视频表征学习的自我监督联合培训。H.Larochelle,M.Ranzato,R.Hadsell,et al.(Eds.)《第34届神经信息处理系统国际会议论文集》,Red Hook:Curran Associates。“},{”key“:”34_CR21“,”首页“:”3188“,”volume-title“:”IEEE\/CVF计算机视觉研讨会国际会议论文集“,”author“:”H.Kuang“,”year“:”2021“,”unstructured“:”Kuang,H.,Zhu,Y.,Zhang,Li,X.,Tighe,J.,Schwertfeger,S.,et al.(2021)视频对比学习与全球背景。《IEEE计算机视觉研讨会国际会议论文集》(第3188\u20133197页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR22“,”首页“:”11205“,”volume-title“:”IEEE\/CVF计算机视觉和模式识别会议论文集“,”author“:”T.Pan“,”year“:”2021“,”unstructured“:”Pan,T.,Song,Y.,Yang,T.、Jiang,W.,&Liu,W.(2021)Videomoco:对比视频表征学习与时间对抗性示例。《IEEE计算机视觉和模式识别会议论文集》(第11205\u201311214页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR23“,”首页“:”11804“,”volume-title“:”IEEE\/CVF计算机视觉与模式识别会议论文集“,”author“:”J.Wang“,”year“:”2021“,”unstructured“:”Wang,J.,Gao,Y.,Li,K.,Lin,Y.、Ma,A.J.,Cheng,H.,et al.(2021).通过添加背景来去除背景:走向背景稳健的自我监督视频表示学习。《IEEE计算机视觉和模式识别会议论文集》(第11804\u201311813页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR24“,”首页“:”10129“,”volume-title“:”第35届AAAI人工智能会议论文集“,”author“:”J.Wang“,”year“:”2021“,”unstructured“:”Wang,J.,Gao,Y.,Li,K.,Hu,J.、Jiang,X.,Guo,X.等(2021)通过将场景和运动解耦来增强无监督视频表示学习。第35届AAAI人工智能会议论文集(第10129\u201310137页)。门洛帕克:AAAI出版社。},{“key”:“34_CR25”,“首页”:“9726”,“volume-title”:“IEEE计算机视觉与模式识别会议论文集”,“author”:“K.He”,“year”:“2020”,“unstructured”:“He,K.,Fan,H.,Wu,Y.,Xie,S.,&Girshick,R.B.(2020)无监督视觉表征学习的动量对比。《IEEE计算机视觉和模式识别会议论文集》(第9726\u20139735页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR26“,”首页“:”1597“,”volume-title“:”第37届国际机器学习会议论文集“,”author“:”T.Chen“,”year“:”2020“,”unstructured“:”Chen,T.,Kornblith,S.,Norouzi,M.,&Hinton,G.E.(2020)视觉表征对比学习的简单框架。第37届机器学习国际会议论文集(第1597\u20131607页)。斯特劳德斯堡:国际机器学习协会。“},{”key“:”34_CR27“,”unstructured“:”van den Oord,A.,Li,Y.,&Vinyals,O.(2018)。用对比预测编码进行表征学习。arXiv预印本。arXiv:1807.03748.“}”,{“key”:“34_CR28”,“第一页”:“1735”,“volume-title”:“IEEE计算机视觉和模式识别学会会议论文集”,“author”:“R。Hadsell”,“年份”:“2006年”,“非结构化”:“Hadsellr,R.,Chopra,S.,&LeCun,Y.(2006)。通过学习不变映射降低维数。在IEEE计算机学会关于计算机视觉和模式识别的会议记录中(第1735\u20131742页)。皮斯卡塔韦:IEEE。},{“key”:“34_CR29”,“volume-title”:“第十三届国际人工智能与统计会议论文集”,“author”:“M.Gutmann”,“year”:“2010”,“unstructured”:“Gutmann,M.,&Hyv\u00e4rinen,A.(2010)。噪声控制估计:非正规化统计模型的一种新估计原理。Titterington(Eds.),第13届人工智能和统计国际会议论文集。2023年11月3日检索自http://\/crocesses.mlr.press\/v9\/gutmann10a.html。“},{”key“:”34_CR30“,”首页“:”3733“,”volume-title“:”IEEE\/CVF计算机视觉与模式识别会议论文集“,”author“:”Z.Wu“,”year“:”2018“,”unstructured“:”Wu,Z.,Xiong,Y.,Yu,S.X.,&Lin,D.(2018).通过非参数实例判别的无监督特征学习。《IEEE计算机视觉和模式识别会议论文集》(第3733页)。皮斯卡塔韦:IEEE。},{“key”:“34_CR31”,“首页”:“776”,“volume-title”:“第十六届欧洲计算机视觉会议论文集”,“author”:“Y.Tian”,“year”:“2020”,“unstructured”:“Tian,Y.,Krishnan,D.,&Isola,P.(2020)。对比多视图编码。A.Vedaldi,H.Bischof,T.Brox,et al.(Eds.)《第16届欧洲计算机视觉会议论文集》(第776\u2013794页)。查姆:斯普林格。},{“key”:“34_CR32”,“volume-title”:“第七届学习表征国际会议论文集”,“author”:“R.D.Hjelm”,“year”:“2019”,“unstructured”:“Hjelms,R.D.,Fedorov,A.,Lavoie-Marchildon,S.,Grewal,K.,Bachman,P.,Trischler,A.,et al.(2019).通过相互信息估计和最大化学习深度表示。第七届学习表征国际会议论文集。2023年11月3日检索自https:\/\/openreview.net\/forum?id=Bklr3j0cKX。“},{”key“:”34_CR33“,”首页“:”16684“,”volume-title“:”IEEE\/CVF计算机视觉与模式识别会议论文集“,”author“:”Z.Xie“,”year“:”2021“,”unstructured“:”Xie,Z.,Lin,Y.,Zhang,Z.、Cao,Y.、Lin,S.,&Hu,H.(2021)传播自己:探索像素级的一致性,以实现无监督的视觉表征学习。《IEEE计算机视觉和模式识别会议论文集》(第16684\u201316693页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR34“,”首页“:”3024“,”volume-title“:”IEEE\/CVF计算机视觉和模式识别会议论文集“,”author“:”X.Wang“,”year“:”2021“,”unstructured“:”Wang,X.,Zhang,R.,Shen,C.,Kong,T.,&Li,L.(2021).针对自我监督视觉预培训的密集对比学习。《IEEE计算机视觉和模式识别会议论文集》(第3024\u20133033页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR35“,”首页“:”667“,”volume-title“:”IEEE计算机视觉国际会议论文集“,”author“:”H.Y.Lee“,”year“:”2017“,”unstructured“:”Lee,H.Y.,Huang,J.-B.,Singh,M.,&Yang,M.-H.(2017).通过排序序列进行的无监督表示学习。IEEE计算机视觉国际会议论文集(第667\u2013676页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR36“,”首页“:”402“,”volume-title“:”第十五届欧洲计算机视觉会议论文集“,”author“:”C.Vondrick“,”year“:”2018“,”unstructured“:”Vondrich,C.,Shrivastava,A.,Fathi,A.、Guadarrama,S.,&Murphy,K.(2018)。通过彩色视频实现跟踪。在V.Ferrari,M.Hebert,C.Sminchisescu等人(Eds.)《第15届欧洲计算机视觉会议论文集》(第402\u2013419页)。查姆:斯普林格。“},{”key“:”34_CR37“,”首页“:”2566“,”volume-title“:”IEEE\/CVF计算机视觉和模式识别会议论文集“,”author“:”X.Wang“,”year“:”2019“,”unstructured“:”Wang,X.,Jabri,A.,&Efros,A.A.(2019).从时间的循环一致性中学习通信。《IEEE计算机视觉和模式识别会议论文集》(第2566u20132576页)。皮斯卡塔韦:IEEE。},{“key”:“34_CR38”,“volume-title”:“第34届神经信息处理系统国际会议论文集”,“author”:“A.Jabri”,“year”:“2020”,“unstructured”:“Jabri,A.,Owens,A.,&Efros,A.A.(2020)。时空对应作为对比随机漫步。H.Larochelle,M.Ranzato,R.Hadsell,et al.(Eds.)《第34届神经信息处理系统国际会议论文集》,Red Hook:Curran Associates。“},{”键“:”34_CR39“,”首页“:”317“,”卷标题“:”第33届神经信息处理系统国际会议论文集“,”作者“:”X.Li“,”年份“:”2019“,”非结构化“:”Li,X.,Liu,S.,De Mello,S.,Wang,X.,Kautz,J.,&Yang,M.-H(2019)。时间对应的联合任务自监督学习。Wallach,H.Larochelle,A.Beygelzimer等人(编辑),第33届神经信息处理系统国际会议论文集(第317\u2013327页)。红钩:Curran Associates。},{“key”:“34_CR40”,“volume-title”:“第五届学习表征国际会议论文集”,“author”:“R.Villegas”,“year”:“2017”,“unstructured”:“Villegas,R.,Yang,J.,Hong,S.,Lin,X.,&Lee,H.(2017)。分解运动和内容以进行自然视频序列预测。第五届学习表征国际会议论文集。于2023年11月3日从https:\/\/openreview.net\/forum检索到?id=rkEFLFqee。“},{”key“:”34_CR41“,”首页“:”7101“,”volume-title“:”IEEE计算机视觉与模式识别会议论文集“,”author“:”Z.Luo“,”year“:”2017“,”unstructured“:”Luo,Z.,Peng,B.,Huang,D.-A.,Alahi,A.,&Li,F.F.F.(2017)无监督学习视频的长期运动动力学。《IEEE计算机视觉和模式识别会议论文集》(第7101\u20137110页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR42“,”first-page“:”1“,”volume-title“:”第34届神经信息处理系统国际会议论文集“,”author“:”H.Alwassel“,”year“:”2020“,”unstructured“:”Alwassell,H.,Mahajan,D.,Korbar,B.,Torresani,L.,Ghanem,B.,&Tran,D.(2020)。通过跨模态音视频聚类实现自我监督学习。H.Larochelle、M.Ranzato、R.Hadsell等人(编辑),《第34届神经信息处理系统国际会议论文集》(pp.1\u201313)。红钩:Curran Associates。“},{”key“:”34_CR43“,”首页“:”130“,”volume-title“:”IEEE计算机视觉和模式识别会议论文集“,”author“:”A.J.Piergiovanni“,”year“:”2020“,”unstructured“:”Piergiovarni,A.J.,Angelova,A.,&Ryoo,M.S.(2020).无监督视频表现学习的损失不断增加。《IEEE计算机视觉和模式识别会议论文集》(第130\u2013139页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR44“,”doi-asserted-by“:”crossref“,”unstructured“:”Liu,Y.,Wang,K.,Lan,H.,&Lin,L.(2021).自导视频表征学习的时间对比图.arXiv预印本.arXiv:2101.00820.“,“doi”:“10.1109\/TIP.2022.3147032”},“key”:“34_CR45”,“首页”:“1483”,“卷时间”:“IEEE计算机视觉研讨会国际会议论文集”,“作者”:“T.Han”,“年份”:“2019年”,“非结构化”:“Han,T.,Xie,W.,&Zisserman,A.(2019)。基于密集预测编码的视频表示学习。《IEEE计算机视觉研讨会国际会议论文集》(第1483u20131492页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR46“,”first page“:“312”,”volume-title“:”第16届欧洲计算机视觉会议论文集“,”author“:”T.Han“,”year“:”2020“,”unstructured“:”Han,T.,Xie,W.,&Zisserman,A.(2020)。用于视频表征学习的记忆增强密集预测编码。A.Vedaldi,H.Bischof,T.Brox,et al.(Eds.)《第16届欧洲计算机视觉会议论文集》(第312\u2013329页)。查姆:施普林格。“},{”key“:”34_CR47“,”unstructured“:”Yang,C.,Xu,Y.,Dai,B.,&Zhou,B.(2020)。视频表征学习与视觉节奏一致。arXiv预印本。arXiv:2006.15489。“}”,{“key”:“34_CR48”,“首页”:“1045”,“volume-title”:“第35届AAAI人工智能会议论文集”,“author”:“P.Chen”,“year”:“2021”,“unstructure”:“”Chen,P.,Huang,D.,He,D.、Long,X.、Zeng,R.、Wen,S.等(2021)。RSPNet:无监督视频表征学习的相对速度感知。第35届AAAI人工智能会议论文集(第1045\u20131053页)。帕洛阿尔托:AAAI出版社。“},{”key“:”34_CR49“,”首页“:”2085“,”volume-title“:”IEEE\/CVF计算机视觉国际会议论文集“,”author“:”R.Li“,”year“:”2021“,”unstructured“:”Li,R.,Zhang,Y.,Qiu,Z.,Yao,T.,Liu,D.,&Mei,T.(2021)以运动为中心的视频表征对比学习。IEEE计算机视觉国际会议论文集(第2085\u20132094页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR50“,”first page“:“145”,”volume-title“:”第17届欧洲计算机视觉会议论文集“,”author“:”R.Qian“,”year“:”2022“,”unstructured“:”Qian,R.,Ding,S.,Liu,X.,&Lin,D.(2022)。自导视频表征学习的静态和动态概念。S.Avidan,G.J.Brostow,M。Ciss\u00e9等(编辑),第17届欧洲计算机视觉会议论文集(第145\u2013164页)。查姆:施普林格。“},{”key“:”34_CR51“,”doi-asserted-by“:”publisher“,”first page“:“5649”,”doi“:”10.1145\/3503161.3547783“,”volume-title“:”第30届ACM多媒体国际会议论文集“,”author“:”S.Ding“,”year“:”2022“,”unstructured“:”Ding,S.,Qian,R.,&Xiong,H.(2022)。时空表征的双重对比学习。Magalh\u00e3es,A.Del Bimbo,S.Satoh等人(编辑),第30届ACM多媒体国际会议论文集(第5649\u20135658页)。纽约:ACM。},{“key”:“34_CR52”,“first-page”:“20”,“volume-title”:“第17届欧洲计算机视觉研讨会论文集”,“author”:“Y.Liu”,“year”:“2022”,“unstructured”:“Liu,Y.,Chen,J.,&Wu,H.(2022)。MoQuad:视频对比学习中的运动焦点四重结构。L.Karlinsky,T.Michaeli,&K.Nishino(编辑)《第17届欧洲计算机视觉研讨会论文集》(第20\u201338页)。查姆:斯普林格。“},{”键“:”34_CR53“,”首页“:”9706“,”卷标题“:”IEEE\/CFF计算机视觉与模式识别会议论文集“,”作者“:”丁S.“,”年份“:”2022“,”非结构化“:”丁S.,Li,M.,Yang,T.,Qian,R.,Xu,H.,Chen,Q.等人(2022)通过前景背景合并学习运动软件对比视频表现。《IEEE计算机视觉和模式识别会议论文集》(第9706\u20139716页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR54“,”first page“:“7025”,”volume-title“:”第35届神经信息处理系统国际会议论文集“,”author“:”S.Ma“,”year“:”2021“,”unstructured“:”Ma,S.,Zeng,Z.,McDuff,D.,&Song,Y.(2021)。全球和本地视频表征的对比学习。M.Ranzato,A.Beygelzimer,Y.N。Dauphin等人(编辑),《第35届神经信息处理系统国际会议论文集》(第7025\u20137040页)。红钩:Curran Associates。“},{”key“:”34_CR55“,”首页“:”1235“,”volume-title“:”IEEE\/CVF计算机视觉国际会议论文集“,”author“:”A.Recasens“,”year“:”2021“,”unstructured“:”Recasenss,A.,Luc,P.,Alayrac,J.-B.,Wang,L.,Strub,F.,Tallec,C.,et al.(2021)。拓宽您的观点,进行自我监督的视频学习。IEEE计算机视觉国际会议论文集(第1235\u20131245页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR56“,”doi-asserted-by“:”publisher“,”doi“:”10.1016\/j.cviu.2022.103406“,”volume“:“219”,”author“:”I.R.Dave“,”year“:”2022“,”unstructured“:”Dave,I.R.,Gupta,R.,Rizve,M.N.,&Shah,M.(2022)。TCLR:视频表现的时间对比学习。计算机视觉和图像理解,219,103406。“,”journal-title“:”计算机视觉和图像理解“},{“key”:“34_CR57”,“volume-title”:“IEEE计算机视觉国际会议论文集”,“author”:“N.Behrmann”,“year”:“2021”,“unstructured”:“Behrmann-,N.,Fayyaz,M.,Gall,J.,&Noroozi,M.(2021).通过对比视频表示学习进行长短视特征分解。《IEEE计算机视觉国际会议论文集》,Piscataway:IEEE。“},{”问题“:”10“,”关键“:”34_CR58“,”首页“:”12408“,”卷“:”45“,”作者“:”Z.Qing“,”年份“:”2023“,”非结构化“:”Qing,Z.,Zhang,S.、Huang、Z.、Xu、Y.、Wang,X.、Gao,C.等(2023)。通过层次一致性从未剪辑视频中进行自我监督学习。IEEE模式分析与机器智能汇刊,45(10),12408\u201312426.“,”journal-title“:”IEEE Transactions on Pattern Analysis and Machine Intelligence“},{“key”:“34_CR59”,“first-page”:“530”,“volume-title”:“第35届国际机器学习会议论文集”,“author”:“M.I.Belghazi”,“year”:“2018”,“unstructured”:“M.I.Belghazi、A.Baratin、S.Rajeswar、S.Ozair、Y.Bengio、R.D.Hjelm等(2018年)。互信息神经估计。J.G.Dy&A.Krause(编辑),第35届机器学习国际会议论文集(第530\u2013539页)。斯特劳兹堡:国际机器学习学会。“},{”issue“:”1“,”key“:”34_CR60“,”doi-asserted-by“:”publisher“,”first-page“:”71“,”doi“:”10.1016\/0010-0277(93)90058-4“,”volume“:“48”,”author“:”J.L.Elman“,”year“:”1993“,”unstructured“:”Elman,J.L.(1993)。神经网络中的学习和发展:从小处着手的重要性。认知,48(1),71\u201399.“,“日记标题”:“认知”},{“key“:”34_CR61“,”doi-asserted-by“:”publisher“,”first-page“:”41“,”doi“:”10.1145\/1553374.1553380“,”volume-title“:”第26届国际机器学习年会论文集“,”author“:”Y.Bengio“,”year“:”2009“,”unstructured“:”Bengio,Y.,Louradour,J.,Collobert,R.,&Weston,J.(2009)。课程学习。A.P.Danyluk、L.Bottou和M.L.Littman(编辑),第26届机器学习国际年会论文集(第41\u201348页)。斯特劳德斯堡:国际机器学习协会。“},{”key“:”34_CR62“,”首页“:”6453“,”volume-title“:”IEEE机器人与自动化国际会议论文集“,”author“:”A.Murali“,”year“:”2018“,”unstructured“:”Murali,A.,Pinto,L.,Gandhi,D.,&Gupta,A.(2018)CASSL:课程加速了自主学习。IEEE机器人与自动化国际会议论文集(第6453\u20136460页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR63“,”首页“:”2556“,”volume-title“:”IEEE计算机视觉国际会议“,”author“:”H.Kuehne“,”year“:”2011“,”unstructured“:”KuehneH.,Jhuang,H.,Garrote,E.,Poggio,T.A.,&Serre,T.(2011)。HMDB:用于人体运动识别的大型视频数据库。D.N.Metaxas,L.Quan,A.Sanfeliu等人(编辑)IEEE计算机视觉国际会议(第2556\u20132563页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR64“,”首页“:”3154“,”volume-title“:”IEEE计算机视觉研讨会国际会议论文集“,”author“:”K.Hara“,”year“:”2017“,”unstructured“:”Hara,K.,Kataoka,H.,&Satoh,Y.(2017)。使用3D残差网络学习时空特征以进行动作识别。IEEE计算机视觉研讨会国际会议论文集(第3154\u20133160页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR65“,”首页“:”11701“,”volume-title“:”第34届AAAI人工智能会议论文集“,”author“:”D.Luo“,”year“:”2020“,”unstructured“:”Luo,D.,Liu,C.,Zhou,Y.,Yang,D.,Ma,C.,Ye,Q.,et al.(2020)视频完形填空程序,用于自我监督的时空学习。第34届AAAI人工智能会议记录(第11701\u201311708页)。帕洛阿尔托:AAAI出版社。“},{”key“:”34_CR66“,”unstructured“:”Sun,C.,Baradel,F.,Murphy,K.,&Schmid,C.(2019)。使用对比双向变换器学习视频表征。arXiv预印本。arXiv:1906.05743。“}”,{“key”:“34_CR67”,“首页”:“7970”,“卷标题”:“IEEE\/CVF计算机视觉国际会议论文集”,“作者”:“R.Qian”,“年份”:“2021年”,“非结构化”:“钱,R.,李,Y.,刘,H.,See,J.,Ding,S.,刘,X.,et al.(2021)。通过多层次特征优化增强自监督视频表示学习。IEEE计算机视觉国际会议论文集(第7970\u20137981页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR68“,”first-page“:”14691“,”volume-title“:”IEEE\/CVF计算机视觉和模式识别会议论文集“,”author“:”J.Park“,”year“:”2022“,”unstructured“:”Park,J.,Lee,J.、Kim,I.-J.和Sohn,K.(2022)视频对比学习的概率表征。《IEEE计算机视觉和模式识别会议论文集》(第14691页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR69“,”首页“:”8076“,”volume-title“:”IEEE\/CVF计算机视觉国际会议论文集“,”author“:”D.Huang“,”year“:”2021“,”unstructured“:”Huang,D.,W.,Hu,W.、Liu,X.、He,D.、Wu,Z.等(2021)ASCNet:具有外观-速度一致性的自我监督视频表示学习。IEEE计算机视觉国际会议论文集(第8076\u20138085页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR70“,”first-page“:”9950“,”volume-title“:”IEEE计算机视觉国际会议论文集“,”author“:”J.Simon“,”year“:”2021“,”unstructured“:”Simon,J.,&Jin,H.(2021)时间等效对比视频表征学习。IEEE计算机视觉国际会议论文集(第9950\u20139960页)。皮斯卡塔韦:IEEE。“},{”键“:”34_CR71“,”首页“:”3299“,”卷标题“:”IEEE\/CFF计算机视觉与模式识别会议论文集“,”作者“:”C.Feichtenhofer“,”年份“:”2021“,”非结构化“:”Feichtenhofer,C.,Fan,H.,Xiong,B.,Girschick,R.B.,&He,K.(2021)一项关于无监督时空表征学习的大规模研究。《IEEE计算机视觉和模式识别会议论文集》(第3299页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR72“,”first-page“:”1“,”volume-title“:”第34届神经信息处理系统国际会议论文集“,”author“:”Y.M.Asano“,”year“:”2020“,”unstructured“:”Asano,Y.M..,Patrick,M.,Rupprecht,C.,&Vedaldidi,A.(2020)。用多模态自持视觉从头开始标记未标记视频。H。Larochelle,M.Ranzato,R.Hadsell,et al.(编辑),《第34届神经信息处理系统国际会议论文集》(pp.1\u201312)。红钩:Curran Associates。“},{”key“:”34_CR73“,”unstructured“:”Patrick,M.,Asano,Y.M.,Kuznetsova,P.,Fong,R.,Henriques,J.F.,Zweig,G.,et al.(2020)。广义数据转换的多模自组织。arXiv预印本。arXiv:2003.04298。“}”,{“key”:“34_CR74”,“首页”:“20”,“卷时间”:“《第十四届欧洲计算机视觉会议论文集》,“作者”:“L.Wang”,“年份”:“2016年”,“非结构化”:“Wang,L.,Xiong,Y.,Wang,Z.,Qiao,Y.”,Lin,D.,Tang,X.,et al.(2016)。时间段网络:走向深度行动识别的良好实践。B.Leibe,J.Matas,N.Sebe等人(编辑),《第14届欧洲计算机视觉会议论文集》(第20\u201336页)。查姆:斯普林格。“},{”键“:”34_CR75“,”首页“:”851“,”卷标题“:”第33届神经信息处理系统国际会议论文集“,”作者“:”J.Choi“,”年份“:”2019“,”非结构化“:”Choi,J.,Gao,C.,Messou,J.C.E.,&Huang,J.-B.(2019)。为什么我可以在商场里跳舞?学习减轻动作识别中的场景偏见。H.M.Wallach、H.Larochelle、A.Beygelzimer等人(编辑),《第33届神经信息处理系统国际会议论文集》(第851\u2013863页)。红钩:Curran Associates。“},{”key“:”34_CR76“,”首页“:”6547“,”volume-title“:”IEEE\/CVF计算机视觉和模式识别会议论文集“,”author“:”Y.Yao“,”year“:”2020“,”unstructured“:”Yao,Y.,Liu,C.,Luo,D.,Zhou,Y.和Ye,Q.(2020).视频播放速率感知,用于自主时空表征学习。在关于计算机视觉和模式识别的IEEE/CFF会议记录中(第6547\u20136556页)。皮斯卡塔韦:IEEE。“},{”key“:”34_CR77“,”doi-asserted-by“:”crossref“,”unstructured“:”Tao,L.,Wang,X.,&Yamasaki,T.(2020)。使用借口控制学习的自我监督视频表示。arXiv预印本。arXiv:2010.15464.“,”doi“:”10.1145\/3394171.3413694“}”,{“key”:“34_CR78”,“首页”:“10451”,“卷时间”:“第34届AAAI人工智能会议论文集”,“作者”:“K.Baek”,“年份”:“2020”,“非结构化”:“Baek,K.,Lee,M.,&Psynet,H.S.(2020)。使用点对称变换的自监督目标定位方法。第34届AAAI人工智能会议记录(第10451\u201310459页)。帕洛阿尔托:AAAI出版社。“},{”key“:”34_CR79“,”首页“:”1779“,”volume-title“:”第37届国际机器学习会议论文集“,”author“:”P.Cheng“,”year“:”2020“,”unstructured“:”Cheng,P.,Hao,W.,Dai,S.,Liu,J.,Gan,Z.,&Carin,L.(2020)CLUB:相互信息的对比对数比上界。第37届机器学习国际会议论文集(第1779\u20131788页)。斯特劳德斯堡:国际机器学习协会。},{“key”:“34_CR80”,“first-page”:“271”,“volume-title”:“第30届神经信息处理系统国际会议论文集”,“author”:“S.Nowozin”,“year”:“2016”,“unstructured”:“Nowozin,S.,Cseke,B.,&Tomioka,R.(2016)。f-GAN:使用变分散度最小化训练生成性神经采样器。D.Lee,M。Sugiyama,U.von Luxburg等人(编辑),《第30届神经信息处理系统国际会议论文集》(第271\u2013279页)。红钩:Curran Associates。“}],”containertitle“:[”Visual Intelligence“],”original-title“:[],”language“:”en“,”link“:[{”URL“:”https:\/\/link.springer.com/content\/pdf\/10.1007\/s44267-023-00034-7.pdf“,”content-type“:”application\/pdf“、”content-version“:”vor“、”intended-application“:”text-mining“},”{“URL”:“”https:\/\/link.springer.com/article\/10.1007\/s44267-023-00034-7\/fulltext.html“,“内容类型”:“文本\/html”,“内容版本”:“vor”,“intended-application”:“text-mining”},{“URL”:“https:\//link.springer\com/content\/pdf\/10007\/s44227-023-0034-7.pdf”,“content-type”:“application\/pdf”,“content-version”:“vor”,“intended-aapplication”“:”相似性检查“}”,“存放”:{“日期-部分”:[[2024,1,10]],“日期-时间”:“2024-01-10T11:06:17Z”,“时间戳”:1704884777000},“分数”:1,“资源”:{-“主要”:{“URL”:“https:\/\/link.springer.com\/10.1007\/s44267-023-00034-7”}},”副标题“:[],”短标题“:[],”发布“:{”日期-部分“:[2024,10]]},“references-count”:80,“journal-issue”:{“issue”:“1”,“published-online“:{”date-parts“:[[2024,12]]}},”alternative-id“:[”34“],”URL“:”http://\/dx.doi.org\/10.1007\/s44267-023-00034-7“,”relation“:{},“ISSN”:[”2731-9008“],“ISSN-type”:[{“value”:“2731-9008”,“type”:“electronic”}],“subject”:【】,“published”:{“date-part”:[2024,1,10]]},“断言”:[{“value”:“2023年5月22日”,“order”:1,“name”:“received”,“label”:“收到“,”组“:{“name”:“Article History”,“label”:“文章历史”}},{“value”:“2023年12月18日”,“order”:2,“name”:“revised”,“table”:“Revied”,“group”:{”name“:”ArticleHistory“,”label“:”文章历史“},”value“:”2023年十二月20日“,”order“,”name“:”accepted“,”table“:”accepted},{“value“:”2024年1月10日“,”order“:4,”name“:”first_online“,”label“:”first online“,“group”:{“name”:“Article History”,“label”:“Article Hiology”}},{“order”:1,”name”:”Ethics“,”group“:林伟耀是《视觉智能》的副主编,没有参与本文的编辑审查或发表决定。提交人声明,没有其他相互竞争的利益。“,”order“:2,”name“:”Ethics“,”group“:{”name“:”EthicsHeading“,”label“:”Competiting interestions“}}],”article-number“:”1“}}