{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期-部件”：[[2023,2,23]]，“日期-时间”：“2023-02-23T05:19:18Z”，“时间戳”：1677129558163}，“参考-计数”：32，“发布者”：“爱思唯尔BV”，“问题”：“2”，“许可证”：[{“开始”：{--“日期部件”：[2008,8,1]]，08-01T00:00:00Z“，”时间戳“：1217548800000}，“content-version”：“tdm”，“delay-in-days”：0，“URL”：“https:\/\/www.elsevier.com//tdm\/userlicense\/1.0\/”}，{“start”：{“date-parts”：[[2008,8,1]]，“date-time”：“2008-08-01T00:00:00Z”，“timestamp”：1217548800000}，“content-version”：“stm-asf”，“delay-in-days”：“0，”URL“https:\\/doi.org”\/10.15223\/policy-017“}，{“start”：{“date-parts”：[[2008,8,1]]，“date-time”：“2008-08-01T00:00:00Z”，“timestamp”：1217548800000}，“content-version”：“stm-asf”，“delay-in-days”：0，“URL”：“https:\/\/doi.org\/10.15223\/policy-037”}，{“start”：{“date-parts”：[[2008,8,1]]，“date-time”：“2008-01T00:00Z”，ay-in-days“：0，”URL“：”https:\/\/doi.org\/10.15223\/policy-012“}，{“start”：{“date-parts”：[[2008,8,1]]，“date-time”：“2008-08-01T00:00:00Z”，“timestamp”：1217548800000}，“content-version”：“stm-asf”，“delay-in-days”：0，“URL”：“https:\/\/doi.org\/10.15223\/policy-029”}，{“start”：{（日期）parts“：[[2008，8,1]，“日期-时间”：“2008-2008-01T00:00:00Z”，”timestamp“：1217548800000}，“content-version”：“stm-asf”，“delay-in-days”：0，“URL”：“https:\/\/doi.org\/10.15223\/policy-004”}]，“content-domain”：{“domain”:[“elsevier.com”，“sciencedirect.com”]，“crossmark-restriction”：true}，“short-container-title”：[“Computer Vision and Image Understanding”]，”published-print“：{”date-parts“：[[2008,8]]}，”doi“：”10.1016\/j.cviu.2007.09.002“，”type“：”journal-article“，”created：{“日期部分”：[[2007,9,23]]，“date-time”：“2007-09-23T11:12:24Z”，“timestamp”：1190545944000}，“page”：“142-154”，“update-policy”：”http://\/dx.doi.org\/10.1016\/elsevier_cm_policy“，”source“：”Crossref“，“is-referenced-by-count”：13，“title”：[“Audiovisual integration with Segment Models for tens video parsing”]，“prefix”：“10.1016”，“volume”：：“111”，“author”：[{“given”：“lis”，“family”：“Delakis”，“sequence”：“first”，“affiliation”：[]}，{“given”：“Guillaume”，“family”：“Gravier”，“序列”：“additional”，“从属关系”：[]}serted-by“：”crossref“，”首页“：”78“，”doi“：“10.1006\/jvci.1997.0404”，“article-title”：“视频数据自动索引调查”，“volume”：“10”，“author”：“Brunelli”，“year”：“1999”，“journal-title“：《视觉传达与图像表现杂志》}，{“issue”：“1”，“key”：”10.1016\/j.cviu.2007.09.002_bib2“，”doi-asserted-by“：”crossref“，“首页”：“5”，“doi”：“10.1023\/B:MTAP.00046380.27575.a5”，“article-title”：“多模视频索引：最新技术综述”，“volume”：“25”，“author”：“Snoek”，“year”：“2005”，“日记标题”：“多媒体工具和应用程序”}，{“issue”：“2”，“key”：”10.1016\/j.cviu.2007.002_bib3“，”doi-asserted-by“：”crossref“，”first page“：”257“，”doi“：”10.1109\/5.18626英寸，“article-title”：“语音识别中隐藏马尔可夫模型和选定应用的教程”，“volume”：“77”，“author”：“Rabiner”，“year”：“1989”，“journal-title:”IEEE会议录“}，{“key”：”10.1016\/j.cviu.2007.002_bib4“，”非结构化“：”W。Wolf，视频节目的隐马尔可夫模型解析，摘自：ICASSP会议录，1997年，第2609\u20132611页。“}，{“问题”：“3”，“关键”：“10.1016\/j.cviu.2007.09.002_bib5”，“doi-asserted-by”：“crossref”，“首页”：“289”，“doi”：“101007\/s11042-006-0031-5”，《文章标题》：“网球广播结构的视听集成”，“音量”：“30”，“作者”：“Kijak“，”year“：”2006“，”journal-title“：”Multimedia Tools and Applications“}，{”issue“：”5“，”key“：”10.1016\/j.cviu.2007.09.002_bib6“，”doi-asserted-by“：”crossref“，”first-page:“360”，“doi”：“10.1109\/89.536930”，“article-title”：“从HMM到分段模型：语音识别随机建模的统一视图”，“volume”：“4”，“author”：“Ostendorf”，“年份“：”1996“，“journal-title”：“IEEE语音和音频处理学报”}，{“issue”：“6”，“key”：“10.1016\/j.cviu.2007.09.002_bib7”，“doi-asserted-by”：“crossref”，“first-page”：“12”，“doi”：“101109\/79.88862”，“article-title“：”多媒体内容分析“，“volume”：”17“author”：“Wang”，“year”：“2000”，“jornal-title:”IEEE Signal Processing Magazine“}，{“key”：“10.1016\/j.cviu.2007.09.002_bib8”，“doi-asserted-by”：“crossref”，“unstructured”：“j.Calic，N.Campbell，S.Dasiopoulou，Y.Kompatsiaris，语义分析多模式视频表示概述，摘自：知识、语义和数字媒体技术集成欧洲研讨会论文集（EWIMT 2005），IEE，2005.“，”DOI“：”10.1049\/ic.2005.0708“}，{“key”：“10.1016\/j.cviu.2007.09.002_bib9”，“DOI-asserted-by”：“crossref”，“unstructured”：“j.Huang，Z.Liu，Y.Wang，Y.Chen，E。Wong，基于HMM的视频分类多模态特征集成，收录于：IEEE信号处理学会多媒体信号处理研讨会论文集，1999年，第53\u201358页。“，”DOI“：”10.1109\/MMSP.1999.793797“}，{“key”：“10.1016\/j.cviu.2007.002_bib10”，“非结构化”：“j.Boreczky，L。Wilcox，《利用音频和图像特征进行视频分割的隐马尔可夫模型框架》，载于：《ICASSP学报》，1998年，第3741\u20133744页。“}，{“key”：“10.1016\/j.cviu.2007.09.002_bib11”，“doi-asserted-by”：“crossref”，“unstructured”：“T.Bae，S.Jin，Y。Ro，《使用具有多模态特征的隐马尔可夫模型进行视频分割》，载于：《国际图像和视频检索会议论文集》，2004年，第401\u2013409页。“，”DOI“：”10.1007\/9788-3-540-27814-6_48“}，{“issue”：“2”，“key”：“10.1016\/j.cviu.2007.002_bib12”，“DOI-asserted-by”：“crossref”，“first page”：”137“，“DOI”：“”10.1023\/A:1011395131992“，“article-title”：“使用隐马尔可夫模型进行基于内容的多媒体索引的多模式对话场景检测”，“卷”：“14”，“作者”：“Alatan”，“年份”：“2001”，“日志标题”：“多媒体工具和应用程序”}，{“密钥”：“10.1016\/j.cviu.2007.09.002_bib13”，“非结构化”：“N.Dimitrova，L.Agnihorti，G。Wei，基于HMM的视频分类，使用文本和人脸，in：《欧洲信号处理会议论文集》，2000年。“}，{“key”：“10.1016\/j.cviu.2007.09.002_bib14”，“doi-asserted-by”：“crossref”，“unstructured”：“S.Eickeler，S.Muller，使用隐马尔可夫模型的电视广播新闻基于内容的视频索引，in：IEEE Int。声学、语音和信号处理会议（ICASSP），1999年，第2997\u20133000页。Rigoll，用于自动主题检索的电视新闻视听分割新方法，收录于：IEEE声学、语音和信号处理国际会议（ICASSP），2001年，第1397\u20131400页。“}，{“问题”：“9”，“关键”：“10.1016\/j.cviu.2007.002_bib16”，“doi-asserted-by”：“crossref”，“首页”：“1306”，“doi”：“10.1109 \/JPROC.2003.817150“，”article-title“：“视听语音自动识别的最新进展”，“volume”：“91”，“author”：“Potamianos”，“year”：“2003”，“journal-title”：“IEEE会议录”}，{“key”：”10.1016\/j.cviu.2007.002_bib17“，”doi-asserted-by“：”crossref“，”unstructured“：”H.Bourard，S。杜邦，基于部分频带独立处理和重组的新ASR方法，载于：ICSLP\u201996，1，Philadelphia，PA，1996，pp.426\u2013429.“，“DOI”：“10.21437\/ICSLP.1996-90”}，{“key”：“10.1016\/j.cviu.2007.002_bib18”，“非结构化”：“H.Glotin，D.Vergyri，C.Neti，G.Potamianos，j。Luettin，语音识别中视听融合的加权方案，收录于：国际会议论文集。语音信号处理，2001.“}，{”key“：”10.1016\/j.cviu.2007.09.002_bib19“，”series-title“：“神经信息处理系统的进展”，“首页”：“1237”，”article-title“：”视听语音识别的异步隐马尔可夫模型“，”author“：”Bengio“，”year“：”2003“}”，{“issue”：“3”，“key”：“10.1016\\j.cviu.2007.002_bib20”，“doi断言由“：”crossref“，”first page“：”305“，”doi“：”10.1109\/TPAMI.2005.49“，”文章标题“：”会议中多模式小组行动的自动分析“，”卷“：”27“，”作者“：”McCowan“，”年份“：”2005“，”期刊标题“：”IEEE模式分析与机器智能汇刊（PAMI）“}，｛”问题“：”2“，”密钥“：”10.1016\/j.cviu.2007.09.002_bib21“，”doi断言为：“crossref”，“first page”：“163”，“doi”：“10.1016\/j.cviu.2004.02.004”，“文章标题”：“从多个感官渠道学习和推断办公室活动的分层表示”，“volume”：“96”，“author”：“Oliver”，“year”：“2004”，“journal title”：“计算机视觉和图像理解”}，{“key”：“10.1016\/j.cviu.2007.09.002_bib22”，“非结构化“：”D.Zhang，D.Gatica-Perez，S.Bengio，I.McCowan，G.Lathoud，《会议中的个人和团体行为建模：双层HMM框架》，收录于：IEEE Workshop on Event Mining at the Conference on the Computer Vision and Pattern Recognition，CVPR，vol.7，2004，pp.117\u2013124。“}，{”issue“：“7”，“key”：“10.1016\/j.cviu.2007.09.002_bib23”，“doi-asserted-by“：”crossref“，”first page“：”767“，”doi“：”10.1016\/j.patrec.2004.01.005“，”article-title“：”利用领域知识和隐马尔可夫模型对足球视频进行结构分析“，”volume“：“25”，”author“：”Xie“，”year“：”2004“，”journal-title”：“Pattern Recognition Letters”}，{“key”：“10.1016\/j.cviu.2007.002_bib24”，“”doi-assert-by“非结构化”：“M.Delakis，G.Gravier，P.Gros，使用HMM和分段模型在体育视频结构化中的面向分数的维特比搜索，收录于：多媒体信号处理国际研讨会论文集（MMSP\u201906），2006。”，“DOI”：“10.1109\/MMSP.2006.285356”}，{“key”：“101016\/j.cviu.2007.09.002_bib25”，“DOI-asserted-by”：“crossref”，“非结构化”：“B.Truong，C.Dorai，S.Venkatesh，视频分割中剪切、褪色和溶解检测过程的新增强，收录于：《多媒体ACM学报》，2000年，第219\u2013227页。”，“DOI”：“10.1145\/354384.354481”}，{“key”：“101016\/j.cviu.2007.002_bib26”，“非结构化”。Denman，网球广播联合视听检索，收录于：IEEE声学、语音和信号处理国际会议，第3卷，2003年，第561\u2013564页。“}，{“key”：“10.1016\/j.cviu.2007.002_bib27”，“doi-asserted-by”：“crossref”，“unstructured”：“D.Zhong，S.-F。Chang，使用领域模型的体育视频结构分析，收录于：IEEE国际多媒体会议和博览会，2001年非结构化”：“M.Betser，G.Gravier，音轨中的多个事件跟踪，in：Intl.Conf.Multimedia and Exhibition，2004。”}，{“key”：“10.1016\/j.cviu.2007.09.002_bib30”，“非结构化”：“A.Tritschler，一个使用BIC标准的分段语音识别应用程序，博士论文，法国EURECOM研究所（1998）。”}，{“issue”：“1”key“：”10.1016\/j.cviu.2007.09.002_bib31“，”doi-asserted-by“：”crossref“，”first-pages“：”41“，”doi“：”101023\/A:1007469218079“，”article-title“：”The hierarchical hidden Markov model:analysis and applications“，”volume“：“32”，“author”：“Fine”，“year”：“1998”，“journal-title”：“Machine Learning”}，{“key”：“10.1016\\j.cviu.2007.002_bib22”，“doi-asserted-by“：”crossref“，”unstructured“：”C.Snoek，M.Worring，A.Smeulders，语义视频分析中的早期与晚期融合，收录于：MULTIMEDIA\u201905:第13届ACM多媒体国际年会论文集，ACM出版社，纽约，纽约，美国，2005年，第399\u2013402页。“，”DOI“：”10.1145\/1101101236“}]，”container-title“：[”计算机视觉和图像理解“]，”original-title“：[]，”language“：”en“，”link“：[{”URL“：”https:\/\/api.elsevier.com/content\/article\/PII:S107731420700135X？httpAccept=text\/xml“，”content-type“：”text\/xml“，”content-version“：”vor“，”intended-application“：”text-mining“}，”URL“:”https:\\/api.else evier.com\/content\/artracle\/PI:S10 7731420700135X？httpAccept=text\/plain“，”content-type“：”text\/prain“，“content-version”：“vor”，“intended-application”：“text-mining”}]，“deposed”：{“date-parts”：[2023,2,23]]，“date-time”：“2023-02-23T04:49:23Z”，“timestamp”：1677127763000}，“score”：1，“resource”：{“primary”：“URL”：“https:\\/linkinghub.elsevier.com/retrieve\/pii\/S107731420 700135X“}}，”副标题“：[]，”shorttitle“：[]，”issued“：{”date-parts“：[[2008,8]]}，”references-count“：32，”journal-issue“：{“issue”：“2”，”published-print“：{”date-ports“：[2008,8]}}，“alternative-id”：[“S107731420700135X”]，“URL”：“http://\/dx.doi.org\/10.1016\/j.cviu.2007.09.002”，“relation”：{}，，“ISSN”：[“1077-3142”]，“ISSN-type”：[{“value”：“1077-3162”，“type”:“print”}]，“subject”：[]，“published“：{“date-parts”：[[2008,8]]}，“assertion”：[{“value”：“Elsevier”，“name”：“publisher”，“label”：“This article is maintained by”}，{“value”：“Audiovisual integration with Segment Models for tens video parting parts”，“name:”articletite“，”label“：”article“}，”value“：”Computer Vision and Image Understanding“，”name“：”journaltitle“，”标签“：”期刊标题“}，{”value“：”https:\/\/doi.org\/101016\/j.cviu.2007.09.002“，”name“：”articlelink“，”label“：”CrossRef doi link to publisher maintained version“}”，{“value”：“article”，“name”：“content_type”，“label”：“content-type”}，“value“”：“Copyrights\u00a9 2007 Elsevier Inc.保留所有权利。”，“name”：“Copyright”，“table”：“版权所有”}]}