×

口语的视觉基础模型:对数据集、架构和评估技术的调查。 (英语) Zbl 07527537号

摘要:这项调查概述了过去20年来基于视觉的口语模式的演变。这些模型的灵感来源于这样一个观察结果:当孩子们学习一种语言时,他们依赖大量的间接和嘈杂的线索,关键是包括与口语同时出现的视觉形态信号。有几个领域对这种建模或模仿语言学习过程的方法做出了重要贡献:机器学习、自然语言和语音处理、计算机视觉和认知科学。本文件汇集了这些贡献,以便为所有这些领域的从业人员提供有用的介绍和概述。我们讨论了所解决的中心研究问题、发展时间表以及促成大部分工作的数据集。然后,我们总结了主要的建模架构,并对评估指标和分析技术进行了详尽的概述。

MSC公司:

68泰克 人工智能
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abu-El-Haija,S.、Kothari,N.、Lee,J.、Natsev,P.、Toderici,G.、Varadarajan,B.和Vijayanarasimhan,S..(2016年)。Youtube-8m:大型视频分类基准。预打印:http://arxiv.org/abs/1609.08675。
[2] Alishahi,A.、Barking,M.和ChrupałA,G.(2017年)。接地语音的递归神经模型中的语音编码。第21届计算机会议记录
[3] Alishahi,A.、ChrupałA,G.、Cristia,A.、Dupoux,E.、Higy,B.、Lavchin,M.、Räsänen,O.和Yu,C.(2021)。ZR-2021VG:零资源语音挑战,可视化语言
[4] Arandjelovic,R.和Zisserman,A.(2018年)。发出声音的物体。《欧洲计算机视觉会议论文集》,第435-451页。
[5] Baker,R.和Hazan,V.(2010年)。LUCID:英国英语中一个自发且清晰易读的语料库。2010年InDiSS-LPSS联合研讨会。
[6] Belinkov,Y.、Ali,A.和Glass,J.(2019年)。分析端到端自动语音识别中的语音和图形表示。2019年国际演讲。ISCA。
[7] Belinkov,Y.和Glass,J.(2017年)。分析端到端自动语音识别系统中的隐藏表示。第31届国际会议记录
[8] Bernardi,R.、Cakici,R.,Elliott,D.、Erdem,A.、Erden,E.、Ikizler-Cinbis,N.、Keller,F.、Muscat,A.和Plank,B.(2016)。从图像自动生成描述:对模型、数据集和评估度量的调查。人工智能杂志
[9] Boggust,A.W.、Audhkhasi,K.、Joshi,D.、Harwath,D.、Thomas,S.、Feris,R.S.、Gutfreund,D.,Zhang,Y.、Torralba,A.、Picheny,M.等人(2019年)。在未标记的视频中固定口语。InCVPR研讨会,第29-32页。
[10] Brown,P.F.、Della Pietra,S.A.、Della Petetra,V.J.和Mercer,R.L.(1993)。统计机器翻译的数学:参数估计。计算语言学,
[11] Chrupała,G.(2019年)。基于视觉的口语学习的符号归纳偏见。计算协会第57届年会会议记录
[12] Chrupała,G.、Gelderloos,L.和Alishahi,a.(2017a)。视觉接地语音信号模型中的语言表示。年会第55届会议记录
[13] Chrupała,G.、Gelderloos,L.和Alishahi,a.(2017b)。合成口语COCO.https://doi.org/10.5281/zenodo.794832。
[14] Chrupała,G.、Higy,B.和Alishahi,a.(2020年)。分析分析方法:语音在口语神经模型中的案例。第58届年度会议记录
[15] Chung,J.、Gulcehre,C.、Cho,K.和Bengio,Y.(2014年)。门控递归神经网络对序列建模的实证评估。预打印:https://arxiv.org/abs/11412.3555。
[16] Clerkin,E.M.、Hart,E.、Rehg,J.M.、Yu,C.和Smith,L.B.(2017年)。真实世界的视觉统计数据和婴儿第一次学习的物体名称。哲学学报
[17] Deng,J.,Dong,W.,Socher,R.,Li,L.-J.,Li.,K.,&Fei-Fei,L.(2009)。Imagenet:大规模分层图像数据库。2009年IEEE计算机视觉和模式会议
[18] Dunbar,E.、Algayres,R.、Karadayi,J.、Bernard,M.、Benjumea,J.,Cao,X.-N.、Miskic,L.、Dugrain,C.、Ondel,L.,Black,A.W.等人(2019年)。2019年零资源演讲挑战:没有T的TTS预印本:https://arxiv.org/abs/1904.11469。
[19] Garofolo,J.S.、Lamel,L.F.、Fisher,W.M.、Fiscus,J.G.和Pallett,D.S.(1993)。DARPA TIMIT声学语音连续语音语料库CD-ROM。NIST语音光盘1-1.1。
[20] Gelderloos,L.和Chrupała,G.(2016)。从音素到图像:视觉全面语言学习的递归神经模型中的表征水平。COL诉讼程序
[21] Girshick,R.、Donahue,J.、Darrell,T.和Malik,J.(2014)。丰富的特征层次用于准确的对象检测和语义分割。美国电气与电子工程师协会论文集
[22] Harwath,D.、Chuang,G.和Glass,J.(2018年)。作为语际语的愿景:学习未翻译语言的多语言语义嵌入。2018年IEEE国际会议
[23] Harwath,D.和Glass,J.(2015)。语音和图像的深层多模态语义嵌入。2015年IEEE自动语音识别与理解研讨会
[24] Harwath,D.和Glass,J.(2017年)。通过联合视听分析学习单词单元。计算协会第55届年会会议记录
[25] Harwath,D.和Glass,J.(2019年)。面向基于视觉的子单词语音单元发现。InICASSP 2019-2019 IEEE声学、语音和信号国际会议
[26] Harwath,D.、Hsu,W.和Glass,J.R.(2020年)。从视觉化的言语中学习层次化的离散语言单元。第八届国际学习代表大会
[27] Harwath,D.、Recasens,A.、Surís,D.、Chuang,G.、Torralba,A.和Glass,J.(2018年)。从原始感官输入中联合发现视觉对象和口语。在的诉讼中
[28] Harwath,D.、Torralba,A.和Glass,J.(2016)。视觉语境下的口语无监督学习。《神经信息处理系统研究进展》,第1858-1866页。
[29] Havard,W.、Besacier,L.和Rosec,O.(2017年)。SPEECH-COCO:600k可视接地语音字幕,与MSCOCO数据集一致。预打印:https://arxiv.org/abs/
[30] Havard,W.N.和Besacier,L.(2017年)。演讲——可可。https://doi.org/10.5281/zenodo。4282267
[31] Havard,W.N.、Chevron,J.-P.和Besacier,L.(2018年)。综合口语STAIR.https://doi.org/10.5281/zenodo.1495070。
[32] Havard,W.N.、Chevron,J.-P.和Besacier,L.(2019a)。视觉接地语音信号模型关注名词:英语和日语双语实验。
[33] Havard,W.N.、Chevron,J.-P.和Besacier,L.(2019b)。基于视觉的语音模型中的单词识别、竞争和激活。第23届会议记录
[34] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。《IEEE计算机视觉和模式识别会议论文集》,第770-778页。
[35] Higy,B.、Elliott,D.和Chrupała,G.(2020)。视觉基础口语理解的文本监督。计算协会的调查结果
[36] Higy,B.、Gelderloos,L.、Alishahi,A.和Chrupał,G.(2021年)。口语神经模型中的离散表示。第四届BlackboxNLP研讨会会议记录
[37] Hsu,W.N.,Harwath,D.,&Glass,J.(2019年)。将学习从视听基础转移到语音识别。InProc.公司。2019年Interspeech,第3242-3246页。
[38] Hsu,W.N.,Harwath,D.,Song,C.,&Glass,J.(2020年)。使用学习的分段单元进行无文本的图像语音合成。预打印:https://arxiv.org/abs/2012.15454。
[39] Ilharco,G.、Zhang,Y.和Baldridge,J.(2019年)。从基于视觉的未翻译语音中学习大尺度表征。第二十三届会议记录
[40] Kamper,H.、Anastassiou,A.和Livescu,K.(2019年)。使用视觉基础的语义逐例查询语音搜索。InICASSP 2019-2019 IEEE国际会议
[41] Kamper,H.和Roth,M.(2018年)。语音中基于视觉的跨语言关键词识别。InProc.公司。第六届国际资源不足口语技术研讨会
[42] Kamper,H.、Settle,S.、Shakhnarovich,G.和Livescu,K.(2017年)。从未翻译的语音中进行关键词预测的视觉基础学习。在Interspeech中,第3677-3681页。
[43] Kamper,H.、Shakhnarovich,G.和Livescu,K.(2019年)。使用基于视觉的未翻译语音模型进行语义语音检索。IEEE/ACM音频、语音和语言处理学报(TASLP),27(1),89-98。
[44] Karpathy,A.和Fei-Fei,L.(2015)。用于生成图像描述的深层视觉语义对齐。InIEEE计算机视觉和模式识别会议
[45] Karpathy,A.、Joulin,A.和Fei-Fei,L.(2014)。用于双向图像-句子映射的深层片段嵌入。第27届国际神经会议论文集
[46] Khorrami,K.和Räsänen,O.(2021)。电话、音节和单词能成为跨情境视听学习的副产品吗计算研究。
[47] Kriegeskorte,N.、Mur,M.和Bandettini,P.A.(2008年)。表征相似性分析连接了系统神经科学的各个分支。系统神经科学前沿,2,
[48] Krug,A.、Knaebel,R.和Stober,S.(2018年)。用于解释卷积语音识别模型的神经元激活模式。InNeurIPS可解释性和
[49] Ku,A.、Anderson,P.、Patel,R.、Ie,E.和Baldridge,J.(2020年)。房间-跨房间:具有密集时空背景的多语言视觉和语言导航。在2020年自然语言处理实证方法会议论文集中,
[50] 库兹涅佐娃(Kuznetsova,A.)、罗姆(Rom,H.)、奥尔德林(Alldrin,N.)、尤伊林(Uijlings,J.)、克拉辛(Krasin,I.)、蓬特图塞特(Pont-Tuset,J。打开的图像数据集v4。
[51] Lin,T.-Y.,Maire,M.,Belongie,S.,Hays,J.,Perona,P.,Ramanan,D.,Dollár,P.和Zitnick,C.L.(2014)。Microsoft COCO:上下文中的通用对象。欧洲会议
[52] Marelli,M.、Menini,S.、Baroni,M.,Bentivogli,L.、Bernardi,R.和Zamparelli,R.(2014)。合成分布语义模型评估的病态疗法。InPro公司
[53] Merkx,D.、Frank,S.L.和Ernestus,M.(2019年)。使用语音到图像检索的语言学习。InProc.公司。Interspeech 2019,第1841-1845页。
[54] Miech,A.、Zhukov,D.、Alayrac,J.-B.、Tapaswi,M.、Laptev,I.和Sivic,J.(2019年)。如何做到1亿:通过观看数亿段叙事视频片段来学习文本视频嵌入。《IEEE/CVF计算机视觉国际会议论文集》,第2630-2640页。
[55] Mikolov,T.、Chen,K.、Corrado,G.和Dean,J.(2013)。向量空间中单词表示的有效估计。第一届国际学习代表大会
[56] Monfort,M.、Jin,S.、Liu,A.、Harwath,D.、Feris,R.、Glass,J.和Oliva,A.(2021)。口语时刻:从视频描述中学习联合视听表现。
[57] Mukherjee,N.和Roy,D.(2003年)。用于口语处理的可视上下文软件多模式系统。第八届欧洲演讲交流与交流会议
[58] Nilsback,M.-E.和Zisserman,A.(2008年)。在大量类别上进行自动花卉分类。2008年第六届印度计算机视觉、图形和图像会议
[59] Ohishi,Y.、Kimura,A.、Kawanishi,T.、Kashino,K.、Harwath,D.和Glass,J.(2020a)。使用不相交的可视接地语音音频数据集学习多语言语义嵌入的对扩展。InProc公司。《2020年国际演讲》,第1486-1490页。
[60] Ohishi,Y.、Kimura,A.、Kawanishi,T.、Kashino,K.、Harwath,D.和Glass,J.(2020b)。基于视觉的语音的三语语义嵌入,具有自我注意机制。InICASSP 2020-2020 IEEE声学、语音和信号国际会议
[61] Olaleye,K.、van Niekerk,B.和Kamper,H.(2020年)。使用弱监督实现语音中关键词的本地化。ArXiv预印本:https://arxiv.org/abs/2012.07396。
[62] Pasad,A.、Shi,B.、Kamper,H.和Livescu,K.(2019年)。视觉和文本监督在低资源语义语音检索中的作用。InProc.公司。2019年Interspeech,第4195-4199页。
[63] Paul,D.B.和Baker,J.(1992年)。基于华尔街新闻的企业社会责任语料库的设计。演讲与自然语言:1992年2月23日至26日在纽约哈里曼举行的研讨会论文集。
[64] Peng,P.和Harwath,D.(2021)。用于视觉接地语音的快流变压器。预打印:https://arxiv.org/abs/2109.08186。
[65] Pont-Tuset,J.、Uijlings,J.,Changpinyo,S.、Soricut,R.和Ferrari,V.(2020年)。将视觉和语言与本地化叙事联系起来。InECCV。
[66] Rashtchian,C.、Young,P.、Hodosh,M.和Hockenmaier,J.(2010年)。使用亚马逊的Mechanical Turk收集图像注释。NAACL HLT 2010年会议记录
[67] Rouditchenko,A.、Boggust,A.、Harwath,D.、Chen,B.、Joshi,D.、Thomas,S.、Audhkhasi,K.、Kuehne,H.、Panda,R.、Feris,R.,Kingsbury,B.、Picheny,M.、Torralba,A.和Glass,
[68] Roy,D.(1999)。从视觉和声音中学习:计算模型。麻省理工学院媒体实验室博士论文。
[69] Roy,D.(2003年)。基础口语习得:单词学习实验。IEEE多媒体汇刊,5(2),197-209。
[70] Roy,D.和Mukherjee,N.(2005年)。走向情境言语理解:语言模型的视觉语境启动。计算机语音与语言,19(2),227-248。
[71] Roy,D.K.和Pentland,A.P.(2002年)。从视觉和声音中学习单词:一个计算模型。认知科学,26(1),113-146。
[72] Sanabria,R.、Waters,A.和Baldridge,J.(2021)。说,不写:基于直接语音的图像检索研究。InProc.公司。2021年Interspeech,第2976-2980页。
[73] Scharenborg,O.,Besacier,L.,Black,A.,Hasegawa-Johnson,M.,Metze,F.,Neubig,G.,Stüker,S.,Godard,P.,Müller,M。非书面语言的语音技术。IEEE/ACM音频、语音和
[74] Schatz,T.(2016)。ABX-鉴别措施和应用。巴黎第六大学(UPMC)博士论文。
[75] Scholten,S.、Merkx,D.和Scharenborg,O.(2021)。学习使用基于视觉的语言识别单词。2021年IEEE电路与系统国际研讨会
[76] Simonyan,K.和Zisserman,A.(2015)。用于大规模图像识别的深度卷积网络。在Bengio,Y.和LeCun,Y.(编辑),第三届国际会议
[77] Synnaeve,G.、Versteegh,M.和Dupoux,E.(2014)。从图像和语音中学习单词。InNIPS语义学学习研讨会。
[78] van den Oord,A.、Vinyals,O.和Kavukcuoglu,K.(2017年)。神经离散表示学习。第31届神经信息国际会议论文集
[79] van Niekerk,B.、Nortje,L.和Kamper,H.(2020年)。2020年零语音挑战中用于声学单元发现的矢量量化神经网络。预打印:https://arxiv。org/abs/2005.09409。
[80] Vaswani,A.、Shazeer,N.、Parmar,N.,Uszkoreit,J.、Jones,L.、Gomez,A.N.、Kaiser,Ł和Polosukhin,I.(2017)。注意力是你所需要的。神经信息处理系统进展,第5998-6008页。
[81] Wah,C.、Branson,S.、Welinder,P.、Perona,P.和Belongie,S.(2011年)。CaltechUCSD鸟类-200-2011数据集。https://resolver.caltech.edu/caltech作者: 20111026-120541847.
[82] Wang,X.、Tian,T.、Zhu,J.和Scharenborg,O.(2021)。使用视觉基础学习口语中的细粒度语义。2021年IEEE国际研讨会
[83] Yoshikawa,Y.、Shigeto,Y.和Takeuchi,A.(2017)。楼梯字幕:构建大规模的日本图像字幕数据集。年会第55届会议记录
[84] Yu,C.和Ballard,D.H.(2004)。一种多模式学习界面,用于将口语建立在感官感知基础上。ACM应用感知交易(TAP),
[85] Yu,C.、Ballard,D.H.和Aslin,R.N.(2005)。体现意图在早期词汇习得中的作用。认知科学,29(6),961-1005。
[86] Zhang,H.、Xu,T.、Li,H.,Zhang、S.、Wang,X.、Huang,X.和Metaxas,D.N.(2018)。Stackgan++:使用堆叠生成对抗网络进行真实图像合成。
[87] Zhang,T.、Ramakrishnan,R.和Livny,M.(1996)。Birch:一种适用于大型数据库的高效数据聚类方法。ACM Sigmod记录,25(2),103-114。
[88] Zhou,B.、Lapedriza,A.、Xiao,J.、Torralba,A.和Oliva,A.(2014)。使用位置数据库学习场景识别的深层特征。神经信息处理研究进展
[89] Zhou,B.、Zhao,H.、Puig,X.、Xiao,T.、Fidler,S.、Barriuso,A.和Torralba,A.(2019年)。通过ADE20K数据集对场景进行语义理解。国际期刊
[90] Zhou,L.,Xu,C.,&Corso,J.J.(2018)。从网络教学视频中自动学习程序。第三十二届AAAI人工智能会议。
[91] Zilly,J.G.、Srivastava,R.K.、Koutn,K,J.和Schmidhuber,J.(2017年)。经常性公路网。在机器学习国际会议上,第4189-4198页。PMLR公司
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。