2016年SLT:美国加利福尼亚州圣地亚哥
-
2016年IEEE口语技术研讨会,SLT 2016,美国加利福尼亚州圣地亚哥,2016年12月13-16日。 电气与电子工程师协会 2016 ,国际标准图书编号 978-1-5090-4903-5 古尔古伊·皮伦科夫 , 圣埃芬·杜邦 , 蒂埃里·杜托伊特 :
I-Vector估计作为基于多任务学习的自动语音识别声学建模的辅助任务。 1-7 斯科特·诺沃特尼 , 达米亚诺斯·卡拉科斯 , 扬·西洛夫斯克 , 理查德·施瓦茨 :
BBN技术的OpenSAD系统。 8-12 达亚娜·里巴斯 , 艾曼纽尔·文森特 , 何塞·拉蒙·卡尔沃·德拉拉 :
语音处理应用中真实场景中语音失真条件的研究。 13-20 莫塔扎·杜拉蒂 , 理查德·罗斯 , 奥利维尔·西奥汉 :
语音识别中多类型训练数据扰动分布的自动优化。 21-27 米尔科·拉瓦内利 , 菲利普·布拉克尔 , 毛里齐奥·奥莫洛戈 , 本吉奥 :
基于DNN的远程语音识别批量规范化联合训练。 28-34 Sakriani Sakti公司 , 川崎精二 , 格雷厄姆·诺伊比格 , 吉野小一郎 , 中村佐治 :
用于同时识别语音和环境声音的深瓶颈特征和与声音相关的i矢量。 35-42 肖恩·谭 , Khe Chai Sim村 :
使用变分自动编码器学习话语级归一化,实现稳健的自动语音识别。 43-49 伯恩德·梅耶 , Sri Harish Reddy Mallidi女士 , 安吉尔·马里奥·卡斯特罗·马丁内斯 , 吉列尔莫·巴亚瓦亚 , 亨德里克·凯泽 , Hynek Hermansky公司 :
噪声多通道环境中自动语音识别的性能监控。 50-56 迈克尔·赫克 , Sakriani Sakti公司 , 中村佐治 :
零资源场景下DPGMM-HMM声学单元识别器的迭代训练。 57-63 克里斯·巴特尔斯 , 王文(Wen Wang) , 维克拉姆吉特·米特拉 , 科琳·里奇 , 安德烈亚斯·凯索尔 , 迪米特拉·韦格利 , 哈里·布拉特 , Chiachi Hung公司 :
面向无文本资源的人工辅助词汇单元发现。 64-70 埃米尔·侯赛因·哈拉蒂·内贾德·托巴蒂 , 约瑟夫·皮科内 :
自动发现词典和声学单位的非参数贝叶斯方法。 71-75 舒巴姆·托什尼瓦尔 , 凯伦·利维斯库 :
通过神经注意模型,共同学习将字词对齐并转换为音素。 76-82 赵天成 , Kyusong Lee公司 , 马克辛·埃斯克内齐 :
DialPort:将口语对话研究社区连接到真实的用户数据。 83-90 孙铭 , 阿西斯·帕普 , 陈云农(Yun-Nung Chen) , 亚历山大·鲁德尼基 :
针对多域对话的弱监督用户意图检测。 91-97 Merwan Barlier公司 , 罗曼·拉罗什 , 奥利维尔·皮特金 :
用矩量法学习对话动力学。 98-105 塔蒂亚娜·埃基因霍尔·科米 , 让·莱昂·布劳伊 , 罗曼·拉罗什 , Fabrice Lefèvre面料 :
面向基于用户定义的多域人声应用程序组合的虚拟个人助理。 106-113 玛丽亚姆·纳贾菲安 , 约翰·H·L·汉森 :
使用深度神经网络进行儿童语言环境分析的非特定人日记化。 114-120 王新浩(Xinhao Wang) , 基兰·埃文尼 , 詹姆斯·布鲁诺 , 马修·穆霍兰德 :
英语水平评估中口语应答的自动抄袭检测。 121-128 小泽富美 , 齐藤大介 , Nobuaki Minematsu公司 :
针对世界英语的个性化聚类,改进了英语使用者之间的口音差距预测。 129-135 米歇尔·雷妮·莫拉莱斯 , 里夫卡·莱维坦 :
语音与文本:抑郁症检测系统功能的对比分析。 136-143 文森特·伦肯斯 , 维克兰·托马尔 , 雨果·范·哈姆 :
逐步学习口语习得词典中单词的相关性。 144-150 郎志余 , 李鸿业(Hung-yi Lee) , 李林山 :
基于ASR错误建模的专注递归神经网络生成口语内容的抽象标题。 151-157 蔡春怡 , 肖成红 , 陈冠宇 , 柏林Chen :
利用卷积神经网络技术的提取语音摘要。 158-164 大卫史奈德 , 佩加·加赫勒马尼 , 丹尼尔·波维 , 丹尼尔·加西亚-罗梅罗 , 伊莎·卡米尔 , 桑吉夫·库丹普尔 :
基于深度神经网络的说话人嵌入,用于端到端说话人验证。 165-170 Shi-Xiong Zhang先生 , 卓晨 , 赵勇(音) , 李金玉 , 一帆功 :
基于端到端注意力的文本相关说话人验证。 171-178 赫克特·德尔加多 , 马西米利亚诺·托迪斯科 , 萨希杜拉马里兰州 , 阿钦蒂亚·库马尔·萨卡 , 尼古拉斯·W·D·埃文斯 , 托米·金努恩 , 郑华堂 :
进一步优化恒定Q倒谱处理,用于集成语音和文本相关说话人验证。 179-185 李娜(Na Li) , Man-Wai Mak公司 , Jen-Tzung Chien先生 :
深度神经网络驱动的PLDA混合用于鲁棒i矢量说话人验证。 186-191 乔塔姆·巴塔查里亚 , 贾汉吉尔·阿拉姆 , 帕特里克·肯尼 , 维什瓦·古普塔 :
使用深度神经网络对说话人和信道可变性进行建模,以进行稳健的说话人验证。 192-198 昂德雷·诺沃顿(Ondrej Novotn) , 帕维尔·马特伊卡 , Ondrej Glembek公司 , 奥尔德里奇·普尔乔特 , 弗兰蒂斯克·格里兹尔 , 卢卡斯汉堡 , 扬·洪扎·切尔诺克 :
多语言条件下基于DNN的SRE系统分析。 199-204 芬尼安·凯利 , 约翰·H·L·汉森 :
扬声器验证中伦巴第效应的评估和校准。 205-209 Moez Ajili公司 , Jean-François Bonastre公司 , 瓦德·本·凯德 , 索兰·罗萨托 , 朱丽叶·卡恩 :
语音内容对法医语音比较的影响。 210-217 穆罕默德·布阿齐兹 , 穆罕默德·莫奇德 , 理查德·杜福尔 , 乔治·利纳雷斯 , 雷纳托·德莫里 :
用于多流分类的并行长短期存储器。 218-223 穆罕默德·布阿齐兹 , 穆罕默德·莫奇德 , 理查德·杜福尔 , 乔治·利纳雷斯 :
通过在高维空间中映射序列嵌入来改进多流分类。 224-231 魏芳 , 徐觉阳 , 李鸿业(Hung-yi Lee) , 李林山 :
用于提高口语内容的机器理解的分层注意力模型。 232-238 安德烈亚·施纳尔 , 马丁·赫克曼 :
比较独立于说话人和适合说话人的分类在单词突出检测中的作用。 239-244 皮埃尔·里森 , Raveesh Meena公司 :
电影电视字幕的自动翻页分割。 245-252 贾斯汀·谢纳 , 伊恩·威廉姆斯 , 彼得·阿列克西奇 :
使用上下文信息调整语音搜索语言模型。 253-257 玛丽亚·乔安娜·科雷亚 , 伊莎贝尔·特拉科索 , 比沙·拉吉 :
将支持向量机改编为MIL,以推断电影和电影评论的极性。 258-264 梅里姆·贝卢西夫 , 吴德凯 :
语义驱动的倒装转换语法归纳用于口语翻译的早期训练。 265-272 徐奎阳 , 丹曲 , 张文林 , 张伟强 :
2016年多流派广播挑战赛的NDSC转录系统。 273-278 艾哈迈德·阿里 , 彼得·贝尔 , 詹姆斯·格拉斯 , 亚辛·梅萨奥伊 , 哈米·穆巴拉克 , 史蒂夫·雷纳斯 , 张一凡 :
MGB-2的挑战:阿拉伯语多层面广播媒体识别。 279-284 娜塔莉亚·托马申科 , 凯文·维瑟林古姆 , 安东尼·卢梭 , Yannick Estève公司 :
2016年多频道广播阿拉伯语挑战赛的LIUM ASR系统。 285-291 萨米尔·库拉纳 , 艾哈迈德·阿里 :
用于阿拉伯多方言广播媒体识别的QCRI高级转录系统(QATS):MGB-2挑战。 292-298 图卡·哈奈 , 徐伟宁 , 詹姆斯·格拉斯 :
麻省理工学院2016年阿拉伯语多专业广播挑战赛ASR系统的开发。 299-304 Morten Kolbæk公司 , 郑华堂 , 杰斯佩·简森 :
使用基于长短期记忆的递归神经网络进行语音增强,以进行抗噪说话人验证。 305-311 利亚·肖纳 , 丹尼斯·奥尔思 , 马丁·赫克曼 , 多萝西娅·科洛萨 :
环保的视听扬声器识别。 312-318 哈里申德拉·杜比 , 阿布吉特·桑万 , 约翰·H·L·汉森 :
一个强大的日记化系统,用于测量同侪领导的团队学习小组中的支配地位。 319-323 钱章 , 约翰·H·L·汉森 :
基于无监督k-means聚类的稳健开放集语言识别的集外候选选择。 324-329 路易斯·墨菲·马科斯 , 弗雷德里克·理查森 :
用于语言识别的多语言深层神经网络。 330-334 沙汉·C·内特森 , 佩德罗·托雷斯-卡拉斯基略 , 加布里埃尔·马丁内斯·蒙特斯 :
在不匹配的环境中进行语言识别的方法。 335-340 穆罕默德·卡马尔·奥马尔 :
用于语言识别的序列因子分析模型。 341-347 陈云农(Yun-Nung Chen) , 迪勒克·哈坎尼·图尔 , 哥坎·蒂尔 , 阿斯利塞利基伊尔马兹 , 高剑锋 , 李登 :
语法还是语义? 知识引导的联合语义框架解析。 348-355 基利安·贾诺德 , 穆罕默德·莫奇德 , 理查德·杜福尔 , 乔治·利纳雷斯 :
Word2vec空间中用于口语理解的对数线性加权方法。 356-361 蒂图安·帕科莱 , 穆罕默德·莫奇德 , 皮尔雷·米歇尔·布斯克 , 理查德·杜福尔 , 乔治·利纳雷斯 , 雷纳托·德莫里 :
口语理解四元数神经网络。 362-368 武士浩马 , 川崎岛 , 松本拓哉 :
在存在语音识别错误的情况下,使用多分类器进行稳健的语音分类。 369-375 戈兹德·塞丁卡亚 , 巴图汉·格恩多格杜 , 穆拉特·萨拉克拉尔 :
基于后验图的关键字搜索的预过滤动态时间扭曲。 376-382 达里奥·贝特罗 , 帕斯卡尔·冯 :
用于检测电视连续剧幽默的多模态深层神经网络。 383-390 鲁希·萨里卡亚 , 保罗·A·克鲁克 , 亚历克斯·马林 , 郑敏宇(Minwoo Jeong) , 让-菲利普·罗比肖 , 阿斯利塞利基伊尔马兹 , Young-Bum Kim(金永邦) , 亚历山大·罗切特 , 奥马尔·齐亚·汗 , 刘晓虎 , 丹尼尔·博伊斯 , 塔索斯·阿纳斯塔萨科斯 , 扎勒·菲佐拉希 , 尼基尔·拉梅什 , 铃木久美 , 罗曼·霍伦斯坦 , 伊丽莎白·克劳茨克 , 瓦西里·拉多斯特夫 :
个人数字助理端到端语言理解和对话管理概述。 391-397 列昂尼德·韦利科维奇 :
快速标注词格的语义模型。 398-405 弗兰克·德农考特 , 李智英(Ji Young Lee) :
用高斯过程优化神经网络超参数用于对话行为分类。 406-413 金俊京 , 哥坎·蒂尔 , 阿斯利塞利基伊尔马兹 , 曹斌(Bin Cao) , 王Ye-Yi :
使用语义丰富的单词嵌入进行意图检测。 414-419 张一科 , 张鹏远 , Ta Li公司 , 颜永红 :
一种用于汉语自动语音识别的无监督词汇选择技术。 420-425 绘者 , 伊琳娜·伊利娜 , 多米尼克·福尔 :
使用词相似度动态调整语言模型以进行自动语音识别。 426-432 昂德雷·克莱奇 , 彼得·贝尔 , 史蒂夫·雷纳斯 :
使用声学和词汇方法的多体裁广播的标点转录。 433-440 露西·瓦瑟曼 , 本·海诺 , 彼得·阿列克西奇 :
使用动态类的上下文语言模型自适应。 441-446 阿萨夫·赫尔维茨·迈克利 , 穆罕默德·戈德西 , 吴泽林 , 贾斯汀·谢纳 , 彼得·阿列克西奇 :
用于语音识别的无监督上下文学习。 447-453 阿克谢·钱德拉舍卡兰 , 伊恩·雷恩 :
在线LVCSR解码器超参数的自动优化。 454-460 梁璐 :
公路深层神经网络的序列训练与自适应。 461-466 徐伟宁 , 于章 , 詹姆斯·格拉斯 :
用于语音识别的优先网格长短期内存RNN。 467-473 孙铭 , 阿尼鲁德·拉朱 , 乔治·塔克 , 桑卡兰·潘查帕格桑 , 更神赋 , 阿林达姆·曼达尔 , 松下Spyros Matsoukas , Nikko Strom公司 , 希夫·维塔拉德武尼 :
针对小字体关键词识别的长短期记忆网络的最大池损失训练。 474-480 钱延敏 , 菲利普·伍德兰 :
用于鲁棒语音识别的深度卷积神经网络。 481-488 伊万·库卡诺夫 , Hautamäki村 , 萨巴托·马尔科·西尼斯卡基 , 李可煌 :
深度学习,以最大的笔迹代价推进多标签语音属性检测。 489-495 郝唐 , 王伟然 , 凯文·金佩尔 , 凯伦·利维斯库 :
针对区分性分段模型的端到端培训方法。 496-502 谢恩定居 , 凯伦·利维斯库 :
区分性声学单词嵌入:基于Tecurrent神经网络的方法。 503-510 Seokhwan Kim先生 , 路易斯·费尔南多·德哈罗 , 拉斐尔·班克斯 , 杰森·威廉姆斯 , 马修·亨德森 , 吉野小一郎 :
第五个对话框状态跟踪挑战。 511-517 Takashi Ushio先生 , 史洪杰 , Mitsuru Endo公司 , 山谷克辅 , 诺里亚基·霍里 :
结构化言语行为标注的递归卷积神经网络。 518-524 英苏 , 苗丽 , 季武 :
用于对话框状态跟踪的MSIP系统挑战5。 525-530 杨素江(Youngsoo Jang) , Jiyeon火腿 , 李炳君 , 张永嘉 , Kee-Eung Kim(金记) :
通过注意力机制实现大型本体的神经对话状态跟踪器。 531-537 理查德·杜福尔 , 穆罕默德·莫奇德 , 蒂图安·帕科莱 :
使用基于作者主题的表示跟踪对话框状态。 544-551 高崎县 , 王海(Hai Wang) , Chiori Hori公司 , 渡边信治 , 布雷特·哈沙姆 , 乔纳森·勒鲁 , 约翰·赫尔希 , Yusuke Koji公司 , 《易经》 , 赵成柱 , 爱川武彦 :
基于注意力的序列到序列学习的对话状态跟踪。 552-558 史洪杰 , Ushio先生 , Mitsuru Endo公司 , 山谷克辅 , 诺里亚基·霍里 :
一种用于跨语言对话状态跟踪的多通道卷积神经网络。 559-564 田雷敏(Leimin Tian) , 约翰娜·D·摩尔 , 凯瑟琳·赖 :
识别口语对话中的情感,声音和词汇特征分层融合。 565-572 费利克斯·孙 , 大卫·F·哈瓦特 , 詹姆斯·格拉斯 :
看、听和解码:使用图像进行多模态语音识别。 573-578 Spyridon保温瓶 , Gerasimos Potamianos公司 :
双扬声器场景中的视听语音活动检测,包含来自侧面或正面视图的深度信息。 579-584 伊恩·海狸 , 辛西娅·弗里曼 :
多模式虚拟客户服务代理的用户行为分析。 585-591 Felix de Chaumont基特里 , Asa Oines公司 , 佩德罗·莫雷诺 , 尤金·韦恩斯坦 :
用于声学建模的基于协议的高质量半监督训练数据。 592-596 阿德里亚娜·斯坦 , Cassia Valentini-Botinhao肉桂 , 博格丹·奥尔扎 , 米尔恰·朱尔吉 :
基于谱图图像特征和Mel倒谱系数的盲语音分割。 597-602 柳武田 , 小马塔尼 :
基于独立定位模型的深度神经网络多声源识别定位。 603-609 埃姆雷·伊尔马兹 , 亨克·范登·胡维尔 , 大卫·范·吕文 :
使用多语言DNNS的代码切换检测。 610-616 Vipul阿罗拉 , 阿底提·拉希里 , 亨宁·里茨 :
基于属性的共享隐藏层用于跨语言知识传输。 617-623 穆罕默德·埃尔菲基 , 梅萨姆·巴斯塔尼 , 泽维尔·贝莱斯 , 佩德罗·莫雷诺 , 奥斯汀·沃特斯 :
走向跨方言的声学模型统一。 624-628 弗兰蒂斯克·格里兹尔 , 马丁·卡拉法特 :
通过标准语料库提高低资源语言的性能:分析。 629-636 马丁·卡拉法特 , 穆拉利·卡西姆·巴斯卡 , 帕维尔·马特伊卡 , 卡雷尔·维塞尔(Karel Vesel) , 弗兰蒂斯克·格里兹尔 , 扬·塞诺克(Jan Cernock) :
2016年的多语言BLSTM和特定于说话人的矢量适应,但babel系统。 637-643 马可·马塔索尼 , 丹尼尔·法拉维尼亚 , 迭戈·朱利安尼 :
通过自动语音选择对儿童语音进行DNN自适应识别。 644-651 拉希鲁·萨马拉孔 , Khe Chai Sim村 :
DNN声学模型因子化隐层自适应的低秩基。 652-658 Hoon Chung公司 , Jeom Ja Kang先生 , Kiyoung公园 , 宋佐利 , Jeon Gue公园 :
基于深度神经网络的流形正则化低秩矩阵分解声学模型参数约简。 659-664 田中富弘 , 森谷隆美(Takafumi Moriya) , 高弘信崎 , 渡边信治 , Hori高木 , 杜凯文(Kevin Duh) :
基于进化策略的神经网络语言模型的自动结构发现和参数调整。 665-671 高塔姆·曼特纳 , Khe Chai Sim村 :
基于熵的隐藏单元修剪以减少DNN参数。 672-679 弗洛里安·辛特莱特纳 , 本杰明·魏斯 , 塞巴斯蒂安·莫勒 :
语料库大小和内容对单元选择MaryTTS语音感知质量的影响。 680-685 斯里坎思·罗南基 , 奥利弗·瓦茨 , 西蒙·京治 , 古斯塔夫·伊杰·亨特 :
使用非参数方法基于中值生成合成语音持续时间。 686-692 小林一郎 , Tomoki Toda先生 , 中村佐治 :
用于统计语音转换的F0变换技术,可通过频谱差分直接修改波形。 693-700