凯文·威尔逊
优化列表
2020年–今天
2023 [i13] 丛涵 , 凯文·威尔逊 , 斯科特·怀斯多姆 , 约翰·赫尔希 :
无监督多通道分离和适应。 CoRR公司 abs/2305.11151 ( 2023 ) 2022 [公元32年] 凯瑟琳·帕特森 , 凯文·威尔逊 , 斯科特·怀斯多姆 , 约翰·赫尔希 :
基于距离的声音分离。 INTERSPEECH公司 2022 : 901-905 [i12] 凯瑟琳·帕特森 , 凯文·威尔逊 , 斯科特·怀斯多姆 , 约翰·赫尔希 :
基于距离的声音分离。 CoRR公司 abs/2207.00562 ( 2022 ) 2021 [c31] Soumi Maiti公司 , 哈坎·埃尔多安 , 凯文·威尔逊 , 斯科特·怀斯多姆 , 渡边信治 , 约翰·赫尔希 :
具有局部全局网络和区分性说话人嵌入的可变数目说话人的端到端Dialization。 ICASSP公司 2021 : 7183-7187 [公元30年] 王忠秋 , 哈坎·埃尔多安 , 斯科特·怀斯多姆 , 凯文·威尔逊 , 德什·拉吉 , 渡边真司 , 卓晨 , 约翰·赫尔希 :
用于语音分离和增强的顺序多帧神经波束形成。 SLT公司 2021 : 905-911 [i11] Soumi Maiti公司 , 哈坎·埃尔多安 , 凯文·威尔逊 , 斯科特·怀斯多姆 , 渡边信治 , 约翰·赫尔希 :
具有局部全局网络和区分性说话人嵌入的可变数目说话人的端到端Dialization。 CoRR公司 abs/2105.02096 ( 2021 ) 2020 [公元29年] 全旺(Quan Wang) , 伊格纳西奥·洛佩斯·莫雷诺 , 默特·萨格拉姆 , 凯文·威尔逊 , 焦立中(Alan Chiao) , 刘仁杰 , 何燕章 , 李伟 , 杰森·佩利卡诺斯 , 玛丽莉·尼卡 , 亚历山大·格伦斯坦 :
VoiceFilter-Lite:用于设备语音识别的流目标语音分离。 INTERSPEECH公司 2020 : 2677-2681 [公元28年] 斯科特·怀斯多姆 , Efthymios Tzinis公司 , 哈坎·埃尔多安 , 罗恩·韦斯 , 凯文·威尔逊 , 约翰·赫尔希 :
使用混合不变量训练的无监督声音分离。 NeurIPS公司 2020 [i10] 斯科特·怀斯多姆 , Efthymios Tzinis公司 , 哈坎·埃尔多安 , 罗恩·韦斯 , 凯文·威尔逊 , 约翰·赫尔希 :
使用混音的无监督声音分离。 CoRR公司 abs/2006.12701 ( 2020 ) [第九章] 全旺(Quan Wang) , 伊格纳西奥·洛佩斯·莫雷诺 , 默特·萨格拉姆 , 凯文·威尔逊 , 焦立中(Alan Chiao) , 刘仁杰 , 何燕章 , 李伟 , 杰森·佩利卡诺斯 , 玛丽·尼卡 , 亚历山大·格伦斯坦 :
VoiceFilter-Lite:用于设备语音识别的流目标语音分离。 CoRR公司 abs/2009.04323 ( 2020 )
2010 – 2019
2019 [公元27年] 斯科特·怀斯多姆 , 约翰·R·好时 , 凯文·威尔逊 , 杰瑞米·索普 , 迈克尔·切恩 , 布赖恩·帕顿 , 里夫·A·索罗斯 :
改进深度语音增强的不同一致性约束。 ICASSP公司 2019 : 900-904年 [公元26年] 全旺(Quan Wang) , 汉娜·穆肯恩 , 凯文·威尔逊 , Prashant Sridhar公司 , 吴泽林 , 约翰·赫尔希 , 里夫·A·索罗斯 , 罗恩·韦斯 , 叶佳 , 伊格纳西奥·洛佩斯·莫雷诺 :
VoiceFilter:通过扬声器条件谱图掩蔽实现目标语音分离。 INTERSPEECH公司 2019 : 2728-2732 [公元25年] 伊利亚·卡瓦列罗夫 , 斯科特·怀斯多姆 , 哈坎·埃尔多安 , 布赖恩·帕顿 , 凯文·威尔逊 , 乔纳森·勒鲁 , 约翰·R·好时 :
通用隔声。 WASPAA公司 2019 : 175-179 [i8] 伊利亚·卡瓦列罗夫 , 斯科特·怀斯多姆 , 哈坎·埃尔多安 , 布赖恩·帕顿 , 凯文·威尔逊 , 乔纳森·勒鲁 , 约翰·赫尔希 :
通用隔声。 CoRR公司 abs/1905.03330 ( 2019 ) [i7] 王忠秋 , 斯科特智慧 , 凯文·威尔逊 , 约翰·赫尔希 :
交替使用频谱和空间估计进行语音分离和增强。 CoRR公司 abs/1911.07953 ( 2019 ) 2018 [公元24年] 苏里什·乔杜里 , 约瑟夫·罗特 , 丹尼尔·P·W·埃利斯 , 安德鲁·加拉赫 , 利亚特·卡弗 , 拉迪卡·马文 , 卡罗琳·潘托法鲁 , 内森·雷尔 , 洛雷塔·瓜里诺·里德 , 凯文·威尔逊 , 中华西 :
AVA-Speech:电影中语音活动的密集标签数据集。 INTERSPEECH公司 2018 : 1239-1243 【c23】 凯文·威尔逊 , 迈克尔·切恩 , 杰瑞米·索普 , 布赖恩·帕顿 , 约翰·赫尔希 , 里夫·A·索罗斯 , Jan Skoglund公司 , 理查德·里昂 :
探索低频率语音增强模型中的权衡。 IWAENC公司 2018 : 366-370 [i6] 苏里什·乔杜里 , 约瑟夫·罗特 , 丹尼尔·P·W·埃利斯 , 安德鲁·加拉赫 , 利亚特·卡弗 , 拉迪卡·马文 , 卡罗琳·潘托法鲁 , 内森·雷尔 , 洛雷塔·瓜里诺·里德 , 凯文·威尔逊 , 中华西 :
AVA-Speech:电影中语音活动的密集标签数据集。 CoRR公司 abs/1808.00606 ( 2018 ) [i5] 全旺(Quan Wang) , 汉娜·穆肯恩 , 凯文·威尔逊 , Prashant Sridhar公司 , 吴泽林 , 约翰·赫尔希 , 里夫·A·索罗斯 , 罗恩·韦斯 , 叶佳 , 伊格纳西奥·洛佩斯·莫雷诺 :
VoiceFilter:通过扬声器条件谱图掩蔽实现目标语音分离。 CoRR公司 abs/1810.04826 ( 2018 ) [i4] 凯文·威尔逊 , 迈克尔·切恩 , 杰瑞米·索普 , 布赖恩·帕顿 , 约翰·赫尔希 , 里夫·A·索罗斯 , Jan Skoglund公司 , 理查德·里昂 :
探索低延迟语音增强模型中的权衡。 CoRR公司 abs/1811.07030 ( 2018 ) [i3] 斯科特·怀斯多姆 , 约翰·赫尔希 , 凯文·威尔逊 , 杰瑞米·索普 , 迈克尔·切恩 , 布赖恩·帕顿 , 里夫·A·索罗斯 :
改进深度语音增强的不同一致性约束。 CoRR公司 abs/1811.08521 ( 2018 ) 2017 [注2] 塔拉·N·赛纳特 , 罗恩·韦斯 , 凯文·威尔逊 , 李波(Bo Li) , 阿伦·纳拉亚南 , 埃桑·瓦里安尼 , 米希尔·巴奇亚尼 , 伊扎克·沙夫兰 , 高级安德鲁·W , Kean K.Chin(基恩·钦) , 安娜亚·米斯拉 , 金昌宇(Chanwoo Kim) :
基于深度神经网络的自动语音识别多通道信号处理。 IEEE ACM传输。 音频语音语言处理。 25 ( 5 ) : 965-979 ( 2017 ) [公元22年] 肖恩·赫尔希 , 苏里什·乔杜里 , 丹尼尔·P·W·埃利斯 , Jort F.Gemmeke先生 , 阿伦·扬森 , R.钱宁·摩尔 , 马诺伊·普拉卡尔 , 德文·普拉特 , 里夫·A·索罗斯 , 布莱恩·塞博尔德 , 马尔科姆·斯莱尼 , 罗恩·韦斯 , 凯文·威尔逊 :
用于大规模音频分类的CNN架构。 ICASSP公司 2017 : 131-135 【c21】 李波(Bo Li) , 塔拉·N·赛纳(Tara N.Sainath) , 阿伦·纳拉亚南 , 乔·卡罗塞利 , 米歇尔·巴奇亚尼 , 安娜亚·米斯拉 , 伊扎克·沙夫兰 , 哈西姆·萨克 , 戈兰-蓬达 , 基恩·K·钦 , Khe Chai Sim村 , 罗恩·韦斯 , 凯文·威尔逊 , 埃桑·瓦里安尼 , 金昌宇(Chanwoo Kim) , 奥利维尔·肖汉 , 米切尔·温特劳布 , 埃里克·麦克德莫特 , 理查德·罗斯 , 马特·香农 :
谷歌主页的声学建模。 INTERSPEECH公司 2017 : 399-403 [第1页] 塔拉·N·赛纳(Tara N.Sainath) , 罗恩·韦斯 , 凯文·威尔逊 , 阿伦·纳拉亚南 , 米歇尔·巴奇亚尼 , 李波(Bo Li) , 埃桑·瓦里安尼 , 伊扎克·沙夫兰 , Andrew W.Senior高级 , Kean K.Chin(基恩·钦) , 安娜亚·米斯拉 , 金昌宇(Chanwoo Kim) :
使用深度神经网络的原始多通道处理。 利用深度学习实现稳健语音识别的新时代 2017 : 105-133 2016 [公元20年] 塔拉·N·赛纳(Tara N.Sainath) , 罗恩·韦斯 , 凯文·威尔逊 , 阿伦·纳拉亚南 , 米歇尔·巴奇亚尼 :
因子化空间和频谱多通道原始波形CLDNN。 ICASSP公司 2016 : 5075-5079 [第19条] 塔拉·N·赛纳(Tara N.Sainath) , 阿伦·纳拉亚南 , 罗恩·韦斯 , 埃桑·瓦里安尼 , 凯文·威尔逊 , 米歇尔·巴奇亚尼 , 伊扎克·沙夫兰 :
通过集成特征提取降低多麦克风声学模型的计算复杂性。 INTERSPEECH公司 2016 : 1971-1975 [第18条] 李波(Bo Li) , 塔拉·N·赛纳(Tara N.Sainath) , 罗恩·韦斯 , 凯文·威尔逊 , 米歇尔·巴奇亚尼 :
用于鲁棒多通道语音识别的神经网络自适应波束形成。 INTERSPEECH公司 2016 : 1976-1980 [i2] 肖恩·赫尔希 , 苏里什·乔杜里 , 丹尼尔·P·W·埃利斯 , Jort F.Gemmeke先生 , 阿伦·扬森 , R.Channing摩尔 , 马诺伊·普拉卡尔 , 德文·普拉特 , 里夫·A·索罗斯 , 布莱恩·塞伯德 , 马尔科姆·斯莱尼 , 罗恩·韦斯 , 凯文·威尔逊 :
CNN大尺度音频分类体系结构。 CoRR公司 abs/1609.09430 ( 2016 ) [i1] 布赖恩·帕顿 , 亚尼斯·阿吉莫吉安娜基斯 , 迈克尔·特里 , 凯文·威尔逊 , 里夫·A·索罗斯 , D.斯卡利 :
AutoMOS:学习一个非侵入性的语言自然度评估师。 CoRR公司 abs/1611.09207 ( 2016 ) 2015 [第17条] 塔拉·N·赛纳(Tara N.Sainath) , 罗恩·韦斯 , 凯文·威尔逊 , 阿伦·纳拉亚南 , 米歇尔·巴奇亚尼 , Andrew W.Senior高级 :
基于原始多通道波形的扬声器位置和麦克风间距不变声学建模。 ASRU公司 2015 : 30-36 [第16条] 叶迪·霍森 , 罗恩·韦斯 , 凯文·威尔逊 :
基于原始多通道波形的语音声学建模。 ICASSP公司 2015 : 4624-4628 [第15条] 塔拉·N·赛纳(Tara N.Sainath) , 罗恩·韦斯 , 高级安德鲁·W , 凯文·威尔逊 , Oriol葡萄酒 :
使用原始波形CLDNN学习语音前端。 INTERSPEECH公司 2015 : 1-5 2010 [第14条] 凯文·威尔逊 , 比沙·拉吉 :
独立约束下的谱图降维。 ICASSP公司 2010 : 1938-1941 [第13条] 比沙·拉吉 , 凯文·威尔逊 , 亚历山大·克鲁格 , Reinhold Haeb-Umbach公司 :
不全面的独立非负因素分析。 INTERSPEECH公司 2010 : 330-333
2000 – 2009
2008 [第12条] 凯文·威尔逊 , 比沙·拉吉 , 巴黎斯马拉格迪斯 , 阿杰·迪瓦卡兰 :
使用具有先验的非负矩阵分解的语音去噪。 ICASSP公司 2008 : 4029-4032 [第11条] 凯文·威尔逊 , 比沙·拉吉 , 巴黎斯马拉格迪斯 :
具有时间相关性的正则非负矩阵分解用于语音去噪。 INTERSPEECH公司 2008 : 411-414 2007 [第10条] 纳文·戈埃拉 , 凯文·威尔逊 , 丰牛 , 阿杰·迪瓦卡兰 , 大冢一郎 :
一种用于与流派无关的场景变化检测的SVM框架。 国际货币兑换协会 2007 : 532-535 2006 【b1】 凯文·威尔逊 :
估计真实环境中语音源定位的不确定性模型。 麻省理工学院,剑桥,马萨诸塞州,美国, 2006 [j1] 凯文·威尔逊 , 特雷弗·达雷尔 :
学习广义互相关框架的先验效应类加权函数。 IEEE传输。 语音音频处理。 14 ( 6 ) : 2156-2164 ( 2006 ) 2005 【c9】 凯文·威尔逊 , 特雷弗·达雷尔 :
通过学习优先效应改进音频源定位。 ICASSP(4) 2005 : 1125-1128 【c8】 凯特·萨恩科 , 凯伦·利维斯库 , 迈克尔·西拉库萨 , 凯文·威尔逊 , 詹姆斯·格拉斯 , 特雷弗·达雷尔 :
具有松散同步特征流的视觉语音识别。 ICCV公司 2005 : 1424年-1431年 2004 【c7】 尼尔·切卡 , 凯文·威尔逊 , 迈克尔·西拉库萨 , 特雷弗·达雷尔 :
使用粒子过滤器跟踪多人和说话人活动。 ICASSP(5) 2004 : 881-884 【c6】 大卫·德米尔吉安 , 凯文·威尔逊 , 迈克尔·西拉库萨 , 特雷弗·达雷尔 :
用于会议分析的实时视听跟踪。 国际资本市场协会 2004 : 331-332 2003 【c5】 尼尔·切卡 , 凯文·威尔逊 , Vibhav Rangarajan公司 , 特雷弗·达雷尔 :
多模式多人跟踪的概率框架。 CVPR研讨会 2003 : 100 【c4】 迈克尔·西拉库萨 , 莫伦西 , 凯文·威尔逊 , 约翰·费舍尔三世 , 特雷弗·达雷尔 :
一种确定说话人位置和焦点的多模态方法。 国际资本市场协会 2003 : 77-80 2002 【c3】 凯文·威尔逊 , 特雷弗·达雷尔 :
智能环境下的音视频阵列源定位。 ICASSP公司 2002 : 2109-2112 【c2】 凯文·威尔逊 , 维巴夫·兰加拉扬 , 尼尔·切卡 , 特雷弗·达雷尔 :
无连接语音接口的视听阵列。 国际资本市场协会 2002 : 389-394 2001 【c1】 凯文·威尔逊 , 尼尔·切卡 , 大卫·德米尔吉安 , 特雷弗·达雷尔 :
感知用户界面的音视频阵列源分离。 PUI公司 2001 : 4:1-4:7