鑫浩美(Xinhao Mei)
人员信息
优化列表
![笔记](https://dblp.uni-trier.de/img/note-mark.dark.12x12.png)
2020年–今天
2024 [注2] 刘浩河 , 一元 , 刘旭波 , 鑫浩美(Xinhao Mei) , 孔秋强 , 乔天 , 王玉平 , 王文武 , 王宇轩 , 马克·D·普朗布利 :
AudioLDM 2:通过自我监督的预训练学习整体音频生成。 IEEE ACM传输。 音频语音语言处理。 32 : 2871-2883 ( 2024 ) 2023 [第14条] 刘旭波 , 刘浩和 , 孔秋强 , 鑫浩美(Xinhao Mei) , 马克·D·普朗布利 , 王文武 :
简单的前端池以实现高效的音频分类。 ICASSP公司 2023 : 1-5 [第13条] 刘浩和 , 陈泽华 , 一元 , 鑫浩美(Xinhao Mei) , 刘旭波 , 丹尼尔·曼迪奇 , 王文武 , 马克·D·普朗布利 :
AudioLDM:具有潜在扩散模型的文本到音频生成。 ICML公司 2023 : 21450-21474 [第12条] 刘旭波 , 黄秋石 , 鑫浩美(Xinhao Mei) , 刘浩和 , 孔秋强 , 孙建元 , 李胜晨 , 汤姆·科 , 于章 , H.唐丽莲 , 马克·D·普朗布利 , 沃尔坎·基利索 , 王文武 :
具有自适应视听注意力的可视软件音频字幕。 INTERSPEECH公司 2023 : 2838-2842 [第11条] 刘浩和 , 孔秋强 , 刘旭波 , 鑫浩美(Xinhao Mei) , 王文武 , 马克·D·普朗布利 :
音频标记的Ontology-awared Learning and Evaluation for Audio Tagging。 INTERSPEECH公司 2023 : 3799-3803 [c10] 孙建元 , 刘旭波 , 鑫浩美(Xinhao Mei) , 沃尔坎·基利索 , 马克·D·普朗布利 , 王文武 :
基于双变压器解码器的自动音频字幕功能融合网络。 INTERSPEECH公司 2023 : 4164-4168 [第23条] 刘浩和 , 陈泽华 , 一元 , 鑫浩美(Xinhao Mei) , 刘旭波 , 丹尼尔·曼迪奇 , 王文武 , 马克·D·普朗布利 :
AudioLDM:具有潜在扩散模型的文本到音频生成。 CoRR公司 abs/2301.12503 ( 2023 ) [i22] 鑫浩美(Xinhao Mei) , 楚桐梦 , 刘浩和 , 孔秋强 , 汤姆·科 , 赵成琦 , 马克·D·普朗布利 , 邹跃仙 , 王文武 :
WavCaps:用于音频语言多模态研究的ChatGPT辅助弱标签音频字幕数据集。 CoRR公司 abs/2303.17395 ( 2023 ) 【i21】 孙建元 , 刘旭波 , 鑫浩美(Xinhao Mei) , 沃尔坎·基利索 , 马克·D·普朗布利 , 王文武 :
基于双变压器解码器的自动音频字幕功能融合网络。 CoRR公司 abs/2305.18753 ( 2023 ) [i20] 刘浩和 , 乔天 , 一元 , 刘旭波 , 鑫浩美(Xinhao Mei) , 孔秋强 , 王玉平 , 王文武 , 王宇轩 , 马克·D·普朗布利 :
AudioLDM 2:通过自我监督的预训练学习整体音频生成。 CoRR公司 abs/2308.05734 ( 2023 ) [i19] 杨阳石 , 盖尔·勒兰 , 瓦伦·纳加拉贾 , 倪兆亨 , 鑫浩美(Xinhao Mei) , 张恩妮(Ernie Chang) , 福雷斯特·N·兰多拉 , 杨柳 , 维卡斯·钱德拉 :
通过表示相似性正则化增强音频生成的可控性。 CoRR公司 abs/2309.08773 ( 2023 ) [i18] 鑫浩美(Xinhao Mei) , 瓦伦·纳加拉贾 , 盖尔·勒兰 , 倪兆亨 , 张恩妮(Ernie Chang) , 杨阳石 , 维卡斯·钱德拉 :
FoleyGen:视觉引导音频生成。 CoRR公司 abs/2309.10537 ( 2023 ) [i17] 张和静 , 朱巧喜 , 建管 , 刘浩和 , 飞扬·肖 , 田建通 , 鑫浩美(Xinhao Mei) , 刘旭波 , 王文武 :
通过元数据辅助音频生成估计未知异常的第一次无监督异常声音检测。 CoRR公司 abs/2310.14173 ( 2023 ) 2022 [j1] 鑫浩美(Xinhao Mei) , 刘旭波 , 马克·D·普朗布利 , 王文武 :
自动音频字幕:最新进展和新挑战概述。 EURASIP J.语音音乐。 过程。 2022 ( 1 ) : 26 ( 2022 ) 【c9】 刘浩和 , 刘旭波 , 鑫浩美(Xinhao Mei) , 孔秋强 , 王文武 , 马克·D·普朗布利 :
用于少镜头生物声学事件检测的分段级度量学习。 DCASE公司 2022 【c8】 孙建元 , 刘旭波 , 鑫浩美(Xinhao Mei) , 赵金正 , 马克·D·普朗布利 , 沃尔坎·基利索 , 王文武 :
用于声场景分类的深度神经决策森林。 欧盟SIPCO 2022 : 772-776 【c7】 刘旭波 , 鑫浩美(Xinhao Mei) , 黄秋石 , 孙建元 , 赵金正 , 刘浩和 , 马克·D·普朗布利 , 沃尔坎·基利奇 , 王文武 :
利用预训练BERT进行音频字幕。 欧盟SIPCO 2022 : 1145-1149 【c6】 鑫浩美(Xinhao Mei) , 刘旭波 , 孙建元 , 马克·D·普朗布利 , 王文武 :
通过对抗训练进行多样化的音频字幕。 ICASSP公司 2022 : 8882-8886 【c5】 刘旭波 , 刘浩和 , 孔秋强 , 鑫浩美(Xinhao Mei) , 赵金正 , 黄秋石 , 马克·D·普朗布利 , 王文武 :
分离您描述的内容:语言查询音频源分离。 INTERSPEECH公司 2022 : 1801-1805 【c4】 鑫浩美(Xinhao Mei) , 刘旭波 , 孙建元 , 马克·D·普朗布利 , 王文武 :
音频文本跨模式检索的度量学习。 INTERSPEECH公司 2022 : 4142-4146 [i16] 刘旭波 , 鑫浩美(Xinhao Mei) , 黄秋石 , 孙建元 , 赵金正 , 刘浩和 , 马克·D·普朗布利 , 沃尔坎·基利索 , 王文武 :
利用预训练BERT进行音频字幕。 CoRR公司 abs/2203.02838 ( 2022 ) [i15] 孙建元 , 刘旭波 , 鑫浩美(Xinhao Mei) , 赵金正 , 马克·D·普朗布利 , 沃尔坎·基利索 , 王文武 :
用于声场景分类的深层神经决策林。 CoRR公司 abs/2203.03436 ( 2022 ) [第14条] 刘旭波 , 刘浩和 , 孔秋强 , 鑫浩美(Xinhao Mei) , 赵金正 , 黄秋石 , 马克·D·普朗布利 , 王文武 :
分离您描述的内容:语言查询音频源分离。 CoRR公司 abs/2203.15147 ( 2022 ) [i13] 鑫浩美(Xinhao Mei) , 刘旭波 , 孙建元 , 马克·D·普朗布利 , 王文武 :
音频文本跨模式检索的度量学习。 CoRR公司 abs/2203.15537 ( 2022 ) [i12] 鑫浩美(Xinhao Mei) , 刘旭波 , 马克·D·普朗布利 , 王文武 :
自动音频字幕:最新进展和新挑战概述。 CoRR公司 abs/2205.05949 ( 2022 ) [i11] 刘浩河 , 刘旭波 , 鑫浩美(Xinhao Mei) , 孔秋强 , 王文武 , 马克·D·普朗布利 :
用于少量生物声事件检测的分段级度量学习。 CoRR公司 abs/2207.07773 ( 2022 ) [i10] 刘浩和 , 刘旭波 , 鑫浩美(Xinhao Mei) , 孔秋强 , 王文武 , 马克·D·普朗布利 :
用于DCASE 2022的萨里系统任务5:使用分段级度量学习的少量生物声学事件检测。 CoRR公司 abs/2207.10547 ( 2022 ) [第九章] 刘旭波 , 刘浩和 , 孔秋强 , 鑫浩美(Xinhao Mei) , 马克·D·普朗布利 , 王文武 :
简单的前端池以实现高效的音频分类。 CoRR公司 abs/2210.00943 ( 2022 ) [i8] 孙建元 , 刘旭波 , 鑫浩美(Xinhao Mei) , 马克·D·普朗布利 , 沃尔坎·基利奇 , 王文武 :
通过低维和高维特征的融合实现自动音频字幕。 CoRR公司 abs/2210.05037 ( 2022 ) [i7] 刘旭波 , 黄秋石 , 鑫浩美(Xinhao Mei) , 刘浩和 , 孔秋强 , 孙建元 , 李胜晨 , 汤姆·科 , 于章 , H.唐丽莲 , 马克·D·普朗布利 , 沃尔坎·基利索 , 王文武 :
具有自适应视听注意力的可视软件音频字幕。 CoRR公司 腹肌/2210.16428 ( 2022 ) [i6] 刘浩和 , 孔秋强 , 刘旭波 , 鑫浩美(Xinhao Mei) , 王文武 , 马克·D·普朗布利 :
音频标记的Ontology-awared Learning and Evaluation for Audio Tagging。 CoRR公司 abs/2211.12195 ( 2022 ) [i5] 鑫浩美(Xinhao Mei) , 刘旭波 , 孙建元 , 马克·D·普朗布利 , 王文武 :
通过对抗训练生成多样化的音频字幕。 CoRR公司 abs/2212.02033 ( 2022 ) 2021 【c3】 刘旭波 , 黄秋石 , 鑫浩美(Xinhao Mei) , 汤姆·科 , H.唐丽莲 , 马克·D·普朗布利 , 王文武 :
CL4AC:音频字幕的对比度损失。 DCASE公司 2021 : 196-200 【c2】 鑫浩美(Xinhao Mei) , 黄秋石 , 刘旭波 , 陈耿云 , 吴靖谦 , 吴宇松 , 赵金正 , 李胜晨 , 汤姆·科 , H.唐丽莲 , 奚绍 , 马克·D·普朗布利 , 王文武 :
一种基于编解码器的带传输和强化学习的音频字幕系统。 DCASE公司 2021 : 206-210 【c1】 鑫浩美(Xinhao Mei) , 刘旭波 , 黄秋石 , 马克·D·普朗布利 , 王文武 :
音频字幕变压器。 DCASE公司 2021 : 211-215 [i4] 鑫浩美(Xinhao Mei) , 刘旭波 , 黄秋石 , 马克·D·普朗布利 , 王文武 :
音频字幕变压器。 CoRR公司 abs/2107.09817 ( 2021 ) [i3] 刘旭波 , 黄秋实 , 鑫浩美(Xinhao Mei) , 汤姆·科 , H.唐丽莲 , 马克·D·普朗布利 , 王文武 :
CL4AC:音频字幕的相对损失。 CoRR公司 abs/2107.09990 ( 2021 ) [i2] 鑫浩美(Xinhao Mei) , 黄秋石 , 刘旭波 , 陈耿云 , 吴靖谦 , 吴玉松 , 赵金正 , 李胜晨 , 汤姆·科 , H.唐丽莲 , 奚绍 , 马克·D·普朗布利 , 王文武 :
一种基于编解码器的带传输和强化学习的音频字幕系统。 CoRR公司 abs/2108.02752 ( 2021 ) [i1] 鑫浩美(Xinhao Mei) , 刘旭波 , 孙建元 , 马克·D·普朗布利 , 王文武 :
通过对抗训练进行多样化的音频字幕。 CoRR公司 abs/2110.06691 ( 2021 )
合著者索引
![](https://dblp.uni-trier.de/img/cog.dark.24x24.png)