
Soham Deshmukh公司
人员信息
优化列表

2020年–今天
2025 
[第17条] Soham Deshmukh公司 , 朔汉 , 哈兹姆·T·布哈里 , 本杰明·伊莱扎尔德 , 汉内斯·甘珀 , 丽塔·辛格 , 比沙·拉吉 :
音频蕴涵:评估演绎推理对音频理解的影响。 AAAI公司 2025 : 23769-23777 
[第16条] 萨特维克·迪克西特 , Soham Deshmukh公司 , 比沙·拉吉 :
MACE:利用音频评估音频字幕系统。 ICASSP研讨会 2025 : 1-5 
[第15条] Soham Deshmukh公司 , 朔汉 , 丽塔·辛格 , 比沙·拉吉 :
ADIFF:使用自然语言解释音频差异。 ICLR公司 2025 
[第14条] Shikhar Bharadwaj公司 , 萨缪尔·康奈尔 , Kwanghee Choi先生 , 佐托鲁·富卡亚马 , 沈惠珍 , Soham Deshmukh公司 , 渡边信治 :
OpenBEATs:一个完全开源的通用音频编码器。 WASPAA公司 2025 : 1-5 
[i27] Soham Deshmukh公司 , 韩硕 , 丽塔·辛格 , 比沙·拉吉 :
ADIFF:使用自然语言解释音频差异。 CoRR公司 abs/2502.04476 ( 2025 ) 
[i26] Soham Deshmukh公司 , 萨特维克·迪克西特 , 丽塔·辛格 , 比沙·拉吉 :
Mellow:用于推理的小型音频语言模型。 CoRR公司 abs/2503.08540 ( 2025 ) 
[i25] 马萨·巴利 , 朔汉 , 赛义德·阿卜杜勒·汉南 , 普鲁索塔姆·萨马尔 , 卡兰维尔·辛格 , Soham Deshmukh公司 , 丽塔·辛格 , 比沙·拉吉 :
CoLMbo:描述性分析的说话人语言模型。 CoRR公司 abs/2506.09375 ( 2025 ) 
【i24】 Shikhar Bharadwaj公司 , 萨缪尔·康奈尔 , Kwanghee Choi先生 , 佐托鲁·富卡亚马 , 沈惠珍 , Soham Deshmukh公司 , 渡边信治 
:
OpenBEATs:一个完全开源的通用音频编码器。 CoRR公司 abs/2507.14129 ( 2025 ) 
[第23条] Sonal Kumar公司 , 西蒙·塞德拉切克 , 瓦比哈维·洛克甘卡 , 费尔南多·洛佩斯 , 余文一(Wenyi Yu) , 尼希特·阿南德 , Hyeonggon Ryu公司 , 陈立昌 , 马克西姆·普利卡 , 米罗斯拉夫·拉瓦切克 , 威廉·菲尼亚斯·埃林伍德 , 萨特维克·乌杜帕 , 侯思源 , 艾利森·费纳 , 萨拉·巴拉奥纳 , 塞西莉亚·博拉尼奥斯 , 萨蒂什·拉希 , 劳拉·埃雷拉·阿拉康 , 萨特维克·迪克西特 , 鲁帕利·S·帕蒂尔 , Soham Deshmukh公司 , 拉沙·科罗希纳泽 , 姚刘 , 莱布尼·保拉·加西亚·佩雷拉 , 埃利尼·扎努 , Themos Stafylakis公司 , Joon Son Chung先生 , 大卫·哈瓦特 , 张超(Chao Zhang) , 迪内什·马诺查 , 艾丽西娅·洛扎诺·迪兹 , Santosh Kesiraju公司 , Sreyan Ghosh公司 , 拉马尼·杜蕾斯瓦米 :
MMAU-Pro:音频通用智能整体评估的挑战性综合基准。 CoRR公司 abs/2508.13992 ( 2025 ) 
[i22] 萨特维克·迪克西特 , Soham Deshmukh公司 , 比沙·拉吉 :
AURA分数:整体音频问题回答评估的指标。 CoRR公司 abs/2510.04934 ( 2025 ) 2024 
[第13条] 本杰明·伊莱扎尔德 , Soham Deshmukh公司 , 王华明 :
通用音频表示的自然语言监管。 ICASSP公司 2024 : 336-340 
[第12条] Soham Deshmukh公司 , 本杰明·伊莱扎尔德 , 迪米特拉·埃马努利杜 , 比沙·拉吉 , 丽塔·辛格 , 王华明 :
训练不带音频的音频字幕模型。 ICASSP公司 2024 : 371-375 
[第11条] 希拉·达迈尔 , 本杰明·伊莱扎尔德 , Soham Deshmukh公司 , 王华明 , 比沙·拉吉 , 丽塔·辛格 :
使用声学特性提示音频以表达情感。 ICASSP公司 2024 : 11936-11940 
[第10条] 哈兹姆·T·布哈里 , Soham Deshmukh公司 , 希拉·达迈尔 , 比沙·拉吉 , 丽塔·辛格 :
SELM:增强对域外场景的语音情感识别。 INTERSPEECH公司 2024 
【c9】 Soham Deshmukh公司 , 达琳·阿尔哈蒂 , 本杰明·伊莱扎尔德 , 汉内斯·甘珀 , 马哈茂德·伊斯梅尔 , 丽塔·辛格 , 比沙·拉吉 , 王华明 :
PAM:提示音频质量评估的音频语言模型。 INTERSPEECH公司 2024 
【c8】 Soham Deshmukh公司 , 丽塔·辛格 , 比沙·拉吉 :
对比音频语言模型的领域适应。 INTERSPEECH公司 2024 
【i21】 Soham Deshmukh公司 , 达琳·阿尔哈蒂 , 本杰明·伊莱扎尔德 , 汉内斯·甘珀 , 马哈茂德·伊斯梅尔 , 丽塔·辛格 , 比沙·拉吉 , 王华明 :
PAM:提示音频质量评估的音频语言模型。 CoRR公司 abs/2402.00282 ( 2024 ) 
[i20] Soham Deshmukh公司 , 丽塔·辛格 , 比沙·拉吉 :
对比音频语言模型的领域适应。 CoRR公司 abs/2402.09585 ( 2024 ) 
[i19] 哈兹姆·T·布哈里 , Soham Deshmukh公司 , 希拉·达迈尔 , 比沙·拉吉 , 丽塔·辛格 :
SELM:增强对域外场景的语音情感识别。 CoRR公司 abs/2407.15300 ( 2024 ) 
[i18] Soham Deshmukh公司 , 朔汉 , 哈兹姆·T·布哈里 , 本杰明·伊莱扎尔德 , 汉内斯·甘珀 , 丽塔·辛格 , 比沙·拉吉 :
音频蕴涵:评估演绎推理对音频理解的影响。 CoRR公司 abs/2407.18062 ( 2024 ) 
[i17] 萨特维克·迪克西特 , Soham Deshmukh公司 , 比沙·拉吉 :
MACE:利用音频评估音频字幕系统。 CoRR公司 abs/2411.00321 ( 2024 ) 2023 
【c7】 本杰明·伊莱扎尔德 , Soham Deshmukh公司 , 马哈茂德·伊斯梅尔 , 王华明 :
CLAP从自然语言监督中学习音频概念。 ICASSP公司 2023 : 1-5 
【c6】 丹尼尔·汤普金 , 迪米特拉·埃马努利杜 , Soham Deshmukh公司 , 本杰明·伊莱扎尔德 :
基于类别情感、类别情感和维度得分的语音情感识别多视图学习。 ICASSP公司 2023 : 1-5 
【c5】 Soham Deshmukh公司 , 本杰明·伊莱扎尔德 , 王华明 :
使用WavText5K和CLAP训练进行音频检索。 INTERSPEECH公司 2023 : 2948-2952 
【c4】 Soham Deshmukh公司 , 本杰明·伊莱扎尔德 , 丽塔·辛格 , 王华明 :
Pengi:音频任务的音频语言模型。 NeurIPS公司 2023 
[i16] 劳里·M·海勒 
, 本杰明·伊莱扎尔德 , 比沙·拉吉 , Soham Deshmukh公司 :
声音/场景识别和处理的人机协同方法:ICASSP特别会议概述。 CoRR公司 abs/2302.09719 ( 2023 ) 
【i15】 Soham Deshmukh公司 , 本杰明·伊莱扎尔德 , 丽塔·辛格 , 王华明 :
Pengi:音频任务的音频语言模型。 CoRR公司 abs/2305.11834 ( 2023 ) 
[第14条] 本杰明·伊莱扎尔德 , Soham Deshmukh公司 , 王华明 :
通用音频表示的自然语言监管。 CoRR公司 abs/2309.05767 ( 2023 ) 
[i13] Soham Deshmukh公司 , 本杰明·伊莱扎尔德 , 迪米特拉·埃马努利杜 , 比沙·拉吉 , 丽塔·辛格 , 王华明 :
训练不带音频的音频字幕模型。 CoRR公司 abs/2309.07372 ( 2023 ) 
[i12] 希拉·达迈尔 , 本杰明·伊莱扎尔德 , Soham Deshmukh公司 , 王华明 , 比沙·拉吉 , 丽塔·辛格 :
使用声学特性提示音频以表达情感。 CoRR公司 abs/2310.02298 ( 2023 ) 
[i11] 穆罕默德·艾哈迈德·沙阿 , 罗珊·夏尔马 , 希拉·达迈尔 , 拉斐尔·奥利维尔 , 安基特·沙阿 , 约瑟夫·科南 , 达琳·阿尔哈蒂 , 哈兹姆·T·布哈里 , 马萨·巴利 , Soham Deshmukh公司 , 迈克尔·库尔曼 , 比沙·拉吉 , 丽塔·辛格 :
LoFT:用于改进针对大型语言模型的对抗性攻击的可转移性的本地代理精细调整。 CoRR公司 abs/2310.04445 ( 2023 ) 2022 
[i10] 本杰明·伊莱扎尔德 , Soham Deshmukh公司 , 马哈茂德·伊斯梅尔 , 王华明 :
CLAP:从自然语言监督中学习音频概念。 CoRR公司 abs/2206.04769 ( 2022 ) 
[第九章] Soham Deshmukh公司 , 查尔斯·李 :
为电子邮件对话调整面向任务的对话模型。 CoRR公司 abs/2208.09439 ( 2022 ) 
[i8] Soham Deshmukh公司 , 本杰明·伊莱扎尔德 , 王华明 :
使用WavText5K和CLAP训练进行音频检索。 CoRR公司 abs/2209.14275 ( 2022 ) 
[i7] 希拉·达迈尔 , 本杰明·伊莱扎尔德 , Soham Deshmukh公司 , 王华明 , 比丘·拉吉 , 丽塔·辛格 :
用声学特性描述情感会提示语音情感识别。 CoRR公司 abs/2211.07737 ( 2022 ) 2021 
【c3】 马哈茂德·伊斯梅尔 , Soham Deshmukh公司 , 丽塔·辛格 :
通过声带振荡分析检测Covid-19。 ICASSP公司 2021 : 1035-1039 
【c2】 Soham Deshmukh公司 , 马哈茂德·伊斯梅尔 , 丽塔·辛格 :
解读声门血流动力学,从声音中检测Covid-19。 ICASSP公司 2021 : 1055-1059 
【c1】 Soham Deshmukh公司 , 比沙·拉吉 , 丽塔·辛格 :
通过自我监督辅助任务改进弱监督声音事件检测。 Interspeech公司 2021 : 596-600 
[i6] Soham Deshmukh公司 , 比沙·拉吉 , 丽塔·辛格 :
利用自我监督的辅助任务改进弱监督声音事件检测。 CoRR公司 abs/2106.06858 ( 2021 ) 
[i5] 周瑞杰(Ruijie Zhou) , Soham Deshmukh公司 , 耶利米亚·格里尔 , 查尔斯·李 :
NaRLE:使用情感反馈强化学习的自然语言模型。 CoRR公司 abs/2110.02148 ( 2021 ) 2020 
[i4] Soham Deshmukh公司 , 比沙·拉吉 , 丽塔·辛格 :
可解释弱标记声音事件检测的多任务学习。 CoRR公司 abs/2008.07085 ( 2020 ) 
[i3] 马哈茂德·伊斯梅尔 , Soham Deshmukh公司 , 丽塔·辛格 :
通过分析声带振荡检测新型冠状病毒肺炎。 CoRR公司 abs/2010.10707 ( 2020 ) 
[i2] Soham Deshmukh公司 , 马哈茂德·伊斯梅尔 , 丽塔·辛格 :
解释声门血流动力学以从声音中检测新型冠状病毒肺炎。 CoRR公司 abs/2010.16318 ( 2020 )
2010 – 2019
2019 
[i1] Soham Deshmukh公司 , 拉胡尔·雷德 , 法鲁克·卡齐 :
使用隐马尔可夫模型的随机集成分析攻击者行为。 CoRR公司 abs/1905.11824 ( 2019 )
合著者索引



























