Souradip Chakraborty公司
人员信息
SPARQL查询
优化列表
2020年–今天
2024 [第14条] Souradip Chakraborty公司 , Amrit S.Bedi公司 , 亚历克·科佩尔 , 王华正 , 迪内什·马诺查 , 王梦迪 , 黄芙蓉 :
PARL:从人类反馈中强化学习的政策协调统一框架。 ICLR公司 2024 [第13条] 刘香玉 , Souradip Chakraborty公司 , 孙燕超 , 黄芙蓉 :
重新思考对手策略:RL中的广义攻击公式和可证明防御。 ICLR公司 2024 [第12条] Souradip Chakraborty公司 , Amrit S.Bedi公司 , 诸思成 , Bang An公司 , 迪内什·马诺查 , 黄芙蓉 :
立场:关于人工智能生成文本检测的可能性。 ICML公司 2024 [第11条] Souradip Chakraborty公司 , 邱嘉豪 , 慧媛 , 亚历克·科佩尔 , 迪内什·马诺查 , 黄芙蓉 , Amrit S.Bedi公司 , 王梦迪 :
MaxMin-RLHF:符合不同的人类偏好。 ICML公司 2024 【i24】 孙兴鹏 , 孟浩明 , Souradip Chakraborty公司 , 阿姆里特·辛格·贝迪 , 阿尼基特·贝拉 :
超越文本:通过语音提示改进LLM的机器人导航决策。 CoRR公司 abs/2402.03494 ( 2024 ) [第23条] Souradip Chakraborty公司 , 邱嘉豪 , 慧媛 , 亚历克·科佩尔 , 黄芙蓉 , 迪内什·马诺查 , 阿姆里特·辛格·贝迪 , 王梦迪 :
MaxMin-RLHF:实现大型语言模型与不同人类偏好的公平对齐。 CoRR公司 abs/2402.08925 ( 2024 ) [i22] 西阳·吴 , 瑞奇县 , 关天瑞 , 景亮 , Souradip Chakraborty公司 , 刘福晓 , 布莱恩·萨德勒 , 迪内什·马诺查 , 阿姆里特·辛格·贝迪 :
关于在机器人中部署LLM/VLM的安全问题:突出风险和漏洞。 CoRR公司 abs/2402.10340 ( 2024 ) 【i21】 尼尔贾尔·达斯 , Souradip Chakraborty公司 , 阿尔多·帕奇亚诺 , 赛亚克·雷·乔杜里 :
通过主动偏好优化实现可验证的高效采样RLHF。 CoRR公司 abs/2402.10500 ( 2024 ) [i20] Souradip Chakraborty公司 , 苏米娅·苏夫拉·戈萨尔 , 明音 , 迪内什·马诺查 , 王梦迪 , 阿姆里特·辛格·贝迪 , 黄芙蓉 :
传输Q星:LLM校准的原理解码。 CoRR公司 abs/2405.20495 ( 2024 ) [i19] 乌萨夫·辛格 , Souradip Chakraborty公司 , 韦斯利·萨特尔 , 布莱恩·萨德勒 , Vinay P.Namboodiri公司 , 阿姆里特·辛格·贝迪 :
DIPPER:直接偏好优化以加速基于基本体的分层强化学习。 CoRR公司 abs/2406.10892 ( 2024 ) [i18] 潘卡亚拉伊·巴马纳坦(Pankayaraj Pathmanathan) , Souradip Chakraborty公司 , 刘香玉 , 梁永元 , 黄芙蓉 :
中毒是对LLM联盟的真正威胁吗? 也许比你想象的要多。 CoRR公司 abs/2406.12091 ( 2024 ) [i17] 木葱丁 , Souradip Chakraborty公司 , Vibhu Agrawal公司 , 佐拉·切 , 亚历克·科佩尔 , 王梦迪 , Amrit S.Bedi公司 , 黄芙蓉 :
SAIL:自我改进大型语言模型的高效在线对齐。 CoRR公司 abs/2406.15567 ( 2024 ) [i16] 迈克尔·安德烈·帕尼特斯库·列斯 , 佐拉·切 , Bang An公司 , 许远成 , 潘卡亚拉伊·巴马纳坦(Pankayaraj Pathmanathan) , Souradip Chakraborty公司 , 诸思成 , 汤姆·金斯坦 , 黄芙蓉 :
大语言模型水印能防止版权文本生成和隐藏训练数据吗? CoRR公司 abs/2407.17417 ( 2024 ) 2023 [j1] Soumya Suvra Ghosal公司 , Souradip Chakraborty公司 , 乔纳斯·盖平 , 黄芙蓉 , 迪内什·马诺查 , Amrit S.Bedi公司 :
人工智能生成文本检测的可能性和不可能性调查。 事务处理。 机器。 学习。 物件。 2023 ( 2023 ) [第10条] Souradip Chakraborty公司 , 阿姆里特·辛格·贝迪 , 普拉塔普·托克卡 , 亚历克·科佩尔 , 布莱恩·萨德勒 , 黄芙蓉 , 迪内什·马诺查 :
基于模型的强化学习的核化Stein差异后核集构造。 AAAI公司 2023 : 6980-6988 【c9】 Souradip Chakraborty公司 , Amrit S.Bedi公司 , 亚历克·科佩尔 , 王梦迪 , 黄芙蓉 , 迪内什·马诺查 :
指导:Stein Information指导基于模型的强化学习探索。 ICML公司 2023 : 3949-3978 【c8】 Souradip Chakraborty公司 , 阿姆里特·辛格·贝迪 , 卡桑·维拉库恩 , 普里特维·波达尔 , 亚历克·科佩尔 , 普拉塔普·托克卡 , 迪内什·马诺查 :
通过重尾策略优化处理连续控制机器人中的稀疏报酬。 ICRA公司 2023 : 989-995 【i15】 Souradip Chakraborty公司 , 阿姆里特·辛格·贝迪 , 亚历克·科佩尔 , 王梦迪 , 黄芙蓉 , 迪内什·马诺查 :
指导:Stein Information指导基于模型的强化学习探索。 CoRR公司 abs/2301.12038 ( 2023 ) [第14条] Souradip Chakraborty公司 , 卡桑·维拉库恩 , 普里特维·波达尔 , 普拉塔普·托克卡 , 阿姆里特·辛格·贝迪 , 迪内什·马诺查 :
RE-MOVE:通过基于语言的反馈实现动态环境的自适应策略设计方法。 CoRR公司 abs/2303.07622 ( 2023 ) [i13] Souradip Chakraborty公司 , 阿姆里特·辛格·贝迪 , 诸思成 , Bang An公司 , 迪内什·马诺查 , 黄芙蓉 :
人工智能生成文本检测的可能性。 CoRR公司 abs/2304.04736 ( 2023 ) [i12] 刘香玉 , Souradip Chakraborty公司 , 孙燕超 , 黄芙蓉 :
反思对手策略:多代理RL中的广义攻击公式和可证明防御。 CoRR公司 abs/2305.17342 ( 2023 ) [i11] Souradip Chakraborty公司 , 阿姆里特·辛格·贝迪 , 亚历克·科佩尔 , 迪内什·马诺查 , 王华正 , 黄芙蓉 , 王梦迪 :
代理政策与外部性的协调:通过双层RL进行奖励设计。 CoRR公司 abs/2308.02585 ( 2023 ) [i10] Soumya Suvra Ghosal公司 , Souradip Chakraborty公司 , 乔纳斯·盖平 , 黄芙蓉 , 迪内什·马诺查 , 阿姆里特·辛格·贝迪 :
人工智能生成文本检测的可能性与不可能性:一项调查。 CoRR公司 绝对值/230.15264 ( 2023 ) [第九章] Souradip Chakraborty公司 , 阿米莎·巴斯卡 , 阿努基里·辛格 , 普拉塔普·托克卡 , 迪内什·马诺查 , 阿姆里特·辛格·贝迪 :
REBEL:基于规则的解决方案,用于从人的反馈中强化学习中的奖励过度优化。 CoRR公司 abs/2312.14436 ( 2023 ) 2022 【c7】 卡桑·维拉库恩 , Souradip Chakraborty公司 , Nare Karapetyan公司 , 阿达斯·贾根·萨提亚穆尔西 , Amrit S.Bedi公司 , 迪内什·马诺查 :
HTRON:通过重尾自适应增强算法实现高效的室外导航和稀疏奖励。 CoRL公司 2022 : 1629-1639 【c6】 阿姆里特·辛格·贝迪 , Souradip Chakraborty公司 , Anjaly Parayil公司 , 布莱恩·萨德勒 , 普拉塔普·托克卡 , 亚历克·科佩尔 :
连续行动空间中政策镜像上升的潜在偏见。 ICML公司 2022 : 1716-1731 [i8] 阿姆里特·辛格·贝迪 , Souradip Chakraborty公司 , Anjaly Parayil公司 , 布莱恩·萨德勒 , 普拉塔普·托克卡 , 亚历克·科佩尔 :
连续行动空间中政策镜像上升的潜在偏见。 CoRR公司 abs/2201.12332 ( 2022 ) [i7] Souradip Chakraborty公司 , 阿姆里特·辛格·贝迪 , 亚历克·科佩尔 , 布莱恩·萨德勒 , 黄芙蓉 , 普拉塔普·托克卡 , 迪内什·马诺查 :
基于模型的强化学习的核化Stein差异后核集构造。 CoRR公司 abs/2206.01162 ( 2022 ) [i6] Souradip Chakraborty公司 , 阿姆里特·辛格·贝迪 , 亚历克·科佩尔 , 普拉塔普·托克卡 , 迪内什·马诺查 :
通过重尾政策处理连续控制机器人中的稀疏报酬。 CoRR公司 abs/2206.05652 ( 2022 ) [i5] 卡桑·维拉库恩 , Souradip Chakraborty公司 , Nare Karapetyan公司 , 阿达斯·贾根·萨提亚穆尔西 , 阿姆里特·辛格·贝迪 , 迪内什·马诺查 :
HTRON:通过重尾自适应增强算法实现高效的室外导航和稀疏奖励。 CoRR公司 腹肌/2207.03694 ( 2022 ) 2020 【c5】 Souradip Chakraborty公司 , O.Ekaba Bisong先生 , 什维塔·巴特 , 托马斯·瓦格纳 , 莱利·埃利奥特 , 弗朗西斯科·莫斯科尼 :
BioMedBERT:用于QA和IR的预训练生物医学语言模型。 冷却 2020 : 669-679 【c4】 Souradip Chakraborty公司 , Ekansh Verma公司 , 萨斯瓦塔·萨胡 , 乔蒂什卡·达塔 :
FairMixRep:具有公平约束的异构数据的自我监督稳健表示学习。 ICDM(研讨会) 2020 : 458-463 【c3】 Souradip Chakraborty公司 , 阿里特拉·罗伊·戈西帕蒂 , 赛亚克·保罗 :
G-SimCLR:通过伪标记引导投影的自我监督对比学习。 ICDM(研讨会) 2020 : 912-916 【c2】 萨斯瓦塔·萨胡 , Souradip Chakraborty公司 :
分类和数值型混合数据的图谱特征学习。 ICPR公司 2020 : 5712-5719 【c1】 Ekansh Verma公司 , 维诺德·莫图帕利 , Souradip Chakraborty公司 :
SemEval-2020变形金刚任务11:使用基于多样化BERT架构的集成学习进行宣传片段检测。 SemEval@COLING公司 2020 : 1823-1828 [i4] 萨斯瓦塔·萨胡 , Souradip Chakraborty公司 :
分类和数值型混合数据的图谱特征学习。 CoRR公司 abs/2005.02817 ( 2020 ) [i3] 萨斯瓦塔·萨胡 , Souradip Chakraborty公司 :
使用非线性深度编解码框架学习混合数据类型的表示。 CoRR公司 abs/2009.09634 ( 2020 ) [i2] Souradip Chakraborty公司 , 阿里特拉·罗伊·戈西帕蒂 , 赛亚克·保罗 :
G-SimCLR:通过伪标记引导投影的自我监督对比学习。 CoRR公司 abs/2009.12007 ( 2020 ) [i1] Souradip Chakraborty公司 , Ekansh Verma公司 , 萨斯瓦塔·萨胡 , 乔蒂什卡·达塔 :
FairMixRep:具有公平约束的异构数据的自我监督稳健表示学习。 CoRR公司 abs/2010.03228 ( 2020 )