桑巴亚尔·苏赫巴托
人员信息
优化列表
2020年–今天
2024 [公元36年] 魏哲远 , 理查德·袁哲·庞 , Kyunghyun Cho(赵京贤) , 桑巴亚尔·苏赫巴托 , 景旭 , 杰森·韦斯顿 :
自我奖励语言模型。 CoRR公司 abs/2401.10020 ( 2024 ) [i35] 卢卡斯·莱纳特 , 桑巴亚尔·苏赫巴托 , 保罗·麦克维 , 迈克尔·拉巴特 , 田远东 :
超越A*:通过搜索动态引导更好地规划变形金刚。 CoRR公司 abs/2402.14083 ( 2024 ) [i34] 亚历克斯·哈夫里拉 , 杜玉清 , 莎拉·钱德拉·拉帕西 , 克里斯托弗罗斯·纳姆潘提斯 , Jane Dwivedi-Yu , 马克西姆·朱拉文斯基 , 埃里克·汉布罗 , 桑巴亚尔·苏赫巴托 , 罗伯塔·雷利亚努 :
通过强化学习教授大型语言模型进行推理。 CoRR公司 abs/2403.04642 ( 2024 ) [i33] 桑巴亚尔·苏赫巴托 , 奥尔加·戈洛夫涅娃 , 瓦苏·夏尔马 , 胡旭 , 西维多利亚·林 , 巴普蒂斯特·罗齐埃 , 雅各布·卡恩 , 丹尼尔·李 , Wen-tau Yih先生 , 杰森·韦斯顿 , 西安丽 :
分支训练MiX:将专家LLM混合为专家LLM的混合物。 CoRR公司 腹肌/2403.07816 ( 2024 ) [i32] 奥尔加·戈洛夫涅娃 , 泽源阿连珠 , 杰森·韦斯顿 , 桑巴亚尔·苏赫巴托 :
反向训练护理反向诅咒。 CoRR公司 abs/2403.13799 ( 2024 ) [i31] 理查德·袁哲·庞 , 魏哲远 , Kyunghyun Cho(赵京贤) , 呵呵呵呵 , 桑巴亚尔·苏赫巴托 , 杰森·韦斯顿 :
迭代推理偏好优化。 CoRR公司 abs/2404.19733 ( 2024 ) 2023 [公元20年] 杰克·兰坎廷 , 桑巴亚尔·苏赫巴托 , 加布里埃尔·辛纳维 , 孙宇轩 , 卡维亚·斯里尼特 , 亚瑟·斯拉姆 :
用于推理具体代理的数据源。 AAAI公司 2023 : 8438-8446 [第19条] 伦纳德·阿道夫 , 天宇高 , 景旭 , 库尔特·舒斯特 , 桑巴亚尔·苏赫巴托 , 杰森·韦斯顿 :
疯狂的失落:学习不应该模仿的语言。 ACL(1) 2023 : 8854-8874 [第18条] 杰克·兰坎廷 , 舒巴姆·托什尼瓦尔 , 杰森·韦斯顿 , 亚瑟·斯拉姆 , 桑巴亚尔·苏赫巴托 :
学会用自我笔记进行推理和记忆。 NeurIPS公司 2023 [i30] 利娜·梅兹加尼 , 桑巴亚尔·苏赫巴托 , 彼得亚·博亚诺夫斯基 , 亚历山德罗·拉扎里奇 , 卡提克·阿拉哈里 :
通过自我监督的奖励塑造离线学习目标约束政策。 CoRR公司 abs/2301.02099 ( 2023 ) [i29] 拉加夫·戈亚尔 , 埃夫罗西尼·马夫鲁迪 , 西通杨 , 桑巴亚尔·苏赫巴托 , 列奥尼德·西格尔 , 马特·费兹利 , 洛伦佐·托雷萨尼 , 杜Tran :
MINOTAUR:基于多模式查询的多任务视频接地。 CoRR公司 abs/2302.08063 ( 2023 ) [i28] 利娜·梅兹加尼 , 彼得亚·博亚诺夫斯基 , 卡提克·阿拉哈里 , 桑巴亚尔·苏赫巴托 :
三思而后行:语言推理与行动相结合的统一政策。 CoRR公司 abs/2304.11063 ( 2023 ) [i27] 杰克·兰坎廷 , 舒巴姆·托什尼瓦尔 , 杰森·韦斯顿 , 亚瑟·斯拉姆 , 桑巴亚尔·苏赫巴托 :
学会用自我笔记进行推理和记忆。 CoRR公司 abs/2305.00833 ( 2023 ) [i26] 伊马诺·施拉格 , 桑巴亚尔·苏赫巴托 , 阿斯利·塞利基尔马兹 , Wen-tau Yih先生 , 杰森·韦斯顿 , 尤根·施密杜贝尔(Jürgen Schmidhuber) , 西安丽 :
大型语言模型程序。 CoRR公司 abs/2305.05364 ( 2023 ) [i25] 景旭 , 大举 , 约书亚巷 , Mojtaba Komeili公司 , 埃里克·迈克尔·史密斯 , 梅根·昂 , 莫特扎·贝罗兹 , 威廉·扬 , 拉舍尔·莫里茨 , 桑巴亚尔·苏赫巴托 , Y-Lan Boureau公司 , 杰森·韦斯顿 , 库尔特·舒斯特 :
通过从有机互动中学习来改进开放式语言模型。 CoRR公司 abs/2306.04707 ( 2023 ) 【i24】 杰克·兰坎廷 , 桑巴亚尔·苏赫巴托 , 加布里埃尔·辛纳芙 , 孙宇轩 , 卡维亚·斯里尼特 , 亚瑟·斯拉姆 :
用于推理具体化代理的数据源。 CoRR公司 abs/2309.07974 ( 2023 ) [第23条] 杰森·韦斯顿 , 桑巴亚尔·苏赫巴托 :
System 2 Attention(系统2注意)(这也是您可能需要的)。 CoRR公司 abs/2311.11829 ( 2023 ) [i22] 景旭 , 安德鲁李 , 桑巴亚尔·苏赫巴托 , 杰森·韦斯顿 :
有些事情比其他事情更危险:偏好优化和成对CRINGE损失。 CoRR公司 abs/2312.16682 ( 2023 ) 2022 [第17条] 利娜·梅兹加尼 , 桑巴亚尔·苏赫巴托 , 彼得亚·博亚诺夫斯基 , 亚历山德罗·拉扎里奇 , 卡提克·阿拉哈里 :
通过自我监督的奖励塑造离线学习目标约束政策。 CoRL公司 2022 : 1401-1410 [第16条] 库沙尔·阿罗拉 , 库尔特·舒斯特 , 桑巴亚尔·苏赫巴托 , 杰森·韦斯顿 :
主任:用于监督语言建模的生成器分类器。 AACL/IJCNLP(1) 2022 : 512-526 [第15条] 利娜·梅兹加尼 , 桑巴亚尔·苏赫巴托 , 蒂博特·拉夫里尔 , Oleksandr Maksymets公司 , 德鲁夫·巴特拉 , 彼得亚·博亚诺夫斯基 , 卡提克·阿拉哈里 :
图像目标导航的记忆增强强化学习。 IROS公司 2022 : 3316-3323 [第14条] 大举 , 斯蒂芬·罗勒 , 桑巴亚尔·苏赫巴托 , 杰森·韦斯顿 :
序列递归处理的楼梯注意事项。 NeurIPS公司 2022 [第13条] 阿克拉姆·埃拉卡比 , 马洛斯·马查多 , 赵明德 , 桑巴亚尔·苏赫巴托 , 亚历山德罗·拉扎里克 , 卢多维克·德诺耶尔 , 本吉奥 :
时间抽象-增强时间对比学习:RL中拉普拉斯学习的替代方法。 阿拉伯联合酋长国 2022 : 641-651 【i21】 阿克拉姆·埃拉卡比 , 马洛斯·马查多 , 赵明德 , 桑巴亚尔·苏赫巴托 , 亚历山德罗·拉扎里奇 , 卢多维克·德诺耶尔 , 本吉奥 :
时间抽象——增强的时间对比学习:RL中拉普拉斯学习的替代方法。 CoRR公司 abs/2203.11369 ( 2022 ) [i20] 库沙尔·阿罗拉 , 库尔特·舒斯特 , 桑巴亚尔·苏赫巴托 , 杰森·韦斯顿 :
导演:受监督语言建模的生成器-分类器。 CoRR公司 abs/2206.07694 ( 2022 ) [i19] 利娜·梅兹加尼 , 桑巴亚尔·苏赫巴托 , 彼得亚·博亚诺夫斯基 , 卡提克·阿拉哈里 :
随机行走:学习在没有监督的情况下发现和实现目标。 CoRR公司 abs/2206.11733 ( 2022 ) [i18] 伦纳德·阿道夫 , 天宇高 , 景旭 , 库尔特·舒斯特 , 桑巴亚尔·苏赫巴托 , 杰森·韦斯顿 :
疯狂的失落:学习不应该模仿的语言。 CoRR公司 abs/2211.05826 ( 2022 ) 2021 [第12条] 桑巴亚尔·苏赫巴托 , 大举 , 斯潘塞·波夫 , 斯蒂芬·罗勒 , 亚瑟·斯拉姆 , 杰森·韦斯顿 , 安吉拉·范 :
并非所有的记忆都是平等的:学会通过过期来忘记。 ICML公司 2021 : 9902-9912年 [第11条] 斯蒂芬·罗勒 , 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 杰森·韦斯顿 :
大型稀疏模型的散列层。 NeurIPS公司 2021 : 17555-17566 [i17] 利娜·梅兹加尼 , 桑巴亚尔·苏赫巴托 , 蒂鲍特·拉夫里尔 , Oleksandr Maksymets公司 , 德鲁夫·巴特拉 , 彼得亚·博亚诺夫斯基 , 卡提克·阿拉哈里 :
图像目标导航的记忆增强强化学习。 CoRR公司 abs/2101.05181 ( 2021 ) [i16] 桑巴亚尔·苏赫巴托 , Da Ju公司 , 斯宾塞·波夫 , 斯蒂芬·罗勒 , 亚瑟·斯拉姆 , 杰森·韦斯顿 , 安吉拉·范 :
并非所有的记忆都是平等的:学会在过期时忘记。 CoRR公司 abs/2105.06548 ( 2021 ) 【i15】 大举 , 斯蒂芬·罗勒 , 桑巴亚尔·苏赫巴托 , 杰森·韦斯顿 :
序列递归处理的楼梯注意事项。 CoRR公司 abs/2106.04279 ( 2021 ) [第14条] 斯蒂芬·罗勒 , 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 杰森·韦斯顿 :
大型稀疏模型的散列层。 CoRR公司 abs/2106.04426 ( 2021 ) 2020 [i13] 安吉拉·范 , 蒂博特·拉夫里尔 , 爱德华·格雷夫 , 阿尔曼·朱林 , 桑巴亚尔·苏赫巴托 :
使用反馈存储器访问顺序变压器中的高级表示。 CoRR公司 abs/2002.09402 ( 2020 ) [i12] 莉娜·梅兹加尼 , 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 阿尔曼·朱林 , 彼得亚·博亚诺夫斯基 :
学习在没有任何监督的情况下在真实感环境中进行视觉导航。 CoRR公司 abs/2004.04954 ( 2020 )
2010 – 2019
2019 [第10条] 桑巴亚尔·苏赫巴托 , 爱德华·格雷夫 , 彼得亚·博亚诺夫斯基 , 阿尔曼·朱林 :
《变形金刚》中的自适应注意广度。 ACL(1) 2019 : 331-335 【c9】 爱德华·格雷夫 , 桑巴亚尔·苏赫巴托 , 彼得亚·博亚诺夫斯基 , 阿尔曼·朱林 :
通过分段边缘化训练混合语言模型。 ACL(1) 2019 : 1477-1482 【c8】 阿曼普雷特·辛格 , 图沙贾因 , 桑巴亚尔·苏赫巴托 :
学习何时在多智能体合作和竞争任务中进行大规模通信。 ICLR(海报) 2019 [i11] 桑巴亚尔·苏赫巴托 , 爱德华·格雷夫 , 彼得亚·博亚诺夫斯基 , 阿尔曼·朱林 :
《变形金刚》中的自适应注意广度。 CoRR公司 abs/1905.07799 ( 2019 ) [i10] 桑巴亚尔·苏赫巴托 , 爱德华·格雷夫 , 纪尧姆·兰普尔 , 埃尔维·杰古 , 阿尔曼·朱林 :
用持久记忆增强自我注意力。 CoRR公司 abs/1907.01470 ( 2019 ) 2018 【b1】 桑巴亚尔·苏赫巴托 :
智力要素:记忆、沟通和内在动机。 美国纽约大学, 2018 【c7】 桑巴亚尔·苏赫巴托 , 林泽民 , 伊利亚·科斯特里科夫 , 加布里埃尔·辛纳维 , 亚瑟·斯拉姆 , 罗布·弗格斯 :
通过非对称自我游戏实现内在动机和自动课程。 ICLR(海报) 2018 【c6】 张晓燕 , 桑巴亚尔·苏赫巴托 , 亚当·莱勒 , 亚瑟·斯拉姆 , 罗布·弗格斯 :
具有属性的组合规划。 ICML公司 2018 : 5837-5846 [i9] 张晓燕 , 亚当·莱勒 , 桑巴亚尔·苏赫巴托 , 罗布·弗格斯 , 亚瑟·斯拉姆 :
具有属性的可组合规划。 CoRR公司 abs/1803.00512 ( 2018 ) [i8] David Folqué , 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 琼·布鲁纳 :
使用算术和几何属性进行规划。 CoRR公司 abs/1809.02031 ( 2018 ) [i7] 桑巴亚尔·苏赫巴托 , 艾米莉·丹顿 , 亚瑟·斯拉姆 , 罗布·弗格斯 :
分层强化学习中通过自我游戏嵌入学习目标。 CoRR公司 abs/1811.09083 ( 2018 ) [i6] 阿曼普雷特·辛格 , 图沙贾因 , 桑巴亚尔·苏赫巴托 :
学习在多智能体协作和竞争任务中何时进行大规模沟通。 CoRR公司 abs/1812.09755 ( 2018 ) 2017 [i5] 桑巴亚尔·苏赫巴托 , 伊利亚·科斯特里科夫 , 亚瑟·斯拉姆 , 罗布·弗格斯 :
通过非对称自我游戏实现内在动机和自动课程。 CoRR公司 abs/1703.05407 ( 2017 ) 2016 【c5】 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 罗布·弗格斯 :
使用Backpropagation学习多智能体通信。 NIPS公司 2016 : 2244-2252 [i4] 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 罗布·弗格斯 :
使用Backpropagation学习多智能体通信。 CoRR公司 abs/1605.07736 ( 2016 ) 2015 【c4】 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 杰森·韦斯顿 , 罗布·弗格斯 :
端到端内存网络。 NIPS公司 2015 : 2440-2448 【c3】 桑巴亚尔·苏赫巴托 , 罗布·弗格斯 :
利用深度神经网络从噪声标签中学习。 ICLR(车间) 2015 [i3] 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 杰森·韦斯顿 , 罗布·弗格斯 :
弱监管内存网络。 CoRR公司 abs/1503.08895 ( 2015 ) [i2] 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 加布里埃尔·辛纳维 , Soumith Chintala公司 , 罗布·弗格斯 :
迷宫基地:从游戏中学习的沙盒。 CoRR公司 abs/1511.07401 ( 2015 ) [i1] 周伯雷 , 田远东 , 桑巴亚尔·苏赫巴托 , 亚瑟·斯拉姆 , 罗布·弗格斯 :
直观问答的简单基线。 CoRR公司 腹肌/1512.02167 ( 2015 ) 2013 【c2】 桑巴亚尔·苏赫巴托 , Takaki Makino先生 , 川崎爱原 :
自动筛选:学习从图像序列中改进图像特征的不变性。 ICLR(车间海报) 2013 2011 【c1】 桑巴亚尔·苏赫巴托 , Takaki Makino先生 , 川崎爱原 , Takashi Chikayama公司 :
用深度信念网络稳健地生成人体运动的动态模式。 ACML公司 2011 : 231-246