托马斯·科巴克
人员信息
SPARQL查询
优化列表
2020年–今天
2024 【j4】 安吉莉卡·陈 , 杰雷米·舍勒 , 乔恩·安德·坎波斯 , 托马斯·科巴克 , 陈俊勋 , 塞缪尔·鲍曼 , Kyunghyun Cho(赵京贤) , 伊桑·佩雷斯 :
从自然语言反馈中学习。 事务处理。 机器。 学习。 物件。 2024 ( 2024 ) [第11条] 卢卡斯·伯格伦德 , 梅格·唐 , 马克西米利安·考夫曼 , 米基塔·巴列斯尼 , 阿萨·库珀·斯蒂克兰 , 托马斯·科巴克 , 欧文·埃文斯 :
逆转诅咒:受过“A是B”训练的LLM无法学习“B是A”。 ICLR公司 2024 [第10条] Dongyoung围棋 , 托马斯·科巴克 , Germanán Kruszewski先生 , 乔斯·罗森 , 马克·戴米特曼 :
用于对齐LM的成分偏好模型。 ICLR公司 2024 【c9】 姆里南克·夏尔马 , 梅格·唐 , 托马斯·科巴克 , 大卫·杜维诺 , 阿曼达·阿斯克尔 , 塞缪尔·鲍曼 , 艾辛·杜尔姆斯 , 扎克·哈特菲尔德-道奇 , 斯科特·约翰斯顿 , 肖娜·克拉维克 , 蒂莫西·麦克斯韦 , 萨姆·麦肯迪什 , 卡迈勒·恩杜塞 , 奥利弗·劳什 , 尼古拉斯·希弗 , 大雁 , 米兰达·张 , 伊桑·佩雷斯 :
理解语言模型中的系统性。 ICLR公司 2024 [第23条] 马蒂亚斯·格斯特格拉瑟 , 瑞兰·谢弗 , Apratim戴 , 拉斐尔·拉斐洛夫 , 亨利·斯莱特 , 约翰·休斯 , 托马斯·科巴克 , 拉贾什里·阿格拉瓦尔 , Dhruv Pai公司 , 安德烈·格罗莫夫 , 丹尼尔·罗伯茨 , 杨迪(Diyi Yang) , 大卫·多诺霍 , 桑米·科耶霍 :
模型崩溃不可避免吗? 通过积累真实和合成数据打破递归的诅咒。 CoRR公司 abs/2404.01413 ( 2024 ) [i22] 安瓦尔 , 阿布哈尔·萨帕罗夫 , 哈维尔·兰多 , 丹尼尔·帕莱卡 , Miles Turpin公司 , 彼得·哈斯 , Ekdeep Singh Lubana公司 , 埃里克·詹纳 , 斯蒂芬·卡斯珀 , 奥利弗·索尔布特 , 本杰明·埃德尔曼 , 张兆伟 , 马里奥·古特 , 安东·科利内克 , 何塞·埃尔南德斯·奥拉洛 , 刘易斯·哈蒙德 , 埃里克·毕格罗 , 亚历山大·潘 , 劳罗·兰戈斯科 , 托马斯·科巴克 , 张海迪 , 中瑞琪(Ruiqi Zhong) , Seán Ohéigeartaigh先生 , 加布里埃尔·里奇亚 , 朱利奥·科尔西 , 陈幼坚 , 马库斯·安德荣格 , 莉莉安·爱德华兹 , 本吉奥 , 陈丹琪 , 塞缪尔·奥尔巴尼 , 特根·马哈拉吉 , 雅各布·N·福斯特 , 弗洛里安电车公司 , 呵呵呵呵 , 阿图萨·卡西尔扎德 , 蔡叶进(Yejin Choi) , 大卫·克鲁格 :
确保大型语言模型的一致性和安全性方面的基本挑战。 CoRR公司 腹肌/2404.9932 ( 2024 ) 【i21】 托马斯·科巴克 :
使语言模型与人类偏好保持一致。 CoRR公司 abs/2404.12150 ( 2024 ) 2023 [j3] 托马斯·科巴克 :
自我组织、(M,R)系统和制定认知科学。 适应。 行为。 31 ( 1 ) : 35-49 ( 2023 ) [注2] 斯蒂芬·卡斯珀 , 桑德·戴维斯 , 克劳迪娅·施 , 托马斯·克伦德·吉尔伯特 , 杰雷米·舍勒 , 哈维尔·兰多 , 雷切尔·弗里德曼 , 托马斯·科巴克 , 大卫·林德纳 , 佩德罗·弗雷尔 , Tony Tong Wang(托尼·王) , 萨缪尔·马克斯 , 夏贝尔·拉法·塞格里 , 米卡·卡罗尔 , 彭安迪(Andi Peng) , 菲利普·J·K·克里斯托弗森 , 梅胡尔·达马尼 , 斯图尔特·斯洛克姆 , 安瓦尔 , 阿南德·西塔哈兰詹(Anand Sittharanjan) , 马克斯·纳多 , 埃里克·米绍德 , 雅各布·普法 , 德米特里·克拉申尼科夫 , Xin Chen(新晨) , Lauro Langosco公司 , 彼得·哈斯 , 埃尔登·比伊克 , 安卡·D·德拉甘 , 大卫·克鲁格 , 多尔萨·萨迪格 , 迪伦·哈德菲尔德-梅内尔 :
从人类反馈中强化学习的公开问题和基本局限性。 事务处理。 机器。 学习。 物件。 2023 ( 2023 ) [j1] 伊恩·麦肯齐 , 亚历山大·利日科夫 , 迈克尔·彼勒 , 艾丽西娅·帕里什 , 亚伦·米勒 , 阿米亚·帕布 , 尤安·麦克莱恩 , 亚伦·柯特兰 , 亚历克西斯·罗斯 , Alisa Liu(Alisa刘) , 安德鲁·格里采夫斯基 , 丹尼尔·乌尔加夫特 , 德里克·考夫曼 , 加布里埃尔·里奇亚 , 刘嘉诚 , 乔·卡瓦纳 , 马克斯·韦斯 , 黄思聪 , 漂浮机器人 , 汤姆·曾荫权 , 托马斯·科巴克 , 沈旭东 , 张玉辉 , 周正平 , Najoung Kim公司 , 塞缪尔·鲍曼 , 伊桑·佩雷斯 :
反向缩放:当尺寸越大越好时。 事务处理。 机器。 学习。 物件。 2023 ( 2023 ) 【c8】 Dongyoung围棋 , 托马斯·科巴克 , Germanán Kruszewski先生 , 乔斯·罗岑 , Nahyeon Ryu公司 , 马克·戴米特曼 :
通过f-发散最小化将语言模型与首选项对齐。 ICML公司 2023 : 11546-11583 [c7] 托马斯·科巴克 , 克建石 , 安吉莉卡·陈 , 拉西卡·维纳亚克·巴莱罗 , 克里斯托弗·巴克利 , 贾森·彭 , 塞缪尔·鲍曼 , 伊桑·佩雷斯 :
用人类偏好预设语言模型。 ICML公司 2023 : 17506-17533 [i20] Dongyoung围棋 , 托马斯·科巴克 , Germanán Kruszewski先生 , 乔斯·罗森 , Nahyeon Ryu公司 , 马克·戴米特曼 :
通过f-发散最小化将语言模型与首选项对齐。 CoRR公司 abs/2302.08215 ( 2023 ) [i19] 托马斯·科巴克 , 克建石 , Angelica Chen(陈安琪) , 拉西卡·巴莱罗 , 克里斯托弗·巴克利 , Jason Phang(杰森·潘) , 塞缪尔·鲍曼 , 伊桑·佩雷斯 :
用人类偏好预设语言模型。 CoRR公司 abs/2302.08582 ( 2023 ) [i18] 朱利安·祖贝克 , 托马斯·科巴克 , 乔安娜·拉扎泽克·莱昂纳迪 :
传播中的符号涌现模型:概念回顾和避免局部极小的指南。 CoRR公司 abs/2303.04544 ( 2023 ) [i17] Angelica Chen(陈安琪) , 杰雷米·舍勒 , 托马斯·科巴克 , 乔恩·安德·坎波斯 , 陈俊勋 , 塞缪尔·鲍曼 , Kyunghyun Cho(赵京贤) , 伊桑·佩雷斯 :
通过自然语言反馈训练改进代码生成。 CoRR公司 abs/2303.16749 ( 2023 ) [i16] 杰雷米·舍勒 , 乔恩·安德·坎波斯 , 托马斯·科巴克 , 陈俊勋 , Angelica Chen(陈安琪) , Kyunghyun Cho(赵京贤) , 伊桑·佩雷斯 :
使用大规模语言反馈训练语言模型。 CoRR公司 abs/2303.16755 ( 2023 ) 【i15】 伊恩·麦肯齐 , 亚历山大·利日科夫 , 迈克尔·彼勒 , 艾丽西娅·帕里什 , 亚伦·米勒 , 阿梅亚大教堂 , 尤安·麦克莱恩 , 亚伦·柯特兰 , 亚历克西斯·罗斯 , Alisa Liu(Alisa刘) , 安德鲁·格里茨夫斯基 , 丹尼尔·沃尔加夫特 , 德里克·考夫曼 , 加布里埃尔·里奇亚 , 刘嘉诚 , 乔·卡瓦纳 , 马克斯·韦斯 , 黄思聪 , 漂浮机器人 , 汤姆·曾荫权 , 托马斯·科巴克 , 沈旭东 , 张玉辉 , 周正平 , Najoung Kim公司 , 塞缪尔·鲍曼 , 伊桑·佩雷斯 :
反向缩放:当尺寸越大越好时。 CoRR公司 abs/2306.09479 ( 2023 ) [第14条] 斯蒂芬·卡斯珀 , 桑德·戴维斯 , 克劳迪娅·施 , 托马斯·克伦德·吉尔伯特 , 杰雷米·舍勒 , 哈维尔·兰多 , 雷切尔·弗里德曼 , 托马斯·科巴克 , 大卫·林德纳 , 佩德罗·弗雷尔 , Tony Tong Wang(托尼·王) , 萨缪尔·马克斯 , 夏贝尔·拉法·塞格里 , 米卡·卡罗尔 , 彭安迪(Andi Peng) , 菲利普·J·K·克里斯托弗森 , 梅胡尔·达马尼 , 斯图尔特·斯洛克姆 , 安瓦尔 , 阿南德·西塔哈兰詹(Anand Sittharanjan) , 马克斯·纳多 , 埃里克·米绍德 , 雅各布·普法 , 德米特里·克拉申尼科夫 , Xin Chen(新晨) , 劳罗·兰戈斯科 , 彼得·哈斯 , 埃尔登·比伊克 , 安卡·D·德拉甘 , 大卫·克鲁格 , 多尔萨·萨迪格 , 迪伦·哈德菲尔德-梅内尔 :
从人类反馈中强化学习的公开问题和基本局限性。 CoRR公司 abs/2307.15217 ( 2023 ) [i13] 卢卡斯·伯格伦德 , 阿萨·库珀·斯蒂克兰 , 米基塔·巴莱斯尼 , 马克西米利安·考夫曼 , 梅格·唐 , 托马斯·科巴克 , 丹尼尔·科科塔基洛 , 欧文·埃文斯 :
断章取义:关于测量LLM中的情境意识。 CoRR公司 abs/2309.00667 ( 2023 ) [i12] 卢卡斯·伯格伦德 , 梅格·唐 , 马克西米利安·考夫曼 , 米基塔·巴列斯尼 , 阿萨·库珀·斯蒂克兰 , 托马斯·科巴克 , 欧文·埃文斯 :
逆转诅咒:受过“A是B”训练的LLM无法学习“B是A”。 CoRR公司 abs/2309.12288 ( 2023 ) [i11] Dongyoung围棋 , 托马斯·科巴克 , Germanán Kruszewski先生 , 乔斯·罗森 , 马克·戴米特曼 :
用于对齐LM的成分偏好模型。 CoRR公司 abs/2310.13011 ( 2023 ) [i10] 姆里南克·夏尔马 , 梅格·唐 , 托马斯·科巴克 , 大卫·杜维诺 , 阿曼达·阿斯克尔 , 塞缪尔·鲍曼 , 牛顿·程 , 埃辛·杜尔姆斯 , 扎克·哈特菲尔德-道奇 , 斯科特·约翰斯顿 , 肖娜·克拉维克 , 蒂莫西·麦克斯韦 , 萨姆·麦肯迪什 , 卡迈勒·恩杜塞 , 奥利弗·劳什 , 尼古拉斯·希弗 , 大雁 , 米兰达·张 , 伊桑·佩雷斯 :
理解语言模型中的系统性。 CoRR公司 abs/2310.13548 ( 2023 ) 2022 【c6】 托马斯·科巴克 , 伊桑·佩雷斯 , 克里斯托弗·巴克利 :
带有KL惩罚的RL更好地被视为贝叶斯推理。 EMNLP(调查结果) 2022 : 1083-1091 【c5】 托马斯·科巴克 , 哈迪·埃尔萨哈 , Germanán Kruszewski先生 , 马克·戴米特曼 :
控制条件语言模型而不产生灾难性遗忘。 ICML公司 2022 : 11499-11528 【c4】 托马斯·科巴克 , 哈迪·埃尔萨哈 , Germanán Kruszewski先生 , 马克·戴米特曼 :
无灾难性遗忘微调语言模型的强化学习和分布匹配。 NeurIPS公司 2022 [第九章] 托马斯·科巴克 , 伊桑·佩雷斯 , 克里斯托弗·巴克利 :
带有KL惩罚的RL更好地被视为贝叶斯推理。 CoRR公司 abs/2205.11275 ( 2022 ) [i8] 托马斯·科巴克 , 哈迪·埃尔萨哈 , Germanán Kruszewski先生 , 马克·戴米特曼 :
无灾难性遗忘微调语言模型的强化学习和分布匹配。 CoRR公司 abs/2206.00761 ( 2022 ) 2021 【c3】 卢卡斯·库辛斯基 , 托马斯·科巴克 , 帕维尔·科洛齐(Pawel Kolodziej) , 彼得罗·米洛斯 :
噪音的催化作用和归纳偏见在合成传播中的必要性。 NeurIPS公司 2021 : 23075-23088 [i7] 托马斯·科巴克 , 哈迪·埃尔萨哈 , 马克·戴米特曼 , Germanán Kruszewski先生 :
编译约束下基于能量的代码生成模型。 CoRR公司 abs/2106.04985 ( 2021 ) [i6] 卢卡斯·库辛斯基 , 托马斯·科巴克 , 帕维尔·科洛齐(Pawel Kolodziej) , 彼得罗·米洛斯 :
噪音的催化作用和归纳偏见在合成传播中的必要性。 CoRR公司 abs/2111.06464 ( 2021 ) [i5] 托马斯·科巴克 , 哈迪·埃尔萨哈 , Germanán Kruszewski先生 , 马克·戴米特曼 :
使用分布策略渐变控制条件语言模型。 CoRR公司 abs/2112.00791 ( 2021 ) 2020 【c2】 Krzysztof Glówka公司 , 米查尔·尼科尔斯基 , 乔安娜·维佐瓦塔 , 托马斯·科巴克 , 乔安娜·拉扎泽克·莱昂纳尔迪 , 朱利安·祖贝克 :
以行动为基础的作文传播的出现。 CogSci公司 2020 [i4] 托马斯·科巴克 , 朱利安·祖贝克 , 乔安娜·拉扎泽克·莱昂纳尔迪 :
测量紧急通信中的非平凡成分。 CoRR公司 abs/2010.15058 ( 2020 )
2010 – 2019
2019 [i3] 雷纳德·科泽尼奥斯基 , 拉斐尔·罗尔钦斯基 , Przemyslaw Sadownik公司 , 托马斯·科巴克 , 马金·莫泽科 :
利用无监督预训练和自动特征工程进行波兰语中低源仇恨语音检测。 CoRR公司 abs/1906.09325 ( 2019 ) [i2] 托马斯·科巴克 , 朱利安·祖贝克 , 卢卡斯·库辛斯基 , 彼得·米洛斯 , 乔安娜·拉扎泽克·莱昂纳迪 :
通过模板传递,以发展为动力出现作曲交流。 CoRR公司 abs/1910.06079 ( 2019 ) 2017 【c1】 托马斯·科巴克 , 保丽娜·扎克 :
波兰依赖树库上短语级情感分类的精细调整树LSTM。 LCT公司 2017 : 31-42 [i1] 托马斯·科巴克 , 波琳娜·扎克 :
微调Tree-LSTM,用于波兰依赖树库上的短语级情感分类。 提交PolEval任务2。 CoRR公司 abs/1711.01985 ( 2017 )