W.布拉德利·诺克斯
人员信息
附属: 美国德克萨斯大学奥斯汀分校
SPARQL查询
优化列表
2020年–今天
2024 [j7] W.布拉德利·诺克斯 , 斯蒂芬妮·哈吉斯·凯塞尔 , 塞雷娜·布斯 , 斯科特·尼库姆 , 斯通 , 亚历山德罗·加布里埃尔·阿列维 :
人类学习奖励函数的偏好模型。 事务处理。 机器。 学习。 物件。 2024 ( 2024 ) [公元26年] W.布拉德利·诺克斯 , 斯蒂芬·哈吉斯·凯塞尔 , Sigurdur O.Adalgeirsson先生 , 塞雷娜·布斯 , 安卡·D·德拉甘 , 斯通 , 斯科特·尼库姆 :
从偏好中学习最佳优势并将其误认为是奖励。 AAAI公司 2024 : 10066-10073 [公元25年] W.布拉德利·诺克斯 , 亚历山德罗·阿利耶维 , 霍尔格·班扎夫 , 费利克斯·施密特 , 斯通 :
自动驾驶奖励(错误)设计(摘要重印)。 AAAI公司 2024 : 22702 [公元24年] 乔伊·海纳 , 拉斐尔·拉斐洛夫 , 哈拉希·西科奇 , 切尔西-芬兰人 , 斯科特·尼库姆 , W.布拉德利·诺克斯 , 多尔萨·萨迪格 :
对比偏好学习:从人的反馈中学习,而不是强化学习。 ICLR公司 2024 [i6] 拉斐尔·拉斐洛夫 , 亚斯旺斯·奇特普 , 瑞恩·帕克 , 哈拉希·西科奇 , 乔伊·海纳 , W.布拉德利·诺克斯 , 切尔西-芬兰人 , 斯科特·尼库姆 :
直接对准算法中奖励模型过度优化的比例律。 CoRR公司 abs/2406.02900 ( 2024 ) 2023 [j6] W.布拉德利·诺克斯 , 亚历山德罗·阿利耶维 , 霍尔格·班扎夫 , 费利克斯·施密特 , 斯通 :
自动驾驶奖励(错误)设计。 Artif公司。 智力。 316 : 103829 ( 2023 ) 【c23】 塞雷娜·布斯 , W.布拉德利·诺克斯 , 朱莉沙阿 , 斯科特·尼库姆 , 斯通 , 亚历山德罗·阿利耶维 :
试错奖励设计的风险:因过度匹配和无效任务规范而导致的错误设计。 AAAI公司 2023 : 5920-5929 [i5] W.布拉德利·诺克斯 , 斯蒂芬·哈吉斯·凯塞尔 , Sigurdur O.Adalgeirsson先生 , 塞雷娜·布斯 , 安卡·D·德拉甘 , 斯通 , 斯科特·尼库姆 :
从偏好中学习最佳优势,并将其误认为是奖励。 CoRR公司 abs/2310.02456 ( 2023 ) [i4] 乔伊·海纳 , 拉斐尔·拉斐洛夫 , 哈拉希·西科奇 , 切尔西-芬兰人 , 斯科特·尼库姆 , W.布拉德利·诺克斯 , 多尔萨·萨迪格 :
对比偏好学习:从没有RL的人的反馈中学习。 CoRR公司 abs/2310.13639 ( 2023 ) 2022 [公元22年] 卡西迪·J·柯蒂斯 , Sigurdur O.Adalgeirsson先生 , 霍丽娅·斯特凡·西尔达尔 , 彼得·麦克德莫特 , J.D.Velásquez , W.布拉德利·诺克斯 , 阿隆索·马丁内斯 , 德伊·加兹特卢蒙迪 , 诺贝托·阿德里安·古西 , 刘天宇 , 帕拉什·南迪 :
走向自主动画角色的可信表演。 金属惰性气体(MIG) 2022 : 1:1-1:15 [i3] W.布拉德利·诺克斯 , 斯蒂芬·哈吉斯·凯塞尔 , 塞雷娜·布斯 , 斯科特·尼库姆 , 斯通 , 亚历山德罗·阿利耶维 :
人类学习奖励函数的偏好模型。 CoRR公司 abs/2206.02231 ( 2022 ) 2021 【c21】 崔宇晨 , 张奇平 , 萨希勒监狱 , 亚历山德罗·阿利耶维 , 斯通 , 斯科特·尼库姆 , W.布拉德利·诺克斯 :
演示从人类内隐反馈中进行任务学习的共情框架。 AAAI公司 2021 : 16017-16019 [i2] W.布拉德利·诺克斯 , 亚历山德罗·阿利耶维 , 霍尔格·班扎夫 , 费利克斯·施密特 , 斯通 :
自动驾驶的奖励(错误)设计。 CoRR公司 abs/2104.13906 ( 2021 ) 2020 [公元20年] 崔宇晨 , 张奇平 , W.布拉德利·诺克斯 , 亚历山德罗·阿利耶维 , 斯通 , 斯科特·尼库姆 :
从人类内隐反馈中学习任务的情感框架。 CoRL公司 2020 : 604-626 [i1] 崔宇晨 , 张奇平 , 亚历山德罗·阿利耶维 , 斯通 , 斯科特·尼库姆 , W.布拉德利·诺克斯 :
从人类内隐反馈中学习任务的情感框架。 CoRR公司 abs/2009.13649 ( 2020 )
2010 – 2019
2018 [j5] 李广良 , 西蒙·怀特森 , W.布拉德利·诺克斯 , 海利·洪 :
通过社会互动从人类奖励中高效学习代理。 自动。 代理多代理系统。 32 ( 1 ) : 1-25 ( 2018 ) 2016 [j4] 李广良 , 西蒙·怀特森 , W.布拉德利·诺克斯 , 海利·洪 :
利用信息行为提高参与度,同时从人类奖励中学习。 自动。 Agent多Agent系统。 30 ( 5 ) : 826-848 ( 2016 ) [第19条] W.布拉德利·诺克斯 , 塞缪尔·斯波尔丁 , 辛西娅·布雷泽尔 :
向向导学习:通过远程操作演示编程社交互动(扩展摘要)。 美国原子能机构 2016 : 1309-1310 2015 [j3] W.布拉德利·诺克斯 , 斯通 :
从人类奖励中构建强化学习:奖励积极性、时间折扣、偶然性和绩效。 Artif公司。 智力。 225 : 24-50 ( 2015 ) 2014 [注2] Saleema Amershi公司 , 玛雅·恰克马克 , W.布拉德利·诺克斯 , 托德·库列萨 :
人民的力量:人类在交互式机器学习中的作用。 AI磁。 35 ( 4 ) : 105-120 ( 2014 ) [c18] 李广良 , 海利·洪 , 西蒙·怀特森 , W.布拉德利·诺克斯 :
利用社交网络激励人们培训代理人。 美国原子能机构 2014 : 1571-1572 [c17] 李广良 , 海莉·洪 , 西蒙·怀特森 , W.布拉德利·诺克斯 :
从人类奖励中学习可以从社会竞争反馈中受益。 ICDL-EPIROB接口 2014 : 93-100 2013 [第16条] 李广良 , 海利·洪 , 西蒙·怀特森 , W.布拉德利·诺克斯 :
使用信息行为来增加驯服框架中的参与度。 美国原子能机构 2013 : 909-916 [第15条] W.布拉德利·诺克斯 , 斯通 , 辛西娅·布雷泽尔 :
具有人工反馈的教学代理:TAMER框架的演示。 IUI伴侣 2013 : 65-66 [第14条] Saleema Amershi公司 , 玛雅·恰克马克 , W.布拉德利·诺克斯 , 托德·库莱斯扎 , 刘泰莎(Tessa Lau) :
IUI交互式机器学习研讨会。 IUI伴侣 2013 : 121-124 [第13条] W.布拉德利·诺克斯 , 斯通 :
从人类产生的奖励中非短视地学习。 工业联合会 2013 : 191-202 [第12条] W.布拉德利·诺克斯 , 斯通 , 辛西娅·布雷泽尔 :
通过人类反馈训练机器人:案例研究。 ICSR公司 2013 : 460-470 2012 [j1] W.布拉德利·诺克斯 , 布莱恩·格拉斯 , 布拉德利·C·爱 , W.托德·马多克斯 , 斯通 :
人类如何教代理——一个新的实验视角。 国际社会机器人学杂志 4 ( 4 ) : 409-421 ( 2012 ) [第11条] W.布拉德利·诺克斯 , 斯通 :
从人类和MDP同时奖励中强化学习。 美国原子能机构 2012 : 475-482 [第10条] W.布拉德利·诺克斯 , 斯通 :
从人类奖励中强化学习:情节任务中的折扣。 RO-MAN公司 2012 : 878-885 2011 【c9】 W.布拉德利·诺克斯 , 亚当·布拉德利·塞塔彭 , 斯通 :
山地车中人的反馈强化学习。 AAAI春季研讨会:帮助我帮助你:弥合人与代理协作的差距 2011 【c8】 A.罗斯·奥托 , W.布拉德利·诺克斯 , 布拉德利·C·爱 , 塞缪尔·格什曼 , 耶尔·尼夫 , 达雷尔·A·沃西 , W.托德·马多克斯 , 贾里德·霍塔林(Jared M.Hotaling) , 杰罗姆·R·巴斯梅耶 , 理查德·希夫林 :
探索开发困境的计算、神经科学和寿命展望。 CogSci公司 2011 2010 【c7】 W.布拉德利·诺克斯 , 斯通 :
将手动反馈与后续MDP奖励信号相结合,以进行强化学习。 美国原子能机构 2010 : 5-12 【c6】 W.布拉德利·诺克斯 , 斯通 :
通过交互式造型训练俄罗斯方块代理:TAMER框架的演示。 美国原子能机构 2010 : 1767-1768
2000 – 2009
2009 【c5】 W.布拉德利·诺克斯 , 伊恩·法塞尔 , 斯通 :
创建人形代理的设计原则。 AAAI春季研讨会:向人类教师学习的代理人 2009 : 79-86 【c4】 W.布拉德利·诺克斯 , 斯通 :
通过人体强化的相互作用成型剂:TAMER框架。 K-盖 2009 : 9-16 2008 【c3】 W.布拉德利·诺克斯 , Juhyun Lee公司 , 斯通 :
赛格威机器人的人识别:UT奥斯汀别墅的视频 Robocup@主页 2007年决赛展示。 ICRA公司 2008 : 1785-1786 [c2] W.布拉德利·诺克斯 , 李朱铉 , 斯通 :
赛格威基地的国内互动。 机器人世界杯足球锦标赛 2008 : 519-531 2006 【c1】 格雷戈里·库尔曼 , 威廉·诺克斯 , 斯通 :
了解你的敌人:冠军机器人杯教练经纪人。 AAAI公司 2006 : 1463-1468