试错式奖励设计的风险:过度匹配和无效任务规范导致的错误设计 作者 塞雷娜·布斯 博世公司得克萨斯大学奥斯汀分校麻省理工学院CSAIL W.布拉德利·诺克斯 博世公司得克萨斯大学奥斯汀分校谷歌研究 朱莉沙阿 麻省理工学院CSAIL 斯科特·尼库姆 得克萨斯大学奥斯汀分校马萨诸塞大学阿默斯特分校 斯通 得克萨斯大学奥斯汀分校索尼AI 亚历山德罗·阿列维 博世公司得克萨斯大学奥斯汀分校 内政部: https://doi.org/10.1609/aaai.v37i5.25733 关键词: HAI:学习人类价值观和偏好,HAI:人在回路中的机器学习,HAI:Other Foundations of Humans&AI,ML:Auto-ML and Hyperparameter Tuning,ML:强化学习算法 摘要在强化学习(RL)中,与任务的真实性能指标完全一致的奖励函数通常是稀疏的。例如,一个真正的任务指标可能在成功时编码奖励1,否则编码奖励0。这些真实任务指标的稀疏性会使它们很难学习,因此在实践中,它们经常被替代的密集奖励函数所取代。这些密集的奖励功能通常由专家通过特别的试错过程来设计。在这个过程中,专家手动搜索奖励函数,该函数提高了任务度量的性能,同时也使RL算法能够更快地学习。这个过程提出了一个问题,即相同的奖励函数是否对所有算法都是最优的,即奖励函数是否可以超出特定的算法。在本文中,我们研究了这种广泛但未经检验的试错奖励设计实践的后果。我们首先进行了计算实验,证实奖励函数可以超越学习算法及其超参数。然后,我们进行了一项对照观察研究,模拟专家从业者的奖励设计典型经验,在该研究中我们同样发现了奖励函数过度匹配的证据。我们还发现,专家奖励设计的典型方法——采用短视策略并权衡每个状态-动作对的相对优度——通过无效的任务规范导致错误设计,因为RL算法使用累积奖励而不是单个状态-动作配对的奖励作为优化目标。代码,数据:github.com/serenabooth/reward-design-perils 下载 PDF格式 出版 2023-06-26 如何引用 Booth,S.、Knox,W.B.、Shah,J.、Niekum,S.,Stone,P.和Allevi,A.(2023年)。试错奖励设计的风险:因过度匹配和无效任务规范而导致的错误设计。AAAI人工智能会议记录,37(5), 5920-5929. https://doi.org/10.1609/aaai.v37i5.25733 更多引文格式 ACM公司 ACS公司 亚太地区 澳大利亚北卡罗来纳州 芝加哥 哈佛 电气与电子工程师协会 MLA公司 图拉宾语 温哥华 下载引文 尾注/佐特罗/门德利(RIS) BibTeX公司 问题 第37卷第5期:AAAI-23技术轨道5 章节 AAAI人类与AI技术跟踪