试错式奖励设计的风险:过度匹配和无效任务规范导致的错误设计

作者

  • 塞雷娜·布斯 博世公司得克萨斯大学奥斯汀分校麻省理工学院CSAIL
  • W.布拉德利·诺克斯 博世公司得克萨斯大学奥斯汀分校谷歌研究
  • 朱莉沙阿 麻省理工学院CSAIL
  • 斯科特·尼库姆 得克萨斯大学奥斯汀分校马萨诸塞大学阿默斯特分校
  • 斯通 得克萨斯大学奥斯汀分校索尼AI
  • 亚历山德罗·阿列维 博世公司得克萨斯大学奥斯汀分校

内政部:

https://doi.org/10.1609/aaai.v37i5.25733

关键词:

HAI:学习人类价值观和偏好,HAI:人在回路中的机器学习,HAI:Other Foundations of Humans&AI,ML:Auto-ML and Hyperparameter Tuning,ML:强化学习算法

摘要

在强化学习(RL)中,与任务的真实性能指标完全一致的奖励函数通常是稀疏的。例如,一个真正的任务指标可能在成功时编码奖励1,否则编码奖励0。这些真实任务指标的稀疏性会使它们很难学习,因此在实践中,它们经常被替代的密集奖励函数所取代。这些密集的奖励功能通常由专家通过特别的试错过程来设计。在这个过程中,专家手动搜索奖励函数,该函数提高了任务度量的性能,同时也使RL算法能够更快地学习。这个过程提出了一个问题,即相同的奖励函数是否对所有算法都是最优的,即奖励函数是否可以超出特定的算法。在本文中,我们研究了这种广泛但未经检验的试错奖励设计实践的后果。我们首先进行了计算实验,证实奖励函数可以超越学习算法及其超参数。然后,我们进行了一项对照观察研究,模拟专家从业者的奖励设计典型经验,在该研究中我们同样发现了奖励函数过度匹配的证据。我们还发现,专家奖励设计的典型方法——采用短视策略并权衡每个状态-动作对的相对优度——通过无效的任务规范导致错误设计,因为RL算法使用累积奖励而不是单个状态-动作配对的奖励作为优化目标。代码,数据:github.com/serenabooth/reward-design-perils

下载

出版

2023-06-26

如何引用

Booth,S.、Knox,W.B.、Shah,J.、Niekum,S.,Stone,P.和Allevi,A.(2023年)。试错奖励设计的风险:因过度匹配和无效任务规范而导致的错误设计。AAAI人工智能会议记录,37(5), 5920-5929. https://doi.org/10.1609/aaai.v37i5.25733

问题

章节

AAAI人类与AI技术跟踪