The Perils of Trial-and-Error Reward Design: Misdesign through Overfitting and Invalid Task Specifications

Serena Booth; W. Bradley Knox; Julie Shah; Scott Niekum; Peter Stone; Alessandro Allievi

doi:10.1609/aaai.v37i5.25733

作者

塞雷娜·布斯博世公司得克萨斯大学奥斯汀分校麻省理工学院CSAIL
W.布拉德利·诺克斯博世公司得克萨斯大学奥斯汀分校谷歌研究
朱莉沙阿麻省理工学院CSAIL
斯科特·尼库姆得克萨斯大学奥斯汀分校马萨诸塞大学阿默斯特分校
斯通得克萨斯大学奥斯汀分校索尼AI
亚历山德罗·阿列维博世公司得克萨斯大学奥斯汀分校

内政部：

https://doi.org/10.1609/aaai.v37i5.25733

关键词：

HAI:学习人类价值观和偏好，HAI:人在回路中的机器学习，HAI:Other Foundations of Humans&AI，ML:Auto-ML and Hyperparameter Tuning，ML:强化学习算法

摘要

在强化学习（RL）中，与任务的真实性能指标完全一致的奖励函数通常是稀疏的。例如，一个真正的任务指标可能在成功时编码奖励1，否则编码奖励0。这些真实任务指标的稀疏性会使它们很难学习，因此在实践中，它们经常被替代的密集奖励函数所取代。这些密集的奖励功能通常由专家通过特别的试错过程来设计。在这个过程中，专家手动搜索奖励函数，该函数提高了任务度量的性能，同时也使RL算法能够更快地学习。这个过程提出了一个问题，即相同的奖励函数是否对所有算法都是最优的，即奖励函数是否可以超出特定的算法。在本文中，我们研究了这种广泛但未经检验的试错奖励设计实践的后果。我们首先进行了计算实验，证实奖励函数可以超越学习算法及其超参数。然后，我们进行了一项对照观察研究，模拟专家从业者的奖励设计典型经验，在该研究中我们同样发现了奖励函数过度匹配的证据。我们还发现，专家奖励设计的典型方法——采用短视策略并权衡每个状态-动作对的相对优度——通过无效的任务规范导致错误设计，因为RL算法使用累积奖励而不是单个状态-动作配对的奖励作为优化目标。代码，数据：github.com/serenabooth/reward-design-perils

试错式奖励设计的风险：过度匹配和无效任务规范导致的错误设计

作者

内政部：

关键词：

摘要

下载

出版

如何引用

问题

章节

问询处

开发人

订阅