从人类内隐反馈中演示任务学习的共情框架

作者

  • 崔宇晨 德克萨斯大学奥斯汀分校
  • 张奇平 德克萨斯大学奥斯汀分校
  • 萨希勒监狱 德克萨斯大学奥斯汀分校
  • 亚历山德罗·阿利耶维 Robert Bosch有限责任公司德克萨斯大学奥斯汀分校
  • 斯通 德克萨斯大学奥斯汀分校
  • 斯科特·尼库姆 德克萨斯大学奥斯汀分校
  • W.布拉德利·诺克斯 Robert Bosch有限责任公司德克萨斯大学奥斯汀分校

内政部:

https://doi.org/10.1609/aaai.v35i18.17998

关键词:

交互式学习、人机交互、强化学习

摘要

手势、面部表情和发声等反应是人类在互动过程中提供的丰富、自然发生的信息渠道。代理可以利用对这种隐含的人的反馈的理解来提高其任务性能,而不会对人造成任何损失。这种方法与基于演示、评论或其他需要注意和有意提供的指导的常见代理教学方法形成了对比。在这项工作中,我们展示了一种新的数据驱动框架,用于从人类的内隐反馈中学习,即同情。这种两阶段的方法包括:(1)将隐含的人类反馈映射到相关的任务统计数据,如奖励、最优性和优势;(2)使用这种映射来学习任务。我们实例化了所学映射的第一阶段和三个第二阶段评估。为此,我们收集了一个人类面部反应数据集,同时参与者观察到一个代理为指定的训练任务执行次优策略。我们基于这些数据训练了一个深度神经网络,并证明了它的能力:(1)根据预先记录的人类面部反应推断训练任务中事件的相对奖赏等级;(2) 利用活人面部反应改进训练任务中agent的策略;(3)转移到一个新的领域,在该领域中评估机器人操作轨迹。在视频中,我们重点演示了EMPATHIC实例化的在线学习能力。

下载

出版

2021-05-18

如何引用

Cui,Y.、Zhang,Q.、Jain,S.、Allevi,A.、Stone,P.、Niekum,S.和Knox,W.B.(2021年)。演示从人类内隐反馈中进行任务学习的共情框架。AAAI人工智能会议记录,35(18), 16017-16019. https://doi.org/10.1609/aaai.v35i18.17998

问题

章节

AAAI示范轨道