The EMPATHIC Framework for Task Learning from Implicit Human Feedback

Yuchen Cui; Qiping Zhang; Brad Knox; Alessandro Allievi; Peter Stone; Scott Niekum

从人类内隐反馈中学习任务的共情框架

崔宇晨、张启平、布拉德·诺克斯、亚历山德罗·阿列维、彼得·斯通、斯科特·尼库姆

2020年机器人学习会议记录，PMLR 155:604-6262021年。

摘要

手势、面部表情和发声等反应是人类在互动过程中提供的丰富、自然发生的信息渠道。机器人或其他代理可以利用对这种隐含的人类反馈的理解来提高其任务性能，而不会对人类造成任何损失。这种方法与基于演示、评论或其他需要注意和有意提供的指导的常见代理教学方法形成了对比。在本文中，我们首先定义了从人类内隐反馈中学习的一般问题，然后提出通过一个新的数据驱动框架EMPATHIC来解决这个问题。这种两阶段的方法包括：（1）将隐含的人类反馈映射到相关的任务统计数据，如奖励、最优性和优势；（2）使用这种映射来学习任务。我们实例化了所学映射的第一阶段和三个第二阶段评估。为此，我们收集了人类面部反应的数据集，同时受试者观察到代理对指定的训练任务执行次优策略。我们基于这些数据训练了一个深度神经网络，并证明了它的能力：（1）根据预先记录的人类面部反应推断训练任务中事件的相对奖赏等级；（2）利用活人面部反应改进训练任务中agent的策略；（3）转移到一个新的领域，在该领域中评估机器人操作轨迹。

引用本文

BibTeX公司

@会议记录{pmlr-v155-cui21a，title={从人类内隐反馈中学习任务的共情框架}，作者＝{崔、宇晨和张、奇平和诺克斯、布拉德和阿利耶维、亚历山德罗和斯通、彼得和尼库姆、斯科特}，booktitle={2020年机器人学习会议记录}，页数={604--626}，年份={2021}，编辑＝{Kober，Jens和Ramos，Fabio和Tomlin，Claire}，体积={155}，series={机器学习研究论文集}，月={11月16日--18日}，publisher={PMLR}，pdf={https://proceedings.mlr.press/v155/cui21a/cui21a.pdf},url={https://proceedings.mlr.press/v155/cui21a.html},摘要={手势、面部表情和发声等反应是人类在交互过程中提供的丰富、自然发生的信息渠道。机器人或其他代理可以利用对这种隐含的人类反馈的理解来提高其任务性能，而不会对人类造成任何损失。这种方法与常见的基于演示、评论或其他需要注意和有意提供的指导的agent教学方法。在本文中，我们首先定义了从人类内隐反馈中学习的一般问题，然后提出通过一个新的数据驱动框架EMPATHIC来解决这个问题。这种两阶段的方法包括：（1）将隐含的人类反馈映射到相关的任务统计数据，如奖励、最优性和优势；（2）使用这种映射来学习任务。我们实例化了所学映射的第一阶段和三个第二阶段评估。为此，我们收集了人类面部反应的数据集，同时受试者观察到代理对指定的训练任务执行次优策略。我们基于这些数据训练了一个深度神经网络，并证明了它的能力：（1）根据预先记录的人类面部反应推断训练任务中事件的相对奖赏等级；（2） 利用活人面部反应改进训练任务中agent的策略；（3）转移到一个新的领域，在该领域中评估机器人操作轨迹。}}

尾注

%0会议论文%T从人类内隐反馈中学习任务的情感框架%崔宇晨%张启平%布拉德·诺克斯%亚历山德罗·阿列维%彼得·斯通%斯科特·尼库姆%2020年机器人学习会议记录%C机器学习研究进展%2021年4月%E Jens Kober公司%E Fabio Ramos公司%E克莱尔·汤姆林%传真pmlr-v155-cui22a%我PMLR%第604页-266页%U型https://proceedings.mlr.press/v155/cui21a.html%第155页%手势、面部表情和发声等X反应是人类在互动过程中提供的丰富、自然发生的信息渠道。机器人或其他代理可以利用对这种隐含的人类反馈的理解来提高其任务性能，而不会对人类造成任何损失。这种方法与基于演示、评论或其他需要注意和有意提供的指导的常见代理教学方法形成了对比。在本文中，我们首先定义了从人类内隐反馈中学习的一般问题，然后提出通过一个新的数据驱动框架EMPATHIC来解决这个问题。这种两阶段的方法包括：（1）将隐含的人类反馈映射到相关的任务统计数据，如奖励、最优性和优势；（2）使用这种映射来学习任务。我们实例化了所学映射的第一阶段和三个第二阶段评估。为此，我们收集了人类面部反应的数据集，同时受试者观察到代理对指定的训练任务执行次优策略。我们基于这些数据训练了一个深度神经网络，并证明了它的能力：（1）根据预先记录的人类面部反应推断训练任务中事件的相对奖赏等级；（2） 利用活人面部反应改进训练任务中agent的策略；（3）转移到一个新的领域，在该领域中评估机器人操作轨迹。

亚太地区

Cui，Y.、Zhang，Q.、Knox，B.、Allievi，A.、Stone，P.和Niekum，S.（2021）。从人类内隐反馈中学习任务的情感框架。2020年机器人学习会议记录，英寸机器学习研究进展155:604-626网址：https://proceedings.mlr.press/v155/cui21a.html。

从人类内隐反馈中学习任务的共情框架

摘要

引用本文

相关材料