ALFRED-L: Investigating the Role of Language for Action Learning in Interactive Visual Environments

Arjun Akula; Spandana Gella; Aishwarya Padmakumar; Mahdi Namazifar; Mohit Bansal; Jesse Thomason; Dilek Hakkani-Tur

doi:10.18653/v1/2022.emnlp-main.636

阿尔弗雷德-L（左）：调查互动视觉环境中行动学习语言的作用

阿尔琼·阿库拉,斯潘达娜·盖拉,艾什瓦亚·帕德马库玛,马赫迪·纳马齐法尔,莫希特·班萨尔,杰西·托马森,Dilek Hakkani-Tur（迪列克·哈卡尼·图尔）

摘要

具体化视觉和语言任务完成需要具体化代理来解释自然语言指令和以自我为中心的视觉观察，以便在环境中导航和交互。在这项工作中，我们研究了ALFRED，这是一个具有挑战性的具体任务完成基准，目的是深入了解模型如何有效地利用语言。我们发现有证据表明，在此基准上训练的序列到序列和基于变压器的模型对输入语言指令的变化不够敏感。接下来，我们构建了一个新的测试分割——ALFRED-L，以测试ALFRED模型是否可以推广到训练中没有看到的任务结构，这些任务结构直觉上需要与ALFRED中要求的相同类型的语言理解。对ALFRED-L现有模型的评估表明，（a）模型过度依赖于在典型ALFRED轨迹中访问对象的顺序，无法适应此顺序的修改，以及（b）使用附加的增强轨迹训练的模型能够更好地适应输入语言指令中的这种变化。

选集ID：: 2022.emnlp-main.636年
体积：: 2022年自然语言处理实证方法会议记录
月份：: 十二月
年份：: 2022
地址：: 阿拉伯联合酋长国阿布扎比
编辑：: 约夫·戈德伯格,佐尔尼萨·科扎列娃,张岳（音）
地点：: EMNLP公司
SIG公司：
出版商：: 计算语言学协会
注：
页：: 9369–9378
语言：
网址：: https://aclantology.org/2022.emnlp-main.636
内政部：: 10.18653/v1/2022.emnlp-main.636
比比键：
引用（ACL）：: Arjun Akula、Spandana Gella、Aishwarya Padmakumar、Mahdi Namazifar、Mohit Bansal、Jesse Thomason和Dilek Hakkani-Tur。2022ALFRED-L：研究互动视觉环境中语言对行动学习的作用.英寸2022年自然语言处理实证方法会议记录，第9369–9378页，阿拉伯联合酋长国阿布扎比。计算语言学协会。
引用（非正式）：: ALFRED-L：研究互动视觉环境中语言对行动学习的作用（Akula等人，EMNLP 2022）
复制引文：
PDF格式：: https://aclantology.org/2022.emnlp-main.636.pdf
软件：: 2022.emnlp-main.636.软件.zip

PDF格式引用搜索软件