ACT公司-Thor:模拟环境中具体动作理解的受控基准

迈克尔·汉纳,费德里科·佩德尼,亚历山德罗·苏格里亚,阿尔贝托·特斯托尼,拉斐拉·伯纳迪


摘要
如今,人工智能面临着执行人工智能任务的挑战。为了取得成功,代理人必须理解动词的含义以及他们相应的行为如何改变周围的世界。在这项工作中,我们提出了ACT-Thor,这是一种用于具体行动理解的新型受控基准。我们使用AI2-THOR模拟环境生成一个受控设置,在该设置中,给定一个before-image和一个相关的操作命令,代理必须在一组可能的候选对象中确定正确的after-image。首先,我们通过人工评估评估了该任务的可行性,结果准确率为81.4%,演讲者之间的一致性非常高(84.9%)。其次,我们使用最先进的视觉特征提取器设计了单峰和多峰基线。我们的评估和错误分析表明,只有具有非常结构化的动作表示以及强大的视觉特征的模型才能在任务中表现良好。然而,在零快照场景中,模型暴露于看不见的(动作、对象)对,它们仍然落后于人的表现。这为系统地评估理解固定动作的人工智能代理铺平了道路。
选集ID:
2022.科林-1.495
体积:
第29届国际计算语言学会议论文集
月份:
十月
年份:
2022
地址:
韩国庆州
编辑:
尼科莱塔·卡尔佐拉里,楚仁煌,Hansaem Kim公司,詹姆斯·普斯特约夫斯基,利奥·瓦纳,Key-Sun Choi公司,Pum-Mo Ryu公司,陈新喜,露西娅·多纳泰利,恒基,佐藤黑一世(Sadao Kurohashi),帕特里齐亚·帕吉奥,念文雪,Seokhwan Kim先生,英云哈姆,中和,托尼·京吉尔·李,恩里科·桑特斯,弗朗西斯·邦德,Seung-Hoon Na公司
地点:
冷却
SIG公司:
出版商:
国际计算语言学委员会
注:
页:
5597–5612
语言:
网址:
https://aclantology.org/2022.coling-1.495
DOI(操作界面):
比比键:
引用(ACL):
迈克尔·汉纳(Michael Hanna)、费德里科·佩德尼(Federico Pedeni)、亚历山德罗·苏格里亚(Alessandro Suglia)、阿尔贝托·特斯托尼(Alberto Testoni)和拉斐拉·贝尔纳迪(Raffaella Bernardi)。2022ACT-Thor:模拟环境中具体行动理解的受控基准.英寸第29届国际计算语言学会议论文集,第5597-5612页,大韩民国庆州。国际计算语言学委员会。
引用(非正式):
ACT-Thor:模拟环境中具体行动理解的受控基准(Hanna等人,COLING 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.coling-1.495.pdf
代码
汉纳姆/act-thor
数据
AI2-THOR公司