@正在进行{hanna-etal-2022-act,title=“{ACT}-雷神:模拟环境中具体行动理解的受控基准”,author=“Hanna、Michael和佩德尼、费德里科和苏格里亚、亚历山德罗和Testoni、Alberto和贝尔纳迪,拉菲拉“,editor=“Calzolari、Nicoletta和黄、楚仁和Kim、Hansaem和Pustejovsky、James和Wanner、Leo和Choi、Key-Sun和Ryu、Pum-Mo和陈新喜多纳泰利、露西娅和纪、恒和Kurohashi、Sadao和帕吉奥、帕特里齐亚和薛、念文和Kim、Seokhwan和哈哈,英云和他、钟和Lee、Tony Kyungil和桑特斯、恩里科和邦德、弗朗西斯和Na,Seung Hoon”,booktitle=“第29届国际计算语言学会议论文集”,月=10月,年=“2022”,address=“大韩民国庆州”,publisher=“国际计算语言学委员会”,url=“https://aclantology.org/2022.coling-1.495",pages=“5597--5612”,抽象=“现在,人工智能面临着执行具体人工智能任务的挑战。为了取得成功,智能体必须理解动词的含义及其相应的动作如何改变周围世界。在这项工作中,我们提出了ACT-Thor,一种新的具体动作理解的受控基准。我们使用AI2-Thor模拟环境生成一种受控设置,在该设置中,代理必须根据给定的before-image和相关的操作命令,在一组可能的候选对象中确定正确的after-image。首先,我们通过人工评估来评估任务的可行性,评估结果为81.4{\%}的准确性和非常高的参与者间一致性(84.9{\%{)。其次,我们使用最先进的视觉特征提取器设计了单峰和多峰基线。我们的评估和错误分析表明,只有具有非常结构化的动作表示以及强大的视觉特征的模型才能在任务中表现良好。然而,在零快照场景中,模型暴露于看不见的(动作、对象)对,它们仍然落后于人的表现。这为系统地评估理解固定动作的人工智能代理铺平了道路。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“hanna-etal-2022-act”><标题信息>ACT-Thor:模拟环境中具体行动理解的受控基准</titleInfo><name type=“personal”>迈克尔<namePart type=“family”>汉娜</namePart><角色>作者</角色></name><name type=“personal”>费德里科佩德尼<角色>作者</角色></name><name type=“personal”>亚历山德罗苏格里亚<角色>作者</角色></name><name type=“personal”>阿尔贝托Testoni公司<角色>作者</角色></name><name type=“personal”>拉斐拉(Raffaella)贝尔纳迪<角色>作者</角色></name><originInfo>2022-10年发布日期</originInfo><typeOfResource>文本</typeOfResource><relatedItem type=“主机”><标题信息>第29届国际计算语言学会议论文集</titleInfo><name type=“personal”>尼科莱塔卡尔佐拉里<角色>编辑器</角色></name><name type=“personal”>楚伦<namePart type=“given”>黄<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>汉萨姆Kim(金)<角色>编辑器</角色></name><name type=“personal”>詹姆斯普斯特约夫斯基<角色>编辑器</角色></name><name type=“personal”>利奥<namePart type=“family”>想要</namePart><角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>关键太阳</namePart>Choi<角色>编辑器</角色></name><name type=“personal”>Pum-Mo泵<namePart type=“family”>Ryu<角色>编辑器</角色></name><name type=“personal”>新新<namePart type=“given”><namePart type=“family”>陈</namePart><角色>编辑器</角色></name><name type=“personal”>露西娅多纳泰利<角色>编辑器</角色></name><name type=“personal”>亨吉(Ji)<角色>编辑器</角色></name><name type=“personal”>萨多<namePart type=“given”>Kurohashi<角色>编辑器</角色></name><name type=“personal”>帕特里齐亚帕吉奥<角色>编辑器</角色></name><name type=“personal”>年文薛(音译)<角色>编辑器</角色></name><name type=“personal”>Seokhwan<namePart type=“family”>金</namePart><角色>编辑器</角色></name><name type=“personal”>Younggyun哈姆<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>钟他<角色>编辑器</角色></name><name type=“personal”>托尼京吉岛李<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>恩里科桑特斯<角色>编辑器</角色></name><name type=“personal”>弗朗西斯债券<角色>编辑器</角色></name><name type=“personal”>Seung-Hoon<namePart type=“family”>Na</namePart><角色>编辑器</角色></name><originInfo>国际计算语言学委员会<地点>韩国庆州</place></originInfo>会议出版物</relatedItem><abstract>如今,人工智能面临着执行人工智能任务的挑战。为了取得成功,代理人必须理解动词的含义以及他们相应的行为如何改变周围的世界。在这项工作中,我们提出了ACT-Thor,这是一种用于具体行动理解的新型受控基准。我们使用AI2-THOR模拟环境生成一个受控设置,在该设置中,给定一个before-image和一个相关的操作命令,代理必须在一组可能的候选对象中确定正确的after-image。首先,我们通过人工评估来评估任务的可行性,该评估的准确率为81.4%,注释者之间的一致性非常高(84.9%)。其次,我们使用最先进的视觉特征提取器设计单峰和多峰基线。我们的评估和错误分析表明,只有具有非常结构化的动作表示以及强大的视觉特征的模型才能在任务中表现良好。然而,在零快照场景中,模型暴露于看不见的(动作、对象)对,它们仍然落后于人的表现。这为系统地评估理解固定动作的人工智能代理铺平了道路</摘要><identifier type=“citekey”>hanna-etal-2022-act</identifier><位置><网址>https://aclantology.org/2022.coling-1.495</url></位置><部分>2022-10年<扩展单元=“page”><开始>5597</开始><end>5612</范围></部分></mods></modsCollection>
%0会议记录%T ACT-Thor:模拟环境中具体行动理解的受控基准%迈克尔·汉娜%费德里科·佩德尼%亚历山德罗·A Suglia%阿尔贝托·A Testoni%A Bernardi,拉斐拉%尼科莱塔·Y·卡尔佐拉里%黄,楚仁%Y Kim,Hansaem先生%詹姆斯·普斯特约夫斯基%Y Wanner,利奥%Y Choi、Key-Sun%Y Ryu,Pum-Mo公司%Y Chen,辛熙%露西娅·多纳泰利%Y Ji、Heng%Y Kurohashi,佐藤%帕特里齐亚·帕吉奥%Y Xue,念文%Y Kim,Seokhwan先生%Y哈姆,Younggyun%Y He、Zhong%Y Lee、Tony Kyungil%恩里科·桑特斯%弗朗西斯·邦德%Y Na、Seung-Hoon%第29届国际计算语言学会议论文集%D 2022年%10月8日%国际计算语言学委员会%C韩国庆州%F hanna-etal-2022-法案%X人工智能现在面临着执行人工智能任务的挑战。为了取得成功,代理人必须理解动词的含义以及他们相应的行为如何改变周围的世界。在这项工作中,我们提出了ACT-Thor,这是一种用于具体行动理解的新型受控基准。我们使用AI2-THOR模拟环境生成一个受控设置,在该设置中,给定一个before-image和一个相关的操作命令,代理必须在一组可能的候选对象中确定正确的after-image。首先,我们通过人工评估评估了该任务的可行性,结果准确率为81.4%,演讲者之间的一致性非常高(84.9%)。其次,我们使用最先进的视觉特征提取器设计了单峰和多峰基线。我们的评估和错误分析表明,只有具有非常结构化的动作表示以及强大的视觉特征的模型才能在任务中表现良好。然而,在零快照场景中,模型暴露于看不见的(动作、对象)对,它们仍然落后于人的表现。这为系统地评估理解固定动作的人工智能代理铺平了道路。%U型https://aclantology.org/2022.coling-1.495%电话:5597-5612
降价(非正式)
[ACT-Thor:模拟环境中具体行动理解的受控基准](https://aclantology.org/2022.coling-1.495)(Hanna等人,COLING 2022)
国际计算语言学协会
- 迈克尔·汉纳(Michael Hanna)、费德里科·佩德尼(Federico Pedeni)、亚历山德罗·苏格里亚(Alessandro Suglia)、阿尔贝托·特斯托尼(Alberto Testoni)和拉斐拉·贝尔纳迪(Raffaella Bernardi)。2022ACT-Thor:模拟环境中具体行动理解的受控基准.英寸第29届国际计算语言学会议论文集,第5597–5612页,韩国庆州。国际计算语言学委员会。