视觉基础跟进问题:需要对话历史的空间问题数据集

天爱洞,阿尔贝托·特斯托尼,卢西亚娜·贝诺蒂,拉斐拉·伯纳迪


摘要
在本文中,我们定义并评估了一种从视觉对话中提取历史相关空间问题的方法。如果一个问题需要对其对话历史(部分)进行解释,我们就说它是历史依赖的。我们认为,一些视觉问题定义了后续空间问题所依赖的上下文。我们将限制上下文的问题称为trigger,将需要回答trigger问题的空间问题称为zoomer。我们根据问题所依赖的视觉属性(例如颜色、数字)自动提取不同的触发器和缩放器对。我们手动注释自动提取的触发器和变焦器对,以验证哪些变焦器需要其触发器。我们基于SOTA多模式编码器实现了一个简单的基线架构。我们的结果表明,在回答历史相关问题方面还有很大的改进空间。
选集ID:
2021.splurobonlp-1.3
体积:
第二届机器人空间语言理解和地面通信国际联合研讨会会议记录
月份:
八月
年份:
2021
地址:
在线的
编辑:
马利赫·阿利卡尼,Valts Blukis公司,Parisa Kordjamshidi公司,艾什瓦亚·帕德马库玛,郝谭
地点:
splurobonlp公司
SIG公司:
发布者:
计算语言学协会
注:
页码:
22–31
语言:
网址:
https://aclcollectory.org/2021.splurobonlp-1.3
DOI(操作界面):
10.18653/v1/2021.splurobonlp-1.3
比比键:
引用(ACL):
Tianai Dong、Alberto Testoni、Luciana Benotti和Raffaella Bernardi。2021视觉基础跟进问题:需要对话历史的空间问题数据集.英寸第二届机器人空间语言理解和地面通信国际联合研讨会会议记录,第22-31页,在线。计算语言学协会。
引用(非正式):
视觉基础跟进问题:需要对话历史的空间问题数据集(Dong等人,splurobonlp 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.splurobonlp-1.3.pdf
视频:
 https://aclantology.org/2021.splurobonlp-1.3.mp4
代码
田纳东/2021 plu-robonlp-vispa
数据
客人什么?!