通过多任务训练学习零炮多方位视觉接地单词嵌入

哈桑·沙赫穆罕默德,亨德里克·P·A·伦施,R.Harald Baayen先生


摘要
语言基础旨在将语言(如词语)的符号表示与外界丰富的感性知识联系起来。一般的方法是将文本和视觉信息嵌入到一个公共空间中,即受明确关系限制的固定空间。我们认为,由于具体单词和抽象单词在大脑中的处理方式不同,这种方法在获取感知信息的过程中牺牲了从文本统计中获得的抽象知识。本文的重点是通过隐式地为单词嵌入提供基础来解决这个问题。我们的方法不是将两个映射学习到一个联合空间中,而是通过隐式对齐来集成模式。这是通过多任务训练学习文本空间和固定空间之间的可逆映射来实现的。内在和外在评价表明,我们的视觉基础方法对抽象和具体单词都非常有益。我们的嵌入与人类的判断相关,并且在广泛的基准上使用预处理单词嵌入,其性能优于以前的工作。我们的接地嵌入在这里是公开的。
选集ID:
2021年11月12日
体积:
第25届计算自然语言学习会议记录
月份:
十一月
年份:
2021
地址:
在线的
编辑:
阿里安娜·比萨扎,奥姆里·阿本德
地点:
CoNLL公司
SIG公司:
SIGNLL公司
出版商:
计算语言学协会
注:
页:
158–170
语言:
网址:
https://aclantology.org/2021.coll-1.12
内政部:
10.18653/v1/2021.coll-1.12
比比键:
引用(ACL):
哈桑·沙赫穆罕默德(Hassan Shahmohammadi)、亨德里克·伦施(Hendrik P.A.Lensch)和R.哈拉尔德·巴扬(R.Harald Baayen)。2021通过多任务训练学习零镜头多方位视觉接地单词嵌入.英寸第25届计算自然语言学习会议记录,第158-170页,在线。计算语言学协会。
引用(非正式):
通过多任务训练学习零炮多方位视觉接地单词嵌入(Shahmohammadi等人,CoNLL 2021)
复制引文:
PDF格式:
https://aclantology.org/2021.coll-1.12.pdf
视频:
 https://aclantology.org/2021.conll-1.12.mp4网址
代码
Hazel1994/视觉接地文字嵌入
数据
中景COCO