Brain encoding models based on multimodal transformers can transfer across language and vision

Tang, Jerry; Du, Meng; Vo, Vy A.; Lal, Vasudev; Huth, Alexander G.

计算机科学>计算与语言

arXiv:2305.12248（cs）

【于2023年5月20日提交】

职务：基于多模态变换器的大脑编码模型可以跨语言和视觉传输

作者：杰里·唐,孟都,Vy A.Vo公司,瓦苏德夫·拉尔,亚历山大·胡特

查看PDF

摘要：编码模型被用来评估人脑如何在语言和视觉中表示概念。虽然语言和视觉依赖于相似的概念表征，但当前的编码模型通常是根据大脑对每种形式的反应进行单独训练和测试的。多模态预处理的最新进展产生了可以提取语言和视觉中概念的对齐表示的变换器。在这项工作中，我们使用来自多模态变压器的表示来训练编码模型，这些模型可以跨fMRI对故事和电影的响应进行传输。我们发现，根据大脑对一种形式的反应训练的编码模型可以成功预测大脑对另一种形式（尤其是在代表概念意义的皮层区域）的反应。对这些编码模型的进一步分析揭示了语言和视觉中概念表示的共享语义维度。通过比较使用多模态和单模态变换器的表示训练的编码模型，我们发现多模态变换器可以学习更多语言和视觉中概念的对齐表示。我们的研究结果证明了多模态变压器如何能够深入了解大脑的多模态处理能力。

学科：	计算与语言（cs.CL）; 计算机视觉和模式识别（cs.CV）
引用为：	arXiv:2305.12248【cs.CL】
	（或 arXiv:2305.12248v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2305.12248

提交历史记录

发件人：Jerry Tang[查看电子邮件]
[第1版]2023年5月20日星期六17:38:44 UTC（43343 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。氯

<上一版本 | 下一个>

新的 | 最近的 | 2305

更改为浏览方式：

反恐精英
反恐精英。个人简历

参考文献和引文

导出BibTeX引文

计算机科学>计算与语言

职务：基于多模态变换器的大脑编码模型可以跨语言和视觉传输

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

职务：基于多模态变换器的大脑编码模型可以跨语言和视觉传输

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目