Brain encoding models based on multimodal transformers can transfer across language and vision

Tang, Jerry; Du, Meng; Vo, Vy; LAL, VASUDEV; Huth, Alexander

基于多模态变换器的大脑编码模型可以跨语言和视觉传输

的一部分神经信息处理系统进展36（NeurIPS 2023）主要会议轨道

Biptex公司纸张补充的

作者

Jerry Tang、Meng Du、Vy Vo、VASUDEV LAL、Alexander Huth

摘要

编码模型被用来评估人脑如何在语言和视觉中表示概念。虽然语言和视觉依赖于相似的概念表征，但当前的编码模型通常是根据大脑对每种形式的反应进行单独训练和测试的。多模态预处理的最新进展产生了可以提取语言和视觉中概念的对齐表示的变换器。在这项工作中，我们使用来自多模态变压器的表示来训练编码模型，这些模型可以跨fMRI对故事和电影的响应进行传输。我们发现，根据大脑对一种形式的反应训练的编码模型可以成功预测大脑对另一种形式（尤其是在代表概念意义的皮层区域）的反应。对这些编码模型的进一步分析揭示了语言和视觉中概念表示的共享语义维度。通过比较使用多模态和单模态变换器的表示训练的编码模型，我们发现多模态变换器可以学习更多语言和视觉中概念的对齐表示。我们的研究结果证明了多模态变压器如何能够深入了解大脑的多模态处理能力。

基于多模态变换器的大脑编码模型可以跨语言和视觉传输

作者

摘要

名称更改策略