口语的视觉基础模型:数据集、体系结构和评估技术综述

主要文章内容

Grzegorz Chrupała公司

摘要

这项调查概述了过去20年来基于视觉的口语模式的演变。这些模型的灵感来源于这样一个观察结果:当孩子们学习一种语言时,他们依赖大量的间接和嘈杂的线索,关键是包括与口语同时出现的视觉形态信号。有几个领域对这种建模或模仿语言学习过程的方法做出了重要贡献:机器学习、自然语言和语音处理、计算机视觉和认知科学。本文件汇集了这些贡献,以便为所有这些领域的从业人员提供有用的介绍和概述。我们讨论了所解决的中心研究问题、发展时间表以及促成大部分工作的数据集。然后,我们总结了主要的建模架构,并对评估指标和分析技术进行了详尽的概述。

文章详细信息

章节
文章