图像字幕作为一种辅助技术:从2020年VizWiz挑战中吸取的教训

主要文章内容

皮埃尔·多宁
伊戈尔·梅尼克
尤塞夫·姆鲁厄
Inkit Padhi公司
马蒂亚·里戈蒂
贾雷特·罗斯
亚尔·希夫
理查德·A·杨
布莱恩·贝尔戈代尔

摘要

由于引入了针对MS-COCO等精选数据集训练的神经网络算法,图像字幕最近取得了令人瞩目的进展。通常,这一领域的工作是出于在实际应用中部署字幕系统的承诺。然而,许多比赛数据集中的数据和上下文稀缺,使得在这些数据集上训练的系统的效用在现实环境中仅限于辅助技术,例如帮助视障人士导航和完成日常任务。这一差距促使引入了新的VizWiz数据集,该数据集由视力受损者拍摄的图像和具有有用的、面向任务的信息的字幕组成。为了帮助机器学习计算机视觉领域实现其生产具有积极社会影响的技术的承诺,VizWiz数据集的馆长举办了几场比赛,包括一场图像字幕比赛。这项工作详细介绍了我们在2020年字幕比赛中获胜的理论和工程。我们的工作为改进辅助图像字幕系统迈出了一步。


这篇文章出现在人工智能与社会的特别轨道上。

文章详细信息

章节
文章