多段视频描述的对抗推理

Jae Sung Park、Marcus Rohrbach、Trevor Darrell、Anna Rohrback; 2019年IEEE/CVF计算机视觉和模式识别(CVPR)研讨会会议记录,第0-0页

摘要


虽然图像字幕任务已经取得了重大进展,但由于视频数据的复杂性,视频描述仍处于初级阶段。主要问题包括所生成描述的流畅性和连贯性,以及它们与视频的相关性。最近,人们探索了基于强化和对抗学习的方法来改进图像字幕模型;然而,这两种方法都存在一些问题,例如RL的可读性差、冗余度高,以及GAN的稳定性问题。在这项工作中,我们建议在推理过程中应用对抗技术,设计一个鉴别器,以鼓励更好的多内容视频描述。此外,我们发现,多鉴别器“混合”设计,其中每个鉴别器针对描述的一个方面,可以获得最佳结果。具体来说,我们将鉴别器解耦,以根据三个标准进行评估:1)视频的视觉相关性,2)语言多样性和流利性,以及3)句子之间的连贯性。我们的方法产生了更准确、多样和连贯的多内容视频描述,如对流行的ActivityNet Captions数据集的自动评估和人工评估所示。

相关材料


[pdf格式]
[围巾]
@会议记录{Park_2019_CVPR_Workshop,
author={宋帕克、杰·罗尔巴赫、马库斯和达雷尔、特雷弗和罗尔巴哈、安娜},
title={多段视频描述的对抗推理},
booktitle={IEEE/CVF计算机视觉和模式识别(CVPR)研讨会会议记录},
月={6月},
年份={2019}
}