Adversarial Inference for Multi-Sentence Video Description

Sung Park, Jae; Rohrbach, Marcus; Darrell, Trevor; Rohrbach, Anna

多段视频描述的对抗推理

Jae Sung Park、Marcus Rohrbach、Trevor Darrell、Anna Rohrback; 2019年IEEE/CVF计算机视觉和模式识别（CVPR）研讨会会议记录，第0-0页

摘要

虽然图像字幕任务已经取得了重大进展，但由于视频数据的复杂性，视频描述仍处于初级阶段。主要问题包括所生成描述的流畅性和连贯性，以及它们与视频的相关性。最近，人们探索了基于强化和对抗学习的方法来改进图像字幕模型；然而，这两种方法都存在一些问题，例如RL的可读性差、冗余度高，以及GAN的稳定性问题。在这项工作中，我们建议在推理过程中应用对抗技术，设计一个鉴别器，以鼓励更好的多内容视频描述。此外，我们发现，多鉴别器“混合”设计，其中每个鉴别器针对描述的一个方面，可以获得最佳结果。具体来说，我们将鉴别器解耦，以根据三个标准进行评估：1）视频的视觉相关性，2）语言多样性和流利性，以及3）句子之间的连贯性。我们的方法产生了更准确、多样和连贯的多内容视频描述，如对流行的ActivityNet Captions数据集的自动评估和人工评估所示。

相关材料

[pdf格式]

[围巾]

@会议记录{Park_2019_CVPR_Workshop，
author={宋帕克、杰·罗尔巴赫、马库斯和达雷尔、特雷弗和罗尔巴哈、安娜}，
title={多段视频描述的对抗推理}，
booktitle={IEEE/CVF计算机视觉和模式识别（CVPR）研讨会会议记录}，
月={6月}，
年份=｛2019｝
}