计算机科学>计算机视觉与模式识别
标题: 文本到视频质量评估的主观对齐数据集和度量
摘要: 随着生成模型的快速发展,人工智能生成内容在日常生活中呈指数级增长。 其中,文本到视频(T2V)一代受到了广泛关注。 尽管已经发布了许多T2V模型来生成高感知质量的视频,但仍然缺乏一种定量评估这些视频质量的方法。 为了解决这个问题,我们建立了迄今为止最大规模的文本到视频质量评估数据库(T2VQA-DB)。 该数据集由9种不同的T2V模型生成的10000个视频组成。 我们还进行了主观研究,以获得每个视频的相应平均意见得分。 基于T2VQA-DB,我们提出了一种新的基于变压器的主观对齐文本到视频质量评估(T2VQA)模型。 该模型从文本-视频对齐和视频保真度角度提取特征,然后利用大型语言模型的能力给出预测分数。 实验结果表明,T2VQA优于现有的T2V度量和SOTA视频质量评估模型。 定量分析表明,T2VQA能够给出主观对齐预测,验证其有效性。 数据集和代码将于发布 此https URL .