Subjective-Aligned Dataset and Metric for Text-to-Video Quality Assessment

Kou, Tengchuan; Liu, Xiaohong; Zhang, Zicheng; Li, Chunyi; Wu, Haoning; Min, Xiongkuo; Zhai, Guangtao; Liu, Ning

计算机科学>计算机视觉与模式识别

arXiv:2403.11956年（cs）

【于2024年3月18日提交(第1版)，最新修订日期：2024年8月7日（本版本，第5版）]

标题：文本到视频质量评估的主观对齐数据集和度量

作者：腾川口,刘晓红,张自成,李春怡,吴浩宁,熊国敏,翟广涛,刘宁（Ning Liu）

查看PDF HTML（实验性）

摘要：随着生成模型的快速发展，人工智能生成内容在日常生活中呈指数级增长。其中，文本到视频（T2V）一代受到了广泛关注。尽管已经发布了许多T2V模型来生成高感知质量的视频，但仍然缺乏一种定量评估这些视频质量的方法。为了解决这个问题，我们建立了迄今为止最大规模的文本到视频质量评估数据库（T2VQA-DB）。该数据集由9种不同的T2V模型生成的10000个视频组成。我们还进行了主观研究，以获得每个视频的相应平均意见得分。基于T2VQA-DB，我们提出了一种新的基于变压器的主观对齐文本到视频质量评估（T2VQA）模型。该模型从文本-视频对齐和视频保真度角度提取特征，然后利用大型语言模型的能力给出预测分数。实验结果表明，T2VQA优于现有的T2V度量和SOTA视频质量评估模型。定量分析表明，T2VQA能够给出主观对齐预测，验证其有效性。数据集和代码将于发布此https URL.

评论：	ACMMM 24接受
学科：	计算机视觉和模式识别（cs.CV）
引用为：	arXiv:2403.11956年[cs.CV]
	（或 arXiv:2403.11956v5[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2403.11956

提交历史记录

发件人：滕川口[查看电子邮件]
[第1版]2024年3月18日星期一16:52:49 UTC（12377 KB）
[版本2]2024年3月19日星期二14:03:22 UTC（12377 KB）
[第3版]2024年3月28日星期四08:04:51 UTC（13019 KB）
[第4版]2024年5月18日星期六06:34:43 UTC（13019 KB）
[第5版]2024年8月7日星期三17:02:00 UTC（13077 KB）

计算机科学>计算机视觉与模式识别

标题：文本到视频质量评估的主观对齐数据集和度量

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉与模式识别

标题：文本到视频质量评估的主观对齐数据集和度量

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目