Q-Boost: On Visual Quality Assessment Ability of Low-level Multi-Modality Foundation Models

Zhang, Zicheng; Wu, Haoning; Ji, Zhongpeng; Li, Chunyi; Zhang, Erli; Sun, Wei; Liu, Xiaohong; Min, Xiongkuo; Sun, Fengyu; Jui, Shangling; Lin, Weisi; Zhai, Guangtao

计算机科学>计算机视觉与模式识别

arXiv:2312.15300号（cs）

【于2023年12月23日提交】

标题：Q-Boost：关于低水平多模态基础模型的视觉质量评估能力

作者：张自成,吴浩宁,中鹏记,李春怡,张二丽,孙伟（音译）,刘晓红,熊国敏,孙凤玉,上岭咀,林伟思,翟广涛

查看PDF HTML（实验）

摘要：多模态大语言模型（MLLM）的最新进展表明，它在复杂的高级视觉任务中具有显著的能力。然而，MLLM在视觉质量评估（低水平视觉的一个重要方面）中的潜力研究仍然有限。为了解决这个差距，我们引入了Q-Boost，这是一种新的策略，旨在增强图像质量评估（IQA）和视频质量评估（VQA）任务中的低层MLLM，它是围绕两个关键组件构建的：1）三位一体集成：普通提示设计只是在$positive$和$negative$的二进制极值之间振荡。Q-Boost通过$neutral$prompts引入“中间立场”方法进行创新，允许进行更平衡和详细的评估。2）多提示集成：使用多个以质量为中心的提示来减少偏见并获得更准确的评估。实验结果表明，在采用Q-Boost策略的IQA/VQA任务中，低层MLLM表现出优异的零炮性能。

学科：	计算机视觉和模式识别（cs.CV）
引用为：	arXiv:2312.15300号[cs.CV]
	（或 arXiv:2312.15300v1[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2312.15300

提交历史记录

发件人：Zicheng Zhang[查看电子邮件]
[第1版]2023年12月23日星期六17:02:25 UTC（4133 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。个人简历

<上一版本 | 下一个>

新的 | 最近的 |2023-12

更改为浏览方式：

反恐精英

参考文献和引文

导出BibTeX引文

计算机科学>计算机视觉与模式识别

标题：Q-Boost：关于低水平多模态基础模型的视觉质量评估能力

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉与模式识别

标题：Q-Boost：关于低水平多模态基础模型的视觉质量评估能力

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目