计算机科学>计算机视觉与模式识别
标题: Q-Boost:关于低水平多模态基础模型的视觉质量评估能力
摘要: 多模态大语言模型(MLLM)的最新进展表明,它在复杂的高级视觉任务中具有显著的能力。 然而,MLLM在视觉质量评估(低水平视觉的一个重要方面)中的潜力研究仍然有限。 为了解决这个差距,我们引入了Q-Boost,这是一种新的策略,旨在增强图像质量评估(IQA)和视频质量评估(VQA)任务中的低层MLLM, 它是围绕两个关键组件构建的:1)三位一体集成:普通提示设计只是在$positive$和$negative$的二进制极值之间振荡。 Q-Boost通过$neutral$prompts引入“中间立场”方法进行创新,允许进行更平衡和详细的评估。 2) 多提示集成:使用多个以质量为中心的提示来减少偏见并获得更准确的评估。 实验结果表明,在采用Q-Boost策略的IQA/VQA任务中,低层MLLM表现出优异的零炮性能。