计算机科学>计算机视觉和模式识别
标题: UniControl:一种用于野外可控视觉生成的统一扩散模型
摘要: 在交互式人工智能系统的设计中,实现机器自主性和人的控制常常代表着不同的目标。 视觉生成基础模型(如稳定扩散)在实现这些目标方面表现出了良好的前景,尤其是在使用任意语言提示时。 然而,在生成具有空间、结构或几何控制的图像时,它们往往会出现不足。 这些控件的集成能够在一个统一的模型中适应各种视觉条件,这仍然是一个尚未解决的挑战。 作为回应,我们引入了UniControl,这是一种新的生成性基础模型,它在单一框架内整合了大量可控的条件到图像(C2I)任务,同时还允许任意语言提示。 UniControl支持像素级精确图像生成,其中视觉条件主要影响生成的结构,语言提示指导样式和上下文。 为了使UniControl具备处理各种视觉条件的能力,我们增加了预处理文本到图像扩散模型,并引入了任务软件HyperNet来调整扩散模型,从而能够同时适应不同的C2I任务。 UniControl经过九项独特的C2I任务的训练,在看不见的视觉条件下展现了令人印象深刻的零快照生成能力。 实验结果表明,UniControl的性能通常优于模型大小相当的单任务控制方法。 这种控件的多功能性使UniControl在可控视觉生成领域取得了重大进展。