UniControl: A Unified Diffusion Model for Controllable Visual Generation In the Wild

Qin, Can; Zhang, Shu; Yu, Ning; Feng, Yihao; Yang, Xinyi; Zhou, Yingbo; Wang, Huan; Niebles, Juan Carlos; Xiong, Caiming; Savarese, Silvio; Ermon, Stefano; Fu, Yun; Xu, Ran

计算机科学>计算机视觉和模式识别

arXiv公司：2305.11147（cs）

【于2023年5月18日提交(第1版)，最新修订日期：2023年11月2日（本版本，第3版）]

标题：UniControl：一种用于野外可控视觉生成的统一扩散模型

作者：残秦,舒张（Shu Zhang）,宁雨,冯一浩,杨信义,周英波,Huan Wang（王欢）,胡安·卡洛斯·尼布尔斯,熊才明,西尔维奥·萨瓦雷斯,斯特凡诺·埃蒙,云浮,冉旭

查看PDF

摘要：在交互式人工智能系统的设计中，实现机器自主性和人的控制常常代表着不同的目标。视觉生成基础模型（如稳定扩散）在实现这些目标方面表现出了良好的前景，尤其是在使用任意语言提示时。然而，在生成具有空间、结构或几何控制的图像时，它们往往会出现不足。这些控件的集成能够在一个统一的模型中适应各种视觉条件，这仍然是一个尚未解决的挑战。作为回应，我们引入了UniControl，这是一种新的生成性基础模型，它在单一框架内整合了大量可控的条件到图像（C2I）任务，同时还允许任意语言提示。UniControl支持像素级精确图像生成，其中视觉条件主要影响生成的结构，语言提示指导样式和上下文。为了使UniControl具备处理各种视觉条件的能力，我们增加了预处理文本到图像扩散模型，并引入了任务软件HyperNet来调整扩散模型，从而能够同时适应不同的C2I任务。UniControl经过九项独特的C2I任务的训练，在看不见的视觉条件下展现了令人印象深刻的零快照生成能力。实验结果表明，UniControl的性能通常优于模型大小相当的单任务控制方法。这种控件的多功能性使UniControl在可控视觉生成领域取得了重大进展。

评论：	NeurIPS 2023年
学科：	计算机视觉和模式识别（cs.CV）; 人工智能（cs.AI）
引用为：	arXiv公司：2305.11147[cs.CV]
	（或 arXiv:2305.11147v3[cs.CV]对于此版本）
	https://doi.org/10.44850/arXiv.2305.11147

提交历史记录

发件人：Can Qin[查看电子邮件]
[第1版]2023年5月18日星期四17:41:34 UTC（19271 KB）
[版本2]2023年5月25日星期四17:41:25 UTC（32442 KB）
[第3版]2023年11月2日星期四17:59:06 UTC（37111 KB）

计算机科学>计算机视觉和模式识别

标题：UniControl：一种用于野外可控视觉生成的统一扩散模型

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

标题：UniControl：一种用于野外可控视觉生成的统一扩散模型

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目