DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing

Mou, Chong; Wang, Xintao; Song, Jiechong; Shan, Ying; Zhang, Jian

计算机科学>计算机视觉和模式识别

arXiv:2402.02583（cs）

【于2024年2月4日提交】

职务：DiffEditor：提高基于扩散的图像编辑的准确性和灵活性

作者：冲牟,王新涛,宋洁冲,英山,张健（Jian Zhang）

查看PDF

摘要：大尺度文本到图像（T2I）扩散模型在过去几年中彻底改变了图像生成。尽管拥有多种高质量的生成功能，但将这些功能转换为细粒度图像编辑仍然具有挑战性。在本文中，我们提出了DiffEditor来纠正现有的基于扩散的图像编辑中的两个弱点：（1）在复杂的场景中，编辑结果往往缺乏编辑准确性，并表现出意想不到的伪影；（2）缺乏协调编辑操作的灵活性，例如想象新内容。在我们的解决方案中，我们在细粒度图像编辑中引入了图像提示，并与文本提示配合使用，以更好地描述编辑内容。为了在保持内容一致性的同时增加灵活性，我们将随机微分方程（SDE）局部组合到常微分方程（ODE）采样中。此外，我们将基于区域评分的梯度引导和时间旅行策略纳入扩散抽样，进一步提高了编辑质量。大量实验表明，我们的方法可以有效地在各种细粒度图像编辑任务中实现最先进的性能，包括在单个图像内编辑（例如，对象移动、大小调整和内容拖动）和跨图像编辑（例如外观替换和对象粘贴）。我们的源代码发布于此https URL.

学科：	计算机视觉和模式识别（cs.CV）; 机器学习（cs.LG）
引用为：	arXiv:2402.02583[cs.CV]
	（或 arXiv:2402.02583v1型[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2402.02583

提交历史记录

发件人：Chong Mou[查看电子邮件]
[第1版]2024年2月4日星期日18:50:29 UTC（14261 KB）

计算机科学>计算机视觉和模式识别

职务：DiffEditor：提高基于扩散的图像编辑的准确性和灵活性

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉和模式识别

职务：DiffEditor：提高基于扩散的图像编辑的准确性和灵活性

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目