计算机科学>计算机视觉和模式识别
职务: DiffEditor:提高基于扩散的图像编辑的准确性和灵活性
摘要: 大尺度文本到图像(T2I)扩散模型在过去几年中彻底改变了图像生成。 尽管拥有多种高质量的生成功能,但将这些功能转换为细粒度图像编辑仍然具有挑战性。 在本文中,我们提出了DiffEditor来纠正现有的基于扩散的图像编辑中的两个弱点:(1)在复杂的场景中,编辑结果往往缺乏编辑准确性,并表现出意想不到的伪影; (2) 缺乏协调编辑操作的灵活性,例如想象新内容。 在我们的解决方案中,我们在细粒度图像编辑中引入了图像提示,并与文本提示配合使用,以更好地描述编辑内容。 为了在保持内容一致性的同时增加灵活性,我们将随机微分方程(SDE)局部组合到常微分方程(ODE)采样中。 此外,我们将基于区域评分的梯度引导和时间旅行策略纳入扩散抽样,进一步提高了编辑质量。 大量实验表明,我们的方法可以有效地在各种细粒度图像编辑任务中实现最先进的性能,包括在单个图像内编辑(例如,对象移动、大小调整和内容拖动)和跨图像编辑(例如外观替换和对象粘贴)。 我们的源代码发布于 此https URL .