CoGS: Controllable Generation and Search from Sketch and Style

Ham, Cusuh; Tarres, Gemma Canet; Bui, Tu; Hays, James; Lin, Zhe; Collomosse, John

计算机科学>计算机视觉与模式识别

arXiv公司：2203.09554（个）

【2022年3月17日提交(第1版)，最新修订日期：2022年7月20日（本版本，v2）]

标题：CoGS：从素描和风格可控生成和搜索

作者：Cusuh火腿,Gemma Canet焦油,土布,詹姆斯·海斯,哲琳（Zhe Lin）,约翰·科洛莫（John Collomose）

查看PDF

摘要：我们提出了CoGS，这是一种用于风格调节、草图驱动的图像合成的新方法。CoGS可以探索给定草图对象的各种外观可能性，从而实现对结构和输出外观的解耦控制。通过输入草图和示例“样式”调节图像到基于转换器的草图和样式编码器，可以对对象结构和外观进行粗粒度控制，以生成离散的代码簿表示。我们将码本表示映射到度量空间，在通过矢量量化GAN（VQGAN）解码器生成图像之前，可以对多个合成选项之间的选择和插值进行细粒度控制。因此，我们的框架将搜索和合成任务统一起来，因为可以使用草图和样式对运行初始合成，可以通过与搜索语料库中的类似结果相结合来优化初始合成，以生成更接近用户意图的图像。我们表明，我们的模型基于新创建的Pseudosketches数据集的125个对象类进行训练，能够生成各种语义内容和外观样式。

学科：	计算机视觉和模式识别（cs.CV）
引用为：	arXiv公司：2203.09554[cs.CV]
	（或 arXiv:2203.09554v2[cs.CV]对于此版本）
	https://doi.org/10.48550/arXiv.2203.09554

提交历史记录

发件人：Cusuh Ham[查看电子邮件]
[第1版]2022年3月17日星期四18:36:11 UTC（10720 KB）
[版本2]2022年7月20日星期三14:26:15 UTC（27053 KB）

计算机科学>计算机视觉与模式识别

标题：CoGS：从素描和风格可控生成和搜索

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算机视觉与模式识别

标题：CoGS：从素描和风格可控生成和搜索

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目