研究论文

面向可控和真实感区域图像操作

作者:

七轩张、和

局域网徐作者信息和声明

MM’21：第29届ACM国际多媒体会议记录

2021年10月

页535-543

https://doi.org/10.1145/3474085.3475206

出版:2021年10月17日出版历史

获取访问权限

摘要

自适应和灵活的图像编辑是现代生成模型的理想功能。在这项工作中，我们提出了一个具有自动编码器结构的生成模型，用于跨区域风格的操作。我们应用代码一致性损失来强制实现内容和样式潜在表示之间的明确分离，使生成的样本的内容和样式与其对应的内容和风格引用保持一致。模型还受到内容对齐丢失的约束，以确保前台编辑不会干扰背景内容。因此，给定用户提供的感兴趣区域掩码，我们的模型支持前台区域风格传输。特别地，除了自我监督之外，我们的模型没有接收到额外的注释，例如语义标签。大量实验表明了该方法的有效性，并展示了该模型在各种应用中的灵活性，包括区域风格编辑、潜在空间插值、跨域风格转换。

工具书类

[1]

Rameen Abdal、Yipeng Qin和Peter Wonka。2019.Image2StyleGAN:如何将图像嵌入StyleGAN潜在空间？。在ICCV中。

[2]

亚泽德·阿尔哈比和彼得·旺卡。2020年。通过结构噪声注入产生去纠缠图像。在CVPR中。5133--5141.

[3]

David Bau、Hendrik Strobelt、William S.Peebles、Jonas Wulff、Bolei Zhou、Jun-Yan Zhu和Antonio Torralba。2019.使用生成图像进行语义照片处理。ACM TOG，第38卷，第4卷（2019年），59:1-59:11。

数字图书馆

[4]

安德鲁·布洛克（Andrew Brock）、杰夫·多纳休（Jeff Donahue）和凯伦·西蒙扬（Karen Simonyan）。2019.高保真自然图像合成大规模GAN培训。在ICLR中。

[5]

Choi Yunjey、Min-Je Choi、Munyoung Kim、Jung-Woo-Ha、Sunghun Kim和Jaegul Choo。2018年，《StarGAN：多领域图像到图像翻译的统一生成对抗网络》（Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation）。在CVPR中。8789--8797.

[6]

Yunjey Choi、Youngjung Uh、Jaejun Yoo和Jung-Woo Ha。2020年。StarGAN v2：多域的多样图像合成。在CVPR中。8185--8194.

[7]

文森特·杜穆林（Vincent Dumoulin）、乔纳森·什伦斯（Jonathon Shlens）和曼朱纳特·库德勒（Manjunath Kudlur）。2017年，艺术风格的学习表现。在ICLR中。

[8]

利昂·A·盖兹、亚历山大·埃克尔和马蒂亚斯·贝奇。2015年，艺术风格的神经算法。CoRR，第abs/1508.06576卷（2015年）。

[9]

L.A.Gatys、A.S.Ecker和M.Bethge。2016.使用卷积神经网络进行图像风格转换。在CVPR中。2414--2423.

[10]

伊恩·古德费罗（Ian Goodfellow）、让·普格特·巴迪（Jean Pouget-Abadie）、梅迪·米尔扎（Mehdi Mirza）、徐冰（Bing Xu）、大卫·沃德·法利（David Warde-Farley）、谢尔吉尔·奥扎尔（Sherjil Ozair）、。2014.生成性对抗网络。在NeurIPS中。2672--2680.

数字图书馆

[11]

Erik H“a rkönen、Aaron Hertzmann、Jaakko Lehtinen和Sylvain Paris，2020年。GANSpace：发现可解释的GAN控件。CoRR，第abs/2004.02546卷（2020年）。

[12]

马丁·休塞尔、休伯特·拉姆索尔、托马斯·恩特提纳、伯恩哈德·奈斯勒和塞普·霍克莱特。2017年。根据两时间尺度更新规则训练的GAN收敛到局部纳什均衡。在NeurIPS中。6626--6637.

数字图书馆

[13]

黄勋（Xun Huang）和贝隆吉（Serge J.Belongie）。2017.自适应实例规范化实时任意风格传输。在ICCV中。1510--1519.

[14]

黄勋、刘明宇、谢尔盖·贝隆吉和简·考茨。2018.多模态无监督图像到图像的转换。在ECCV中。179--196.

[15]

Phillip Isola、Jun-Yan Zhu、Tinghui Zhou和Alexei A.Efros。2017.使用条件对抗网络进行图像到图像的翻译。在CVPR中。5967--5976.

[16]

贾斯汀·约翰逊、亚历山大·阿拉希和李菲菲。2016年，实时式转移和超分辨率的感知损失。在ECCV中。694--711.

[17]

Tero Karras、Timo Aila、Samuli Laine和Jaakko Lehtinen。2018年a。GAN的渐进式生长，以提高质量、稳定性和变异性。在ICLR中。

[18]

Tero Karras、Timo Aila、Samuli Laine和Jaakko Lehtinen。2018年b月。GAN的逐步生长以提高质量、稳定性和变异性。在ICLR中。

[19]

泰罗·卡拉斯（Tero Karras）、萨穆利·莱恩（Samuli Laine）和蒂莫·艾拉（Timo Aila）。2019 a.生成对抗网络的基于样式的生成器架构。在CVPR中。4401--4410.

[20]

泰罗·卡拉斯（Tero Karras）、萨穆利·莱恩（Samuli Laine）和蒂莫·艾拉（Timo Aila）。2019年b.生成对抗网络的基于样式的生成器架构。在CVPR中。

[21]

T.Karras、S.Laine、M.Aittala、J.Hellsten、J.Lehtinen和T.Aila。2020年，分析并提高StyleGAN的图像质量。在CVPR中。

[22]

尼古拉斯·科尔金（Nicholas Kolkin）、杰森·萨拉文（Jason Salavon）和格雷格·沙克纳罗维奇（Greg Shakhnarovich）。2019年a.通过放松的最佳运输和自我相似性进行风格转换。在CVPR中。

[23]

尼古拉斯·科尔金（Nicholas I.Kolkin）、杰森·萨拉冯（Jason Salavon）和格雷戈里·沙克纳罗维奇（Gregory Shakhnarovich）。2019 b.通过放松最优运输和自相似性进行的风格转移。在CVPR中。10051--10060.

[24]

李成汉、刘紫薇、吴凌云和罗萍。2020年，MaskGAN：走向多样化和交互式面部图像处理。在CVPR中。

[25]

李新英、曾洪宇、黄嘉斌、辛格和杨明轩。2018年，通过非纠缠表示实现多种图像到图像的转换。在ECCV中。36--52.

[26]

李川和迈克尔·旺德。2016.使用马尔科夫生成对抗网络进行预计算实时纹理合成。在ECCV中。702--716.

[27]

李一军、陈芳、杨集美、王兆文、卢欣和杨明慧。2017年a。使用前馈网络的多样化纹理合成。在CVPR中。266--274.

[28]

李一军、陈芳、杨集美、王兆文、卢欣和杨明慧。2017年b月。通过特征变换进行通用样式转换。在NeurIPS中。386--396.

数字图书馆

[29]

李一军、刘明宇、李雪婷、杨明慧和J.考茨。2018.真实感图像风格化的封闭解决方案。在ECCV中。

[30]

刘桂林、雷达（Fitsum A.Reda）、石凯文（Kevin J.Shih）、王廷春（Ting-Chun Wang）、陶德鲁（Andrew Tao）和卡坦扎罗（Bryan Catanzaro）。2018年，使用部分卷积绘制不规则孔的图像。在ECCV中。89--105.

[31]

刘明宇（Ming Yu Liu）、托马斯·布鲁埃尔（Thomas Breuel）和扬·考茨（Jan Kautz）。2017.无监督的图像到图像翻译网络。在NeurIPS中。700--708.

数字图书馆

[32]

刘紫薇、罗萍、王晓刚和唐晓鸥。2015.野外深度学习面部特征。在ICCV中。

数字图书馆

[33]

吕富君、帕里斯、谢赫特曼和卡维塔·巴拉。2017。深度照片风格转移。在CVPR中。6997--7005.

[34]

Fangchang Ma、Ulas Ayaz和Sertac Karaman。2018年，部分测量卷积生成网络的可逆性。在NeurIPS中。9651--9660.

数字图书馆

[35]

梅迪·米尔扎（Mehdi Mirza）和西蒙·奥斯宾多（Simon Osindero）。2014.有条件生成对抗网。arXiv预印本arXiv:1411.1784（2014）。

[36]

大宋公园、刘明玉、王廷春和朱俊彦。2019.具有空间自适应规范化的语义图像合成。在CVPR中。2337--2346.

数字图书馆

[37]

大兴公园、朱俊彦、王立佛、卢景万、埃利·谢赫特曼、亚历克谢·埃夫罗斯和理查德·张。2020年，替换自动编码器进行深层图像处理。在NeurIPS中。

[38]

William S.Peebles、John Peebless、Jun-Yan Zhu、Alexei A.Efros和Antonio Torralba。2020年，黑森惩罚：无监督脱纠缠的微弱先验。在ECCV中。581--597.

[39]

Justin N.M.Pinkney和Doron Adler。2020年。用于域间可控图像合成的分辨率相关GAN插值。CoRR，Vol.abs/2010.05334（2020）。

[40]

奥拉夫·伦尼伯格（Olaf Ronneberger）、菲利普·菲舍尔（Philipp Fischer）和托马斯·布洛克斯（Thomas Brox）。2015.U-Net:生物医学图像分割的卷积网络。在MICCAI。234--241.

[41]

塔玛·罗特·沙哈姆（Tamar Rott Shaham）、塔利·德克尔（Tali Dekel）和托梅尔·迈克利（Tomer Michaeli）。2019.辛甘：从单一自然图像中学习生成模型。在ICCV中。

[42]

沈宇军、顾锦锦、汤晓鸥和周伯雷。2020年a.解释用于语义面部编辑的GAN的潜在空间。在CVPR中。9240--9249.

[43]

沈宇军、杨策远、汤晓鸥和周伯雷。2020年b.InterFaceGAN：解释GAN学习的分离面部表征。IEEE TPAMI（2020）。

[44]

沈玉君和周伯雷。2020.GANs中潜在语义的闭式分解。CoRR，第abs/2007.06600卷（2020年）。

[45]

阿萨夫·舒彻（Assaf Shocher）、谢·巴贡（Shai Bagon）、菲利普·伊索拉（Phillip Isola）和米查尔·伊拉尼（Michal Irani）。2019.InGAN：捕获并重新定位自然图像的“DNA”。在ICCV中。

[46]

Aliaksandr Siarohin、Enver Sangineto和Nicu Sebe。2019.GAN的增白和着色批量改造。在ICLR中。

[47]

德米特里·乌里扬诺夫（Dmitry Ulyanov）、安德烈亚·维达尔迪（Andrea Vedaldi）和维克托·伦皮茨基（Victor S.Lempitsky）。2020年。深度图像优先。IJCV，第128卷，第7卷（2020年），1867-1888年。

[48]

王廷春、刘明宇、朱俊彦、陶德鲁、扬·考茨和布莱恩·卡坦扎罗。2018.使用条件GAN进行高分辨率图像合成和语义操作。在CVPR中。8798--8807.

[49]

Xian Wenqi、Patsorn Sangkloy、Varun Agrawal、Amit Raj、Jingwan Lu、Chen Fang、Fisher Yu和James Hays。2018.TextureGAN：使用纹理补丁控制深度图像合成。在CVPR中。8456--8465.

[50]

Jaejun Yoo、Youngjung Uh、Sanghyuk Chun、Byeongkyu Kang和Jung Woo Ha。2019.通过小波变换实现照片级风格转换。在ICCV中。

[51]

于菲舍尔、张银达、宋树然、阿里·塞夫和肖建雄。2015年，LSUN：利用深度学习构建大规模图像数据集，并将人类融入其中。CoRR，第abs/1506.03365卷（2015年）。

[52]

余佳慧、林哲、杨集美、沈晓慧、陆欣和黄志军。2018年，《关注语境的生成性意象绘画》。在CVPR中。5505--5514.

[53]

余佳慧、林哲、杨集美、沈晓慧、陆欣和黄志军。2019.使用门限卷积的自由形式图像内画。在ICCV中。4470--4479.

[54]

杨舟、甄珠、向白、达尼·利钦斯基、丹尼尔·科恩·奥尔和黄慧。2018.通过对抗性扩展进行非静态纹理合成。ACM事务处理。图表。，第37卷，第4卷（2018年），49:1--49:13。

数字图书馆

[55]

朱俊彦（Jun-Yan Zhu）、菲利普·科尔（Philipp Kr“a henbühl）、埃利·谢赫特曼（Eli Shechtman）和亚历克谢·埃夫罗斯（Alexei a.Efros），2016年。自然图像流形上的生成视觉操作。在ECCV中。597--613.

[56]

朱俊彦（Jun-Yan Zhu）、大兴公园（Taesung Park）、菲利普·伊索拉（Phillip Isola）和阿列克谢·埃夫罗斯（Alexei A.Efros）。2017年a。使用循环一致对抗性网络的非配对图像到图像翻译。在ICCV中。2242--2251.

[57]

朱俊彦（Jun-Yan Zhu）、理查德·张（Richard Zhang）、迪帕克·帕塔克（Deepak Pathak）、特雷弗·达雷尔（Trevor Darrell）、亚历克谢·埃夫罗斯（Alexei A.Efros）、奥利弗·王（Oliver Wang。2017年b月。走向多模图像到图像的转换。在NeurIPS中。465--476.

数字图书馆

[58]

朱培浩（Peihao Zhu）、拉明·阿卜杜勒（Rameen Abdal）、秦一鹏（Yipeng Qin）和彼得·旺卡（Peter Wonka）。2020年a.SEAN：具有语义区域自适应归一化的图像合成。在CVPR中。

[59]

朱震、徐志良、尤安生、向白。2020年b.语义多模式图像合成。在CVPR中。

引用人

周C中FÖztireli C公司(2023)CLIP-PAE：投影增强嵌入以提取相关特征，用于分离、可解释和可控制的文本引导人脸操作ACM SIGGRAPH 2023会议记录10.1145/3588432.3591532(1-9)在线发布日期：2023年7月23日
https://dl.acm.org/doi/10.1145/3588432.3591532

索引术语

面向可控和真实感区域图像操作
1. 计算方法
  1. 人工智能
    1. 计算机视觉
      1. 计算机视觉问题
        重建
      2. 计算机视觉表示
        外观和纹理表示

建议

基于颜色信息增强的局部二值模式正交组合的图像区域描述

视觉内容描述是基于机器的图像分析和理解的关键问题。一个好的视觉描述子应该既有鉴别能力又有计算效率，同时还应具有对视点变化和视点变化的鲁棒性。。。
阅读更多信息
基于感兴趣区域的鉴别图像散列
MMM’10：第16届多媒体建模进展国际会议论文集

本文提出了一种基于感兴趣区域（ROI）的鉴别图像散列方案，以提高图像内容修改下的鉴别能力，同时还提高了对内容保持操作的鲁棒性。。。
阅读更多信息
基于对象的图像编辑
SIGGRAPH’02：第29届计算机图形学与交互技术年会论文集

我们引入了基于对象的图像编辑（OBIE），用于实时动画和静态数字照片的操作。选择、缩放、拉伸、弯曲、扭曲甚至删除单个图像对象（如手臂或鼻子，图1）。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM会议

MM’21：第29届ACM国际多媒体会议记录

2021年10月

5796页

国际标准图书编号：9781450386517

DOI（操作界面）：10.1145/3474085

一般主席：
恒涛申
中国电子科技大学
,
岳廷庄
中国浙江大学
,
约翰·R·史密斯
IBM，美国
,
课程主席：
杨扬
中国电子科技大学
,
巴布罗·塞萨尔
CWI&TU Delft，荷兰
,
弗洛里安·梅茨
美国FACEBOOK公司
,
巴拉克里什南·普拉巴卡兰
美国德克萨斯大学达拉斯分校

版权所有©2021 ACM。

如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

赞助商

SIGMM:ACM多媒体特别兴趣小组

出版商

计算机协会

美国纽约州纽约市

出版历史

出版：2021年10月17日

权限

请求对此文章的权限。

检查更新

作者标记

限定符

研究文章

资金来源

上海杨帆项目

会议

21年月日

赞助商：

SIGMM公司

21岁MM：ACM多媒体会议

2021年10月20日至24日

虚拟活动，中国

接受率

4171份提交文件的总体接受率为995份，24%

即将召开的会议

24年月日

赞助商：
西格玛

24岁MM：第32届ACM国际多媒体会议

2024年10月28日至11月1日

墨尔本，维多利亚州，澳大利亚

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

1
引文总数
查看引文
161
总下载次数

下载次数（过去12个月）19
下载次数（最近6周）三

其他指标

查看作者指标

引文

引用人

周C中FÖztireli C公司(2023)CLIP-PAE：投影增强嵌入以提取相关特征，用于分离、可解释和可控制的文本引导人脸操作ACM SIGGRAPH 2023会议记录10.1145/3588432.3591532(1-9)在线发布日期：2023年7月23日
https://dl.acm.org/doi/10.1145/3588432.3591532

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子