研究论文 在上共享 面向可控和真实感区域图像操作作者:安盛 你,成林 周,七轩 张、和局域网 徐作者信息和声明MM’21:第29届ACM国际多媒体会议记录2021年10月页535-543https://doi.org/10.1145/3474085.3475206出版:2021年10月17日 出版历史 获取引文提醒新增引文提醒!此警报已成功添加,将发送到:只要您选择的记录被引用,您就会收到通知。新引文提醒!拜托登录到您的帐户 获取访问权限目录MM’21:第29届ACM国际多媒体会议记录面向可控和真实感区域图像操作页535-543以前的文章自然图像蒙版的长距离特征传播上一个下一篇文章用于图像超分辨率的信息增长注意力网络下一步摘要工具书类信息和贡献者文献计量学和引文获取访问权限工具书类媒体桌子分享摘要自适应和灵活的图像编辑是现代生成模型的理想功能。在这项工作中,我们提出了一个具有自动编码器结构的生成模型,用于跨区域风格的操作。我们应用代码一致性损失来强制实现内容和样式潜在表示之间的明确分离,使生成的样本的内容和样式与其对应的内容和风格引用保持一致。模型还受到内容对齐丢失的约束,以确保前台编辑不会干扰背景内容。因此,给定用户提供的感兴趣区域掩码,我们的模型支持前台区域风格传输。特别地,除了自我监督之外,我们的模型没有接收到额外的注释,例如语义标签。大量实验表明了该方法的有效性,并展示了该模型在各种应用中的灵活性,包括区域风格编辑、潜在空间插值、跨域风格转换。工具书类[1]Rameen Abdal、Yipeng Qin和Peter Wonka。2019.Image2StyleGAN:如何将图像嵌入StyleGAN潜在空间?。在ICCV中。谷歌学者[2]亚泽德·阿尔哈比和彼得·旺卡。2020年。通过结构噪声注入产生去纠缠图像。在CVPR中。5133--5141.谷歌学者[3]David Bau、Hendrik Strobelt、William S.Peebles、Jonas Wulff、Bolei Zhou、Jun-Yan Zhu和Antonio Torralba。2019.使用生成图像进行语义照片处理。ACM TOG,第38卷,第4卷(2019年),59:1-59:11。数字图书馆谷歌学者[4]安德鲁·布洛克(Andrew Brock)、杰夫·多纳休(Jeff Donahue)和凯伦·西蒙扬(Karen Simonyan)。2019.高保真自然图像合成大规模GAN培训。在ICLR中。谷歌学者[5]Choi Yunjey、Min-Je Choi、Munyoung Kim、Jung-Woo-Ha、Sunghun Kim和Jaegul Choo。2018年,《StarGAN:多领域图像到图像翻译的统一生成对抗网络》(Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation)。在CVPR中。8789--8797.谷歌学者[6]Yunjey Choi、Youngjung Uh、Jaejun Yoo和Jung-Woo Ha。2020年。StarGAN v2:多域的多样图像合成。在CVPR中。8185--8194.谷歌学者[7]文森特·杜穆林(Vincent Dumoulin)、乔纳森·什伦斯(Jonathon Shlens)和曼朱纳特·库德勒(Manjunath Kudlur)。2017年,艺术风格的学习表现。在ICLR中。谷歌学者[8]利昂·A·盖兹、亚历山大·埃克尔和马蒂亚斯·贝奇。2015年,艺术风格的神经算法。CoRR,第abs/1508.06576卷(2015年)。谷歌学者[9]L.A.Gatys、A.S.Ecker和M.Bethge。2016.使用卷积神经网络进行图像风格转换。在CVPR中。2414--2423.谷歌学者[10]伊恩·古德费罗(Ian Goodfellow)、让·普格特·巴迪(Jean Pouget-Abadie)、梅迪·米尔扎(Mehdi Mirza)、徐冰(Bing Xu)、大卫·沃德·法利(David Warde-Farley)、谢尔吉尔·奥扎尔(Sherjil Ozair)、。2014.生成性对抗网络。在NeurIPS中。2672--2680.数字图书馆谷歌学者[11]Erik H“a rkönen、Aaron Hertzmann、Jaakko Lehtinen和Sylvain Paris,2020年。GANSpace:发现可解释的GAN控件。CoRR,第abs/2004.02546卷(2020年)。谷歌学者[12]马丁·休塞尔、休伯特·拉姆索尔、托马斯·恩特提纳、伯恩哈德·奈斯勒和塞普·霍克莱特。2017年。根据两时间尺度更新规则训练的GAN收敛到局部纳什均衡。在NeurIPS中。6626--6637.数字图书馆谷歌学者[13]黄勋(Xun Huang)和贝隆吉(Serge J.Belongie)。2017.自适应实例规范化实时任意风格传输。在ICCV中。1510--1519.谷歌学者[14]黄勋、刘明宇、谢尔盖·贝隆吉和简·考茨。2018.多模态无监督图像到图像的转换。在ECCV中。179--196.谷歌学者[15]Phillip Isola、Jun-Yan Zhu、Tinghui Zhou和Alexei A.Efros。2017.使用条件对抗网络进行图像到图像的翻译。在CVPR中。5967--5976.谷歌学者[16]贾斯汀·约翰逊、亚历山大·阿拉希和李菲菲。2016年,实时式转移和超分辨率的感知损失。在ECCV中。694--711.谷歌学者[17]Tero Karras、Timo Aila、Samuli Laine和Jaakko Lehtinen。2018年a。GAN的渐进式生长,以提高质量、稳定性和变异性。在ICLR中。谷歌学者[18]Tero Karras、Timo Aila、Samuli Laine和Jaakko Lehtinen。2018年b月。GAN的逐步生长以提高质量、稳定性和变异性。在ICLR中。谷歌学者[19]泰罗·卡拉斯(Tero Karras)、萨穆利·莱恩(Samuli Laine)和蒂莫·艾拉(Timo Aila)。2019 a.生成对抗网络的基于样式的生成器架构。在CVPR中。4401--4410.谷歌学者[20]泰罗·卡拉斯(Tero Karras)、萨穆利·莱恩(Samuli Laine)和蒂莫·艾拉(Timo Aila)。2019年b.生成对抗网络的基于样式的生成器架构。在CVPR中。谷歌学者[21]T.Karras、S.Laine、M.Aittala、J.Hellsten、J.Lehtinen和T.Aila。2020年,分析并提高StyleGAN的图像质量。在CVPR中。谷歌学者[22]尼古拉斯·科尔金(Nicholas Kolkin)、杰森·萨拉文(Jason Salavon)和格雷格·沙克纳罗维奇(Greg Shakhnarovich)。2019年a.通过放松的最佳运输和自我相似性进行风格转换。在CVPR中。谷歌学者[23]尼古拉斯·科尔金(Nicholas I.Kolkin)、杰森·萨拉冯(Jason Salavon)和格雷戈里·沙克纳罗维奇(Gregory Shakhnarovich)。2019 b.通过放松最优运输和自相似性进行的风格转移。在CVPR中。10051--10060.谷歌学者[24]李成汉、刘紫薇、吴凌云和罗萍。2020年,MaskGAN:走向多样化和交互式面部图像处理。在CVPR中。谷歌学者[25]李新英、曾洪宇、黄嘉斌、辛格和杨明轩。2018年,通过非纠缠表示实现多种图像到图像的转换。在ECCV中。36--52.谷歌学者[26]李川和迈克尔·旺德。2016.使用马尔科夫生成对抗网络进行预计算实时纹理合成。在ECCV中。702--716.谷歌学者[27]李一军、陈芳、杨集美、王兆文、卢欣和杨明慧。2017年a。使用前馈网络的多样化纹理合成。在CVPR中。266--274.谷歌学者[28]李一军、陈芳、杨集美、王兆文、卢欣和杨明慧。2017年b月。通过特征变换进行通用样式转换。在NeurIPS中。386--396.数字图书馆谷歌学者[29]李一军、刘明宇、李雪婷、杨明慧和J.考茨。2018.真实感图像风格化的封闭解决方案。在ECCV中。谷歌学者[30]刘桂林、雷达(Fitsum A.Reda)、石凯文(Kevin J.Shih)、王廷春(Ting-Chun Wang)、陶德鲁(Andrew Tao)和卡坦扎罗(Bryan Catanzaro)。2018年,使用部分卷积绘制不规则孔的图像。在ECCV中。89--105.谷歌学者[31]刘明宇(Ming Yu Liu)、托马斯·布鲁埃尔(Thomas Breuel)和扬·考茨(Jan Kautz)。2017.无监督的图像到图像翻译网络。在NeurIPS中。700--708.数字图书馆谷歌学者[32]刘紫薇、罗萍、王晓刚和唐晓鸥。2015.野外深度学习面部特征。在ICCV中。数字图书馆谷歌学者[33]吕富君、帕里斯、谢赫特曼和卡维塔·巴拉。2017。深度照片风格转移。在CVPR中。6997--7005.谷歌学者[34]Fangchang Ma、Ulas Ayaz和Sertac Karaman。2018年,部分测量卷积生成网络的可逆性。在NeurIPS中。9651--9660.数字图书馆谷歌学者[35]梅迪·米尔扎(Mehdi Mirza)和西蒙·奥斯宾多(Simon Osindero)。2014.有条件生成对抗网。arXiv预印本arXiv:1411.1784(2014)。谷歌学者[36]大宋公园、刘明玉、王廷春和朱俊彦。2019.具有空间自适应规范化的语义图像合成。在CVPR中。2337--2346.数字图书馆谷歌学者[37]大兴公园、朱俊彦、王立佛、卢景万、埃利·谢赫特曼、亚历克谢·埃夫罗斯和理查德·张。2020年,替换自动编码器进行深层图像处理。在NeurIPS中。谷歌学者[38]William S.Peebles、John Peebless、Jun-Yan Zhu、Alexei A.Efros和Antonio Torralba。2020年,黑森惩罚:无监督脱纠缠的微弱先验。在ECCV中。581--597.谷歌学者[39]Justin N.M.Pinkney和Doron Adler。2020年。用于域间可控图像合成的分辨率相关GAN插值。CoRR,Vol.abs/2010.05334(2020)。谷歌学者[40]奥拉夫·伦尼伯格(Olaf Ronneberger)、菲利普·菲舍尔(Philipp Fischer)和托马斯·布洛克斯(Thomas Brox)。2015.U-Net:生物医学图像分割的卷积网络。在MICCAI。234--241.谷歌学者[41]塔玛·罗特·沙哈姆(Tamar Rott Shaham)、塔利·德克尔(Tali Dekel)和托梅尔·迈克利(Tomer Michaeli)。2019.辛甘:从单一自然图像中学习生成模型。在ICCV中。谷歌学者[42]沈宇军、顾锦锦、汤晓鸥和周伯雷。2020年a.解释用于语义面部编辑的GAN的潜在空间。在CVPR中。9240--9249.谷歌学者[43]沈宇军、杨策远、汤晓鸥和周伯雷。2020年b.InterFaceGAN:解释GAN学习的分离面部表征。IEEE TPAMI(2020)。谷歌学者[44]沈玉君和周伯雷。2020.GANs中潜在语义的闭式分解。CoRR,第abs/2007.06600卷(2020年)。谷歌学者[45]阿萨夫·舒彻(Assaf Shocher)、谢·巴贡(Shai Bagon)、菲利普·伊索拉(Phillip Isola)和米查尔·伊拉尼(Michal Irani)。2019.InGAN:捕获并重新定位自然图像的“DNA”。在ICCV中。谷歌学者[46]Aliaksandr Siarohin、Enver Sangineto和Nicu Sebe。2019.GAN的增白和着色批量改造。在ICLR中。谷歌学者[47]德米特里·乌里扬诺夫(Dmitry Ulyanov)、安德烈亚·维达尔迪(Andrea Vedaldi)和维克托·伦皮茨基(Victor S.Lempitsky)。2020年。深度图像优先。IJCV,第128卷,第7卷(2020年),1867-1888年。交叉参考谷歌学者[48]王廷春、刘明宇、朱俊彦、陶德鲁、扬·考茨和布莱恩·卡坦扎罗。2018.使用条件GAN进行高分辨率图像合成和语义操作。在CVPR中。8798--8807.谷歌学者[49]Xian Wenqi、Patsorn Sangkloy、Varun Agrawal、Amit Raj、Jingwan Lu、Chen Fang、Fisher Yu和James Hays。2018.TextureGAN:使用纹理补丁控制深度图像合成。在CVPR中。8456--8465.谷歌学者[50]Jaejun Yoo、Youngjung Uh、Sanghyuk Chun、Byeongkyu Kang和Jung Woo Ha。2019.通过小波变换实现照片级风格转换。在ICCV中。谷歌学者[51]于菲舍尔、张银达、宋树然、阿里·塞夫和肖建雄。2015年,LSUN:利用深度学习构建大规模图像数据集,并将人类融入其中。CoRR,第abs/1506.03365卷(2015年)。谷歌学者[52]余佳慧、林哲、杨集美、沈晓慧、陆欣和黄志军。2018年,《关注语境的生成性意象绘画》。在CVPR中。5505--5514.谷歌学者[53]余佳慧、林哲、杨集美、沈晓慧、陆欣和黄志军。2019.使用门限卷积的自由形式图像内画。在ICCV中。4470--4479.谷歌学者[54]杨舟、甄珠、向白、达尼·利钦斯基、丹尼尔·科恩·奥尔和黄慧。2018.通过对抗性扩展进行非静态纹理合成。ACM事务处理。图表。,第37卷,第4卷(2018年),49:1--49:13。数字图书馆谷歌学者[55]朱俊彦(Jun-Yan Zhu)、菲利普·科尔(Philipp Kr“a henbühl)、埃利·谢赫特曼(Eli Shechtman)和亚历克谢·埃夫罗斯(Alexei a.Efros),2016年。自然图像流形上的生成视觉操作。在ECCV中。597--613.谷歌学者[56]朱俊彦(Jun-Yan Zhu)、大兴公园(Taesung Park)、菲利普·伊索拉(Phillip Isola)和阿列克谢·埃夫罗斯(Alexei A.Efros)。2017年a。使用循环一致对抗性网络的非配对图像到图像翻译。在ICCV中。2242--2251.谷歌学者[57]朱俊彦(Jun-Yan Zhu)、理查德·张(Richard Zhang)、迪帕克·帕塔克(Deepak Pathak)、特雷弗·达雷尔(Trevor Darrell)、亚历克谢·埃夫罗斯(Alexei A.Efros)、奥利弗·王(Oliver Wang。2017年b月。走向多模图像到图像的转换。在NeurIPS中。465--476.数字图书馆谷歌学者[58]朱培浩(Peihao Zhu)、拉明·阿卜杜勒(Rameen Abdal)、秦一鹏(Yipeng Qin)和彼得·旺卡(Peter Wonka)。2020年a.SEAN:具有语义区域自适应归一化的图像合成。在CVPR中。谷歌学者[59]朱震、徐志良、尤安生、向白。2020年b.语义多模式图像合成。在CVPR中。谷歌学者 引用人查看全部周C中FÖztireli C公司(2023)CLIP-PAE:投影增强嵌入以提取相关特征,用于分离、可解释和可控制的文本引导人脸操作ACM SIGGRAPH 2023会议记录10.1145/3588432.3591532(1-9)在线发布日期:2023年7月23日https://dl.acm.org/doi/10.1145/3588432.3591532 索引术语 面向可控和真实感区域图像操作计算方法人工智能计算机视觉计算机视觉问题重建计算机视觉表示外观和纹理表示 建议 基于颜色信息增强的局部二值模式正交组合的图像区域描述 视觉内容描述是基于机器的图像分析和理解的关键问题。一个好的视觉描述子应该既有鉴别能力又有计算效率,同时还应具有对视点变化和视点变化的鲁棒性。。。阅读更多信息基于感兴趣区域的鉴别图像散列MMM’10:第16届多媒体建模进展国际会议论文集 本文提出了一种基于感兴趣区域(ROI)的鉴别图像散列方案,以提高图像内容修改下的鉴别能力,同时还提高了对内容保持操作的鲁棒性。。。阅读更多信息基于对象的图像编辑SIGGRAPH’02:第29届计算机图形学与交互技术年会论文集 我们引入了基于对象的图像编辑(OBIE),用于实时动画和静态数字照片的操作。选择、缩放、拉伸、弯曲、扭曲甚至删除单个图像对象(如手臂或鼻子,图1)。。。阅读更多信息 评论 Please enable JavaScript to view thecomments powered by Disqus. 信息和贡献者问询处发布于 MM’21:第29届ACM国际多媒体会议记录2021年10月5796页国际标准图书编号:9781450386517DOI(操作界面):10.1145/3474085一般主席:恒涛申中国电子科技大学,岳廷庄中国浙江大学,约翰·R·史密斯IBM,美国,课程主席:杨扬中国电子科技大学,巴布罗·塞萨尔CWI&TU Delft,荷兰,弗洛里安·梅茨美国FACEBOOK公司,巴拉克里什南·普拉巴卡兰美国德克萨斯大学达拉斯分校 版权所有©2021 ACM。如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]赞助商SIGMM:ACM多媒体特别兴趣小组出版商计算机协会美国纽约州纽约市出版历史出版:2021年10月17日权限请求对此文章的权限。请求权限检查更新作者标记代码一致性内容对齐可控和真实感图像编辑限定符研究文章资金来源上海杨帆项目会议21年月日赞助商:SIGMM公司21岁MM:ACM多媒体会议2021年10月20日至24日虚拟活动,中国 接受率4171份提交文件的总体接受率为995份,24% 即将召开的会议 24年月日 赞助商: 西格玛 24岁MM:第32届ACM国际多媒体会议 2024年10月28日至11月1日 墨尔本,维多利亚州,澳大利亚 贡献者 其他指标查看文章指标文献计量学和引文文献计量学 文章指标 1引文总数查看引文161总下载次数下载次数(过去12个月)19下载次数(最近6周)三 其他指标查看作者指标引文 引用人查看全部周C中FÖztireli C公司(2023)CLIP-PAE:投影增强嵌入以提取相关特征,用于分离、可解释和可控制的文本引导人脸操作ACM SIGGRAPH 2023会议记录10.1145/3588432.3591532(1-9)在线发布日期:2023年7月23日https://dl.acm.org/doi/10.1145/3588432.3591532 视图选项获取访问权限 登录选项检查您是否可以通过登录凭据或您的机构访问本文。登录完全访问权限获取此出版物 查看选项 PDF格式以PDF文件查看或下载。PDF格式 电子阅读器使用联机查看电子阅读器.电子阅读器媒体数字其他桌子分享分享共享此出版物链接复制链接已复制!复制失败。在社交媒体上分享Linkedin公司重新编辑电子邮件附属公司安生 你北京大学,中国北京查看个人资料成林 周上海理工大学,中国上海查看个人资料七轩 张上海理工大学,中国上海查看个人资料局域网 徐上海理工大学,中国上海查看个人资料