跳到主要内容
研究论文

从有限注释中学习注视感知合成GAN

出版:2024年5月17日出版历史
跳过抽象节

摘要

凝视注释面部数据对于训练深度神经网络(DNN)进行凝视估计至关重要。然而,获取这些数据需要耗费大量人力,并且需要专门的设备,因为精确标注对象的视线方向是一项挑战。在这项工作中,我们提出了一个生成性框架,通过利用标记和未标记数据源的优点来创建带注释的凝视数据。我们提出了一种凝视感知合成GAN,该合成GAN学习从有限的标记数据集生成带注释的面部图像。然后,我们将此模型转移到未标记的数据域,以利用其提供的多样性。实验证明,我们的方法在ETH-XGaze数据集中生成域内图像增强以及在CelebAMask-HQ数据集中生成跨域增强以进行凝视估计DNN训练方面是有效的。我们还展示了我们工作的其他应用,包括面部图像编辑和视线重定向。

工具书类

  1. Ahmed A Abdelrahman、Thorsten Hempel、Aly Khalifa和Ayoub Al-Hamadi。2022.L2CS-Net:无约束环境中的细粒度凝视估计。arXiv预打印arXiv:2203.03339(2022)。谷歌学者谷歌学者
  2. Alexander Amini、Ava P Soleimany、Wilko Schwarting、Sangeeta N Bhatia和Daniela Rus。2019.通过学习潜在结构来发现和缓解算法偏差。2019年AAAI/ACM人工智能、道德和社会会议记录。289--295.谷歌学者谷歌学者数字图书馆数字图书馆
  3. Nuri Murat Arar、Hua Gao和Jean-Philippe Thiran。2016年,基于回归的实时凝视估计用户校准框架。IEEE视频技术电路和系统汇刊27,12(2016),2623-2638。谷歌学者谷歌学者数字图书馆数字图书馆
  4. 瓦伦丁·巴扎列夫斯基(Valentin Bazarevsky)、尤里·卡廷尼克(Yury Kartynik)、安德烈·瓦库诺夫(Andrey Vakunov)、卡蒂克·拉文德兰(Karthik Raveendran)和马蒂亚斯·格兰德曼。2019.Blazeface:移动gpu上的亚毫秒级神经人脸检测。arXiv预印本arXiv:1907.05047(2019)。谷歌学者谷歌学者
  5. 萨吉·本奈姆(Sagie Benaim)和莉奥·沃尔夫(Lior Wolf)。2018年,一拍无监督跨领域翻译。神经信息处理系统进展31(2018)。谷歌学者谷歌学者
  6. 安德鲁·布洛克(Andrew Brock)、杰夫·多纳休(Jeff Donahue)和凯伦·西蒙扬(Karen Simonyan)。2018.用于高保真自然图像合成的大规模GAN训练。arXiv预印arXiv:1809.11096(2018)。谷歌学者谷歌学者
  7. 陈晶晶(Jingjing Chen)、张继超(Jichao Zhang)、恩维尔·桑吉内托(Enver Sangineto)、陈涛(Tao Chen),范嘉元(Jiayuan Fan)和尼库·塞贝(Nicu Sebe)。2021.通过数字和图像引导进行粗略到精细的凝视重定向。IEEE/CVF计算机视觉应用冬季会议论文集。3665--3674.谷歌学者谷歌学者交叉引用交叉引用
  8. 程一华(Yihua Cheng)和陆锋(Feng Lu),2022年。使用变压器进行凝视估计。2022年,第26届模式识别国际会议(ICPR)。IEEE,3341--3347。谷歌学者谷歌学者交叉引用交叉引用
  9. 程一华,王浩飞,鲍一伟,冯璐。2021。基于外表的深度学习凝视评估:回顾与基准。arXiv预印本arXiv:2104.12668(2021)。谷歌学者谷歌学者
  10. 安东尼娅·克雷斯韦尔、汤姆·怀特、文森特·杜穆林、凯·阿鲁库马兰、比斯瓦·森古普塔和阿尼尔·A·巴拉斯。2018.生成性对抗网络:概述。IEEE信号处理杂志35,1(2018),53--65。谷歌学者谷歌学者
  11. 于登、杨蛟龙、董晨、方文和辛彤。2020年。通过三维模拟控制学习生成不纠缠且可控的人脸图像。在IEEE/CVF关于计算机视觉和模式识别的会议记录中。5154--5163.谷歌学者谷歌学者交叉引用交叉引用
  12. 雅罗斯拉夫·加宁(Yaroslav Ganin)、丹尼尔·科诺连科(Daniel Kononenko)、戴安娜·桑加图利纳(Diana Sungatullina)和维克托·莱姆皮茨基(Victor Lempitsky)。2016.Deepwarp:为凝视操作重新合成照片级图像。在欧洲计算机视觉会议上。施普林格,311-326。谷歌学者谷歌学者交叉引用交叉引用
  13. 埃里克·哈科宁(Erik Härkönen)、亚伦·赫茨曼(Aaron Hertzmann)、贾科·莱赫蒂宁(Jaakko Lehtinen)和西尔万·巴黎(Sylvain Paris),2020年。甘斯空间:发现可解释的甘斯控制。神经信息处理系统进展33(2020),9841-9850。谷歌学者谷歌学者
  14. 何开明、张湘玉、任少清、孙建军。2016.图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议记录中。770--778.谷歌学者谷歌学者交叉引用交叉引用
  15. 马丁·休塞尔、休伯特·拉姆索尔、托马斯·恩特提纳、伯恩哈德·奈斯勒和塞普·霍克莱特。2017年。根据两个时间尺度更新规则训练的Gans收敛到局部纳什均衡。神经信息处理系统进展30(2017)。谷歌学者谷歌学者
  16. 石川高弘。2004.采用主动外观模型的被动驾驶员视线跟踪。(2004).谷歌学者谷歌学者
  17. Ali Jahanian、Lucy Chai和Phillip Isola。2019.关于生成性对抗网络的“可操纵性”。arXiv预印本arXiv:1907.07171(2019)。谷歌学者谷歌学者
  18. Tero Karras、Miika Aittala、Samuli Laine、Erik Härkönen、Janne Hellsten、Jaakko Lehtinen和Timo Aila。2021.无别名生成对抗性网络。神经信息处理系统进展34(2021),852-863。谷歌学者谷歌学者
  19. 泰罗·卡拉斯(Tero Karras)、萨穆利·莱恩(Samuli Laine)和蒂莫·艾拉(Timo Aila)。2019.一种用于生成对抗性网络的基于风格的生成器架构。IEEE/CVF计算机视觉和模式识别会议论文集。4401--4410.谷歌学者谷歌学者交叉引用交叉引用
  20. 尤里·卡廷尼克(Yury Kartynik)、阿塞罗姆·阿布拉瓦茨基(Artsiom Ablavatski)、伊万·格里什琴科(Ivan Grishchenko)和马蒂亚斯·格兰德曼(Matthias Grundmann)。2019.移动GPU上单目视频的实时面部曲面几何。arXiv预印本arXiv:1907.06724(2019)。谷歌学者谷歌学者
  21. 哈西姆兰·考尔和罗伯特·曼杜奇。2020年。Eyegan:凝视保护,掩蔽介导的眼睛图像合成。IEEE/CVF计算机视觉应用冬季会议论文集。310--319.谷歌学者谷歌学者交叉引用交叉引用
  22. 彼得·凯伦霍夫(Petr Kellnhofer)、阿德里亚·雷卡森斯(Adria Recasens)、西蒙·斯坦特(Simon Stent)、沃伊西奇·马图西克(Wojciech Matusik)和安东尼奥·托拉尔巴(Antonio Torralba)。2019.Gaze360:野外物理无约束凝视评估。IEEE/CVF计算机视觉国际会议论文集。6912--6921.谷歌学者谷歌学者交叉引用交叉引用
  23. Diederik P Kingma和Jimmy Ba.2014年。亚当:一种随机优化方法。arXiv预印本arXiv:1412.6980(2014)。谷歌学者谷歌学者
  24. 李成汉、刘紫薇、吴凌云和罗萍。2020年,Maskgan:走向多样化和交互式面部图像处理。IEEE/CVF计算机视觉和模式识别会议论文集。5549--5558.谷歌学者谷歌学者交叉引用交叉引用
  25. 李耿彦、阿比米特拉·梅卡、弗兰齐斯卡·穆勒、马塞尔·布埃勒、奥特玛·希利格斯和塔博·比勒。2022.EyeNeRF:人眼真实感合成、动画和重新照明的混合表示。ACM图形学报(TOG)41,4(2022),1--16。谷歌学者谷歌学者数字图书馆数字图书馆
  26. 大卫·马斯科。2017.使用转移学习进行眼睛跟踪校准。谷歌学者谷歌学者
  27. Lars Mescheder、Andreas Geiger和Sebastian Nowozin。2018年,针对GAN的哪些培训方法真正趋同?。在机器学习国际会议上。PMLR,3481-3490。谷歌学者谷歌学者
  28. Ben Mildenhall、Pratul P Srinivasan、Matthew Tancik、Jonathan T Barron、Ravi Ramamoorthi和Ren Ng.2021。Nerf:将场景表示为用于视图合成的神经辐射场。Commun公司。ACM 65(2021),99-106。谷歌学者谷歌学者数字图书馆数字图书馆
  29. Margaret Mitchell、Simone Wu、Andrew Zaldivar、Parker Barnes、Lucy Vasserman、Ben Hutchinson、Elena Spitzer、Inioluwa Deborah Raji和Timnit Gebru。2019.模型报告的模型卡。在关于公平、问责制和透明度的会议记录中。220--229.谷歌学者谷歌学者数字图书馆数字图书馆
  30. 谢尔盖·尼古拉科。2021.深度学习的合成数据。第174卷。斯普林格。谷歌学者谷歌学者
  31. Seonwook Park、Shalini De Mello、Pavlo Molchanov、Umar Iqbal、Otmar Hilliges和Jan Kautz。2019.少镜头自适应凝视估计。IEEE/CVF计算机视觉国际会议论文集。9368--9377.谷歌学者谷歌学者交叉引用交叉引用
  32. 索尼娅·波塔(Sonia Porta)、贝诺伊特·博萨维特(Benoit Bossavit)、拉斐尔·卡贝扎(Rafael Cabeza)、安多尼·拉伦贝格拉(Andoni Larumbe-Bergera)、冈萨洛·加德(Gonzalo Garde)和阿兰塔·维拉努。2019.U2Eyes:用于眼睛跟踪和凝视估计的双目数据集。IEEE/CVF国际计算机视觉研讨会论文集。0--0.谷歌学者谷歌学者交叉引用交叉引用
  33. Mahima Pushkarna、Andrew Zaldivar和Oddur Kjartansson。2022.数据卡:为负责任的人工智能提供有目的和透明的数据集文档。《2022年ACM公平、问责和透明度会议记录》。1776--1826.谷歌学者谷歌学者数字图书馆数字图书馆
  34. Tim Salimans、Ian Goodfellow、Wojciech Zaremba、Vicki Cheung、Alec Radford和Xi Chen。2016年,改进了培训机构的技术。神经信息处理系统进展29(2016)。谷歌学者谷歌学者
  35. 马坦·塞拉(Matan Sela)、徐平美(Pingmei Xu)、何俊峰(Junfeng He)、维迪亚·纳瓦尔帕卡姆(Vidhya Navalpakkam)和德米特里·拉贡(Dmitry Lagun)。2017.用于凝视估计的Gazegan非配对对抗性图像生成。arXiv预印本arXiv:1711.09767(2017)。谷歌学者谷歌学者
  36. 沈宇军、顾锦锦、汤晓鸥和周伯雷。2020年,解读人脸语义编辑组织的潜在空间。IEEE/CVF计算机视觉和模式识别会议论文集。9243--9252.谷歌学者谷歌学者交叉引用交叉引用
  37. 史宜春、肖扬、杨跃万和沈晓慧。2022.语义风格GAN:学习可控图像合成和编辑的合成生成先验。IEEE/CVF计算机视觉和模式识别会议论文集。11254--11264.谷歌学者谷歌学者交叉引用交叉引用
  38. Ashish Shrivastava、Tomas Pfister、Oncel Tuzel、Joshua Susskind、Wenda Wang和Russell Webb。2017年。通过对抗性训练从模拟和无监督图像中学习。在IEEE计算机视觉和模式识别会议记录中。2107--2116.谷歌学者谷歌学者交叉引用交叉引用
  39. 舒叶芝、冉毅、夏梦飞、叶紫鹏、王钊、杨晨、赖宇坤和刘永进。2021.基于Gan的多风格照片卡通化。IEEE可视化和计算机图形汇刊28,10(2021),3376--3390。谷歌学者谷歌学者交叉引用交叉引用
  40. Neelabh Sinha、Michal Balazia和François Bremond。2021.火焰:面部地标热图激活多模式凝视评估。2021年,第17届IEEE高级视频和信号监控(AVSS)国际会议。IEEE,1--8。谷歌学者谷歌学者
  41. Erroll Wood、Tadas Baltrušaitis、Louis-Philippe Morency、Peter Robinson和Andreas Bulling。2016。从一百万张合成图像中学习基于外观的凝视估计器。在第九届两年一度的ACM眼动跟踪研究与应用研讨会的会议记录中。131--138.谷歌学者谷歌学者数字图书馆数字图书馆
  42. 夏伟豪、杨玉菊、薛景浩和冯文森。2020年。可控连续凝视重定向。第28届ACM国际多媒体会议记录。1782--1790.谷歌学者谷歌学者数字图书馆数字图书馆
  43. 张继超、孙孟、陈晶晶、唐浩、闫燕、秦雪莹和尼库·塞贝。2019.瞪眼矫正:使用自我监督的生成性对抗网络在野外进行自我引导的眼睛操作。arXiv预印arXiv:1906.00805(2019)。谷歌学者谷歌学者
  44. Richard Zhang、Phillip Isola、Alexei A Efros、Eli Shechtman和Oliver Wang。2018年。深层特征作为感知指标的不合理有效性。在IEEE计算机视觉和模式识别会议记录中。586--595.谷歌学者谷歌学者交叉引用交叉引用
  45. 张旭聪、Seonwook Park、Thabo Beeler、Derek Bradley、唐思玉和Otmar Hilliges。2020年,Eth-xgake:一个用于极端头部姿势和凝视变化下凝视估计的大规模数据集。在欧洲计算机视觉会议上。斯普林格,365-381。谷歌学者谷歌学者数字图书馆数字图书馆
  46. 张旭聪、素加诺、弗里茨和布林。2015年。野外基于外表的凝视估计。在IEEE计算机视觉和模式识别会议记录中。4511--4520.谷歌学者谷歌学者交叉引用交叉引用

索引术语

  1. 从有限注释中学习注视感知合成GAN

        建议

        评论

        登录选项

        检查您是否可以通过登录凭据或您的机构访问本文。

        登录

        完全访问权限

        • 发布于

          计算机图形学和交互技术ACM封面图像会议录
          计算机图形和交互技术ACM会议录 第7卷第2期
          2024年5月
          101页
          EISSN公司:2577-6193
          内政部:10.1145/3665652年
          期刊目录

          版权所有©2024 ACM

          如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

          出版商

          计算机协会

          美国纽约州纽约市

          出版历史

          • 出版:2024年5月17日
          发布于太平洋捷运局第7卷第2期

          权限

          请求有关此文章的权限。

          请求权限

          检查更新

          限定符

          • 研究论文
          • 研究
          • 推荐
        • 文章指标

          • 下载次数(过去12个月)63
          • 下载次数(最近6周)63

          其他指标

        PDF格式

        以PDF文件的形式查看或下载。

        PDF格式

        电子阅读器

        使用eReader联机查看。

        电子阅读器