研究论文

从有限注释中学习注视感知合成GAN

作者：
内雷亚·阿兰朱埃洛

西班牙巴斯克研究与技术联盟Vicomtech基金会

西班牙巴斯克研究与技术联盟Vicomtech基金会

0000-0002-7853-6708
查看个人资料

,
黄思玉

美国克莱姆森大学

美国克莱姆森大学

0000-0002-2929-0115
查看个人资料

,
伊格纳西奥·阿尔甘达·卡雷拉斯

西班牙巴斯克大学、西班牙伊克巴斯克大学、西班牙多诺斯蒂亚国际物理中心和西班牙毕奥菲西卡研究所

西班牙巴斯克大学、西班牙伊克巴斯克大学、西班牙多诺斯蒂亚国际物理中心和西班牙毕奥菲西卡研究所

0000-0003-0229-5722
查看个人资料

,
路易斯·恩祖埃塔

西班牙巴斯克研究与技术联盟Vicomtech基金会

西班牙巴斯克研究与技术联盟Vicomtech基金会

0000-0001-5648-0910
查看个人资料

,
奥伊哈娜·奥塔吉

西班牙巴斯克研究与技术联盟Vicomtech基金会

西班牙巴斯克研究与技术联盟Vicomtech基金会

0000-0001-6069-8787
查看个人资料

,
Hanspeter Pfister公司

美国马萨诸塞州哈佛约翰·A·鲍尔森工程与应用科学学院

美国马萨诸塞州哈佛约翰·A·鲍尔森工程与应用科学学院

0000-0002-3620-2582
查看个人资料

,
东来伟

美国马萨诸塞州波士顿学院

美国马萨诸塞州波士顿学院

0000-0002-2329-5484
查看个人资料

作者信息和声明

计算机图形和交互技术ACM会议录第7卷第2版条款编号：28第1-17页https://doi.org/10.1145/3654706

出版：2024年5月17日出版历史

计算机图形和交互技术ACM会议录

摘要

凝视注释面部数据对于训练深度神经网络（DNN）进行凝视估计至关重要。然而，获取这些数据需要耗费大量人力，并且需要专门的设备，因为精确标注对象的视线方向是一项挑战。在这项工作中，我们提出了一个生成性框架，通过利用标记和未标记数据源的优点来创建带注释的凝视数据。我们提出了一种凝视感知合成GAN，该合成GAN学习从有限的标记数据集生成带注释的面部图像。然后，我们将此模型转移到未标记的数据域，以利用其提供的多样性。实验证明，我们的方法在ETH-XGaze数据集中生成域内图像增强以及在CelebAMask-HQ数据集中生成跨域增强以进行凝视估计DNN训练方面是有效的。我们还展示了我们工作的其他应用，包括面部图像编辑和视线重定向。

工具书类

Ahmed A Abdelrahman、Thorsten Hempel、Aly Khalifa和Ayoub Al-Hamadi。2022.L2CS-Net：无约束环境中的细粒度凝视估计。arXiv预打印arXiv:2203.03339（2022）。谷歌学者
Alexander Amini、Ava P Soleimany、Wilko Schwarting、Sangeeta N Bhatia和Daniela Rus。2019.通过学习潜在结构来发现和缓解算法偏差。2019年AAAI/ACM人工智能、道德和社会会议记录。289--295.谷歌学者数字图书馆
Nuri Murat Arar、Hua Gao和Jean-Philippe Thiran。2016年，基于回归的实时凝视估计用户校准框架。IEEE视频技术电路和系统汇刊27，12（2016），2623-2638。谷歌学者数字图书馆
瓦伦丁·巴扎列夫斯基（Valentin Bazarevsky）、尤里·卡廷尼克（Yury Kartynik）、安德烈·瓦库诺夫（Andrey Vakunov）、卡蒂克·拉文德兰（Karthik Raveendran）和马蒂亚斯·格兰德曼。2019.Blazeface：移动gpu上的亚毫秒级神经人脸检测。arXiv预印本arXiv:1907.05047（2019）。谷歌学者
萨吉·本奈姆（Sagie Benaim）和莉奥·沃尔夫（Lior Wolf）。2018年，一拍无监督跨领域翻译。神经信息处理系统进展31（2018）。谷歌学者
安德鲁·布洛克（Andrew Brock）、杰夫·多纳休（Jeff Donahue）和凯伦·西蒙扬（Karen Simonyan）。2018.用于高保真自然图像合成的大规模GAN训练。arXiv预印arXiv:1809.11096（2018）。谷歌学者
陈晶晶（Jingjing Chen）、张继超（Jichao Zhang）、恩维尔·桑吉内托（Enver Sangineto）、陈涛（Tao Chen），范嘉元（Jiayuan Fan）和尼库·塞贝（Nicu Sebe）。2021.通过数字和图像引导进行粗略到精细的凝视重定向。IEEE/CVF计算机视觉应用冬季会议论文集。3665--3674.谷歌学者交叉引用
程一华（Yihua Cheng）和陆锋（Feng Lu），2022年。使用变压器进行凝视估计。2022年，第26届模式识别国际会议（ICPR）。IEEE，3341--3347。谷歌学者交叉引用
程一华，王浩飞，鲍一伟，冯璐。2021。基于外表的深度学习凝视评估：回顾与基准。arXiv预印本arXiv:2104.12668（2021）。谷歌学者
安东尼娅·克雷斯韦尔、汤姆·怀特、文森特·杜穆林、凯·阿鲁库马兰、比斯瓦·森古普塔和阿尼尔·A·巴拉斯。2018.生成性对抗网络：概述。IEEE信号处理杂志35，1（2018），53--65。谷歌学者
于登、杨蛟龙、董晨、方文和辛彤。2020年。通过三维模拟控制学习生成不纠缠且可控的人脸图像。在IEEE/CVF关于计算机视觉和模式识别的会议记录中。5154--5163.谷歌学者交叉引用
雅罗斯拉夫·加宁（Yaroslav Ganin）、丹尼尔·科诺连科（Daniel Kononenko）、戴安娜·桑加图利纳（Diana Sungatullina）和维克托·莱姆皮茨基（Victor Lempitsky）。2016.Deepwarp：为凝视操作重新合成照片级图像。在欧洲计算机视觉会议上。施普林格，311-326。谷歌学者交叉引用
埃里克·哈科宁（Erik Härkönen）、亚伦·赫茨曼（Aaron Hertzmann）、贾科·莱赫蒂宁（Jaakko Lehtinen）和西尔万·巴黎（Sylvain Paris），2020年。甘斯空间：发现可解释的甘斯控制。神经信息处理系统进展33（2020），9841-9850。谷歌学者
何开明、张湘玉、任少清、孙建军。2016.图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议记录中。770--778.谷歌学者交叉引用
马丁·休塞尔、休伯特·拉姆索尔、托马斯·恩特提纳、伯恩哈德·奈斯勒和塞普·霍克莱特。2017年。根据两个时间尺度更新规则训练的Gans收敛到局部纳什均衡。神经信息处理系统进展30（2017）。谷歌学者
石川高弘。2004.采用主动外观模型的被动驾驶员视线跟踪。(2004).谷歌学者
Ali Jahanian、Lucy Chai和Phillip Isola。2019.关于生成性对抗网络的“可操纵性”。arXiv预印本arXiv:1907.07171（2019）。谷歌学者
Tero Karras、Miika Aittala、Samuli Laine、Erik Härkönen、Janne Hellsten、Jaakko Lehtinen和Timo Aila。2021.无别名生成对抗性网络。神经信息处理系统进展34（2021），852-863。谷歌学者
泰罗·卡拉斯（Tero Karras）、萨穆利·莱恩（Samuli Laine）和蒂莫·艾拉（Timo Aila）。2019.一种用于生成对抗性网络的基于风格的生成器架构。IEEE/CVF计算机视觉和模式识别会议论文集。4401--4410.谷歌学者交叉引用
尤里·卡廷尼克（Yury Kartynik）、阿塞罗姆·阿布拉瓦茨基（Artsiom Ablavatski）、伊万·格里什琴科（Ivan Grishchenko）和马蒂亚斯·格兰德曼（Matthias Grundmann）。2019.移动GPU上单目视频的实时面部曲面几何。arXiv预印本arXiv:1907.06724（2019）。谷歌学者
哈西姆兰·考尔和罗伯特·曼杜奇。2020年。Eyegan：凝视保护，掩蔽介导的眼睛图像合成。IEEE/CVF计算机视觉应用冬季会议论文集。310--319.谷歌学者交叉引用
彼得·凯伦霍夫（Petr Kellnhofer）、阿德里亚·雷卡森斯（Adria Recasens）、西蒙·斯坦特（Simon Stent）、沃伊西奇·马图西克（Wojciech Matusik）和安东尼奥·托拉尔巴（Antonio Torralba）。2019.Gaze360：野外物理无约束凝视评估。IEEE/CVF计算机视觉国际会议论文集。6912--6921.谷歌学者交叉引用
Diederik P Kingma和Jimmy Ba.2014年。亚当：一种随机优化方法。arXiv预印本arXiv:1412.6980（2014）。谷歌学者
李成汉、刘紫薇、吴凌云和罗萍。2020年，Maskgan：走向多样化和交互式面部图像处理。IEEE/CVF计算机视觉和模式识别会议论文集。5549--5558.谷歌学者交叉引用
李耿彦、阿比米特拉·梅卡、弗兰齐斯卡·穆勒、马塞尔·布埃勒、奥特玛·希利格斯和塔博·比勒。2022.EyeNeRF：人眼真实感合成、动画和重新照明的混合表示。ACM图形学报（TOG）41，4（2022），1--16。谷歌学者数字图书馆
大卫·马斯科。2017.使用转移学习进行眼睛跟踪校准。谷歌学者
Lars Mescheder、Andreas Geiger和Sebastian Nowozin。2018年，针对GAN的哪些培训方法真正趋同？。在机器学习国际会议上。PMLR，3481-3490。谷歌学者
Ben Mildenhall、Pratul P Srinivasan、Matthew Tancik、Jonathan T Barron、Ravi Ramamoorthi和Ren Ng.2021。Nerf：将场景表示为用于视图合成的神经辐射场。Commun公司。ACM 65（2021），99-106。谷歌学者数字图书馆
Margaret Mitchell、Simone Wu、Andrew Zaldivar、Parker Barnes、Lucy Vasserman、Ben Hutchinson、Elena Spitzer、Inioluwa Deborah Raji和Timnit Gebru。2019.模型报告的模型卡。在关于公平、问责制和透明度的会议记录中。220--229.谷歌学者数字图书馆
谢尔盖·尼古拉科。2021.深度学习的合成数据。第174卷。斯普林格。谷歌学者
Seonwook Park、Shalini De Mello、Pavlo Molchanov、Umar Iqbal、Otmar Hilliges和Jan Kautz。2019.少镜头自适应凝视估计。IEEE/CVF计算机视觉国际会议论文集。9368--9377.谷歌学者交叉引用
索尼娅·波塔（Sonia Porta）、贝诺伊特·博萨维特（Benoit Bossavit）、拉斐尔·卡贝扎（Rafael Cabeza）、安多尼·拉伦贝格拉（Andoni Larumbe-Bergera）、冈萨洛·加德（Gonzalo Garde）和阿兰塔·维拉努。2019.U2Eyes：用于眼睛跟踪和凝视估计的双目数据集。IEEE/CVF国际计算机视觉研讨会论文集。0--0.谷歌学者交叉引用
Mahima Pushkarna、Andrew Zaldivar和Oddur Kjartansson。2022.数据卡：为负责任的人工智能提供有目的和透明的数据集文档。《2022年ACM公平、问责和透明度会议记录》。1776--1826.谷歌学者数字图书馆
Tim Salimans、Ian Goodfellow、Wojciech Zaremba、Vicki Cheung、Alec Radford和Xi Chen。2016年，改进了培训机构的技术。神经信息处理系统进展29（2016）。谷歌学者
马坦·塞拉（Matan Sela）、徐平美（Pingmei Xu）、何俊峰（Junfeng He）、维迪亚·纳瓦尔帕卡姆（Vidhya Navalpakkam）和德米特里·拉贡（Dmitry Lagun）。2017.用于凝视估计的Gazegan非配对对抗性图像生成。arXiv预印本arXiv:1711.09767（2017）。谷歌学者
沈宇军、顾锦锦、汤晓鸥和周伯雷。2020年，解读人脸语义编辑组织的潜在空间。IEEE/CVF计算机视觉和模式识别会议论文集。9243--9252.谷歌学者交叉引用
史宜春、肖扬、杨跃万和沈晓慧。2022.语义风格GAN:学习可控图像合成和编辑的合成生成先验。IEEE/CVF计算机视觉和模式识别会议论文集。11254--11264.谷歌学者交叉引用
Ashish Shrivastava、Tomas Pfister、Oncel Tuzel、Joshua Susskind、Wenda Wang和Russell Webb。2017年。通过对抗性训练从模拟和无监督图像中学习。在IEEE计算机视觉和模式识别会议记录中。2107--2116.谷歌学者交叉引用
舒叶芝、冉毅、夏梦飞、叶紫鹏、王钊、杨晨、赖宇坤和刘永进。2021.基于Gan的多风格照片卡通化。IEEE可视化和计算机图形汇刊28，10（2021），3376--3390。谷歌学者交叉引用
Neelabh Sinha、Michal Balazia和François Bremond。2021.火焰：面部地标热图激活多模式凝视评估。2021年，第17届IEEE高级视频和信号监控（AVSS）国际会议。IEEE，1--8。谷歌学者
Erroll Wood、Tadas Baltrušaitis、Louis-Philippe Morency、Peter Robinson和Andreas Bulling。2016。从一百万张合成图像中学习基于外观的凝视估计器。在第九届两年一度的ACM眼动跟踪研究与应用研讨会的会议记录中。131--138.谷歌学者数字图书馆
夏伟豪、杨玉菊、薛景浩和冯文森。2020年。可控连续凝视重定向。第28届ACM国际多媒体会议记录。1782--1790.谷歌学者数字图书馆
张继超、孙孟、陈晶晶、唐浩、闫燕、秦雪莹和尼库·塞贝。2019.瞪眼矫正：使用自我监督的生成性对抗网络在野外进行自我引导的眼睛操作。arXiv预印arXiv:1906.00805（2019）。谷歌学者
Richard Zhang、Phillip Isola、Alexei A Efros、Eli Shechtman和Oliver Wang。2018年。深层特征作为感知指标的不合理有效性。在IEEE计算机视觉和模式识别会议记录中。586--595.谷歌学者交叉引用
张旭聪、Seonwook Park、Thabo Beeler、Derek Bradley、唐思玉和Otmar Hilliges。2020年，Eth-xgake：一个用于极端头部姿势和凝视变化下凝视估计的大规模数据集。在欧洲计算机视觉会议上。斯普林格，365-381。谷歌学者数字图书馆
张旭聪、素加诺、弗里茨和布林。2015年。野外基于外表的凝视估计。在IEEE计算机视觉和模式识别会议记录中。4511--4520.谷歌学者交叉引用

索引术语

从有限注释中学习注视感知合成GAN
1. 计算方法
  1. 计算机图形
    1. 图像处理
      1. 图像处理
  2. 机器学习
    1. 机器学习方法
      1. 神经网络
2. 以人为中心的计算
  1. 人机交互（HCI）
    1. 交互技术

建议

作为辅助任务的半监督眼睛路标检测凝视估计
摘要
凝视的变化经常反映在眼睛标志物的运动中，突出了眼睛标志物学习对准确凝视估计的相关性。为了利用眼睛标志，我们提出了一个包含眼睛。。。
集锦
- 我们利用眼睛标记检测作为辅助任务来辅助凝视估计。
- 我们应用半监督学习来学习现实世界数据上的眼睛标记。
- 视线估计性能通过利用眼睛。。。
阅读更多信息
头部凝视：无需观察眼睛的凝视评估
模式识别
摘要
我们提出了一种不是通过眼睛观察而是通过头部运动来估计视线的方法。该方法基于人眼与头部协调的生理学研究，通过对头部运动的观察来估计视线方向。。。
阅读更多信息
基于错误感知的凝视界面凝视估计误差预测
ETRA’16：第九届双年度ACM眼动跟踪研究与应用研讨会论文集

凝视估计误差是头戴式眼球跟踪器固有的，严重影响基于凝视的界面的性能、可用性和用户体验。特别是在移动设置中，当用户向前移动并观看时，此错误会不断变化。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于

计算机图形和交互技术ACM会议录第7卷第2期
2024年5月
101页
EISSN公司：2577-6193
内政部：10.1145/3665652年
期刊目录

版权所有©2024 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2024年5月17日
发布于太平洋捷运局第7卷第2期

权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
挪威船级社
GAN公司
凝视估计
域转移
生成的
合成数据
限定符
- 研究论文
- 研究
- 推荐
会议
资金来源
其他指标
查看文章指标

文章指标
- 0
  引文总数
  查看引文
- 63
  总下载次数
- 下载次数（过去12个月）63
- 下载次数（最近6周）63
其他指标
查看作者指标
引用人
本出版物尚未被引用

PDF格式

以PDF文件的形式查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

从有限注释中学习注视感知合成GAN

计算机图形和交互技术ACM会议录

摘要

工具书类

引用人

索引术语

建议

作为辅助任务的半监督眼睛路标检测凝视估计

头部凝视：无需观察眼睛的凝视评估

基于错误感知的凝视界面凝视估计误差预测

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

解说词

从有限注释中学习注视感知合成GAN

计算机图形和交互技术ACM会议录

摘要

工具书类

引用人

索引术语

建议

作为辅助任务的半监督眼睛路标检测凝视估计

头部凝视：无需观察眼睛的凝视评估

基于错误感知的凝视界面凝视估计误差预测

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

共享此出版物链接

在社交媒体上分享