×

通过基于字幕的监督进行面部识别。 (英文) Zbl 1235.68266号

摘要:在本文中,我们提出了使用带标题的图像集合进行人脸识别的方法。我们考虑两个任务:检索数据集中特定人的所有面孔,以及在标题中的姓名和图像中的面孔之间建立正确的关联。这是一个挑战,因为图像中的外观变化很大,并且图像和标题之间可能存在不匹配。对于这两个任务,我们比较了生成概率模型和区分概率模型,以及在相似图中最大化子图密度的方法。我们通过考虑不同的度量学习技术来扩展它们,以获得适当的人脸表示,从而减少人内变异性并增加人间分离。对于检索任务,我们还研究了查询扩展的好处。为了评估性能,我们使用了一个新的31147个面的完全标记数据集,该数据集扩展了Wild数据集中最近的标记面。我们给出了大量的实验结果,结果表明,度量学习可以显著提高所有方法在这两个任务上的性能。

MSC公司:

第68页第45页 机器视觉和场景理解
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Anguelov,D.、Lee,K.C.、Gokturk,S.和;Sumengen,B.(2007年)。个人相册中的上下文身份识别。在CVPR中。
[2] Bar-Hillel,A.、Hertz,T.、Shental,N.和;Weinshall,D.(2005)。从等价约束中学习马氏度量。机器学习研究杂志,6937–965·Zbl 1222.68140号
[3] Barnard,K.、Duygulu,P.、Forsyth,D.、de Freitas,N.、Blei,D.和;Jordan,M.(2003年)。匹配单词和图片。机器学习研究杂志,31107-1135·Zbl 1061.68174号
[4] Bekkerman,R.和;Jeon,J.(2007)。多媒体收藏的多模式群集。在CVPR中。
[5] Berg,T.、Berg,A.、Edwards,J.、Maire,M.、White,R.、Teh,Y.、Learnd-Miller,E.和;Forsyth,D.(2004)。新闻中的姓名和面孔。在CVPR中。
[6] Berg,T.和;Forsyth,D.(2006年)。网络上的动物。在CVPR中。
[7] Bertsekas,D.(1976年)。关于Goldstein-Levitin-Polyak梯度投影法。IEEE自动控制汇刊,21(2),174–184·Zbl 0326.49025号 ·doi:10.1109/TAC.1976.1101194
[8] Bressan,M.、Csurka,G.、Hoppenot,Y.和;Renders,J.(2008)。旅游博客助理系统。计算机视觉理论和应用国际会议论文集。
[9] 巴克利,C.、索尔顿,G.、艾伦,J.和;Singhal,A.(1995年)。使用SMART的自动查询扩展:TREC3。《文本检索会议论文集》(第69-80页)。
[10] Charikar,M.(2000)。图中寻找稠密分量的贪婪近似算法。《组合优化的国际研讨会近似算法会议录》(第139-152页)·Zbl 0976.05062号
[11] Chopra,S.、Hadsell,R.和;LeCun,Y.(2005)。区分性地学习相似性度量,并应用于人脸验证。在CVPR中。
[12] Chum,O.、Philbin,J.、Sivic,J.和Isard,M;Zisserman,A.(2007年)。总召回:使用生成特征模型进行对象检索的自动查询扩展。在ICCV中。
[13] Cormen,T.、Leiserson,C.、Rivest,R.和;Stein,C.(2001)。算法简介(第二版)。剑桥/纽约:麻省理工学院出版社/麦格劳-希尔·兹比尔1047.68161
[14] Davis,J.、Kulis,B.、Jain,P.、Sra,S.和;Dhillon,I.(2007)。信息论计量学习。在ICML中。
[15] Dempster,A.、Laird,N.和;Rubin,D.(1977年)。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会杂志。B系列方法学,39(1),1-38·Zbl 0364.62022号
[16] Deschacht,K.,&;Moens,M.(2006)。使用条件随机场的高效分层实体分类。在《本体学习与人口研讨会论文集》中。
[17] Everingham,M.、Sivic,J.和;Zisserman,A.(2006)。”你好!我的名字是…Buffy——电视视频中角色的自动命名。在BMVC中。
[18] Fei-Fei,L.、Fergus,R.和;Perona,P.(2006)。对象类别的一次性学习。IEEE模式分析和机器智能汇刊,28(4),594–611·doi:10.1109/TPAMI.2006.79
[19] Ferencz,A.、Learnd-Miller,E.和;Malik,J.(2008)。学习定位视觉识别的信息特征。《国际计算机视觉杂志》,77,3-24·文件编号:10.1007/s11263-007-0093-5
[20] Fergus,R.、Fei-Fei,L.、Perona,P.和;Zisserman,A.(2005)。从谷歌的图像搜索中学习对象类别。ICCV(第10卷,第1816-1823页)。
[21] Georghiades,A.、Belhumeur,P.和;Kriegman,D.(2005)。从少到多:用于可变光照和姿势下人脸识别的照明锥模型。IEEE模式分析和机器智能汇刊,26(6),643–660。
[22] A.Globerson,&;Roweis,S.(2006)。通过分解课堂进行量度学习。以NIPS为单位。
[23] Grangier,D.、Monay,F.和;Bengio,S.(2006)。一种从文本查询中检索图像的鉴别方法。在《欧洲机器学习会议论文集》(第162-173页)中。
[24] Guillaumin,M.、Mensink,T.、Verbeek,J.和;Schmid,C.(2008)。具有基于字幕的监督功能的自动人脸命名。在CVPR中·Zbl 1235.68266号
[25] Guillaumin,M.、Mensink,T.、Verbeek,J.和;Schmid,C.(2009年a)。Tagprop:用于图像自动标注的最近邻模型中的区分性度量学习。在ICCV中。
[26] Guillaumin,M.、Verbeek,J.和;Schmid,C.(2009年b)。是你吗?人脸识别的度量学习方法。在ICCV中。
[27] Guillaumin,M.、Verbeek,J.和;Schmid,C.(2010年)。从自动标记的人脸包中进行多实例度量学习。在ECCV中。
[28] Holub,A.、Moreels,P.和;Perona,P.(2008)。谷歌名人图片搜索的无监督聚类。在IEEE人脸和手势识别会议上。
[29] Huang,G.、Jain,V.和;Learned Miller,E.(2007a)。复杂图像的无监督联合对齐。在ICCV中。
[30] Huang,G.、Ramesh,M.、Berg,T.和;Learnd-Miller,E.(2007b)。野外标记人脸:研究无约束环境中人脸识别的数据库(技术报告07-49)。马萨诸塞大学阿默斯特分校。
[31] Jain,V.、Ferencz,A.和;Learnd-Miller,E.(2006)。用于对象识别的超特征模型的判别训练。在BMVC中。
[32] Jain,V.、Learnd-Miller,E.和;McCallum,A.(2007年)。People-LDA:将主题锚定给使用人脸识别的人。在ICCV中。
[33] Krishnapuram,B.、Carin,L.、Figueiredo,M.和;Hartemink,A.(2005)。稀疏多项式逻辑回归:快速算法和泛化界限。IEEE模式分析和机器智能汇刊,27(6),957-968·doi:10.1109/TPAMI.2005.127
[34] Kumar,N.、Berg,A.、Belhumeur,P.和;Nayar,S.(2009)。用于人脸验证的属性和明喻分类器。在ICCV中。
[35] Laptev,I.、Marszałek,M.、Schmid,C.和;Rozenfeld,B.(2008)。从电影中学习真实的人类行为。在CVPR中。
[36] Lazebnik,S.、Schmid,C.和;Ponce,J.(2003)。用于纹理识别的仿射变量局部描述符和邻域统计。ICCV(第649-655页)。
[37] Li,L.,Wang,G.和;Fei-Fei,L.(2007)。OPTIMOL:通过增量模型学习自动收集物体图片。在CVPR中。
[38] Marcel,S.、Abbet,P.和;Guillemot,M.(2007)。谷歌肖像(技术代表IDIAP-COM-07-07)。IDIAP公司。
[39] Mensink,T.和;Verbeek,J.(2008年)。使用查询扩展改进人员搜索:朋友如何帮助查找人员。在ECCV中。
[40] Naaman,M.、Yeh,R.B.、Garcia-Molina,H.和;Paepcke,A.(2005)。利用上下文解决相册中的身份问题。数字图书馆联合会议论文集。
[41] Neal,R.和;Hinton,G.(1998年)。EM算法的一种观点,证明了增量、稀疏和其他变体的合理性。M.Jordan(Ed.),《图形模型学习》(第355-368页)。多德雷赫特:克鲁沃学院·Zbl 0916.62019号
[42] Nowak,E.,&;Jurie,F.(2007)。学习用于比较从未见过的对象的视觉相似性度量。在CVPR中。
[43] Ozkan,D.,&;Duygulu,P.(2006)。一种基于图形的方法,用于命名新闻照片中的人脸。CVPR(第1477-1482页)。
[44] Ozkan,D.,&;Duygulu,P.(2009)。有趣的面孔:在新闻中寻找人物的基于图形的方法。模式识别。
[45] Pham,P.,Moens,M.和;Tuytelaars,T.(2008)。联系姓名和面孔:以不同的方式看待问题。在ECCV研讨会论文集中,讨论了真实图像中的人脸。
[46] Pinto,N.、DiCarlo,J.和;Cox,D.(2009)。使用只使用简单特征的现代人脸识别测试集,你能走多远?在CVPR中。
[47] D.拉马南;Baker,S.(2009)。局部距离函数:分类法、新算法和评估。在ICCV中。
[48] Satoh,S.、Nakamura,Y.和;Kanade,T.(1999)。Name-it:在新闻视频中命名和检测人脸。IEEE多媒体汇刊,6(1),22–35·数字对象标识代码:10.1109/93.752960
[49] Sivic,J.、Everingham,M.和;Zisserman,A.(2009年)。”你是谁?”:从视频中学习特定于人的分类器。在CVPR中。
[50] Srihari,R.(1991)。图片:在报纸照片中使用字幕标记人脸的系统。A.Press(Ed.),《AAAI-91会议录》(第80-85页)。
[51] 斯通、Z、齐克勒、T、&;Darrell,T.(2008)。自动标记脸书:社交网络上下文改进了照片注释。在CVPR研讨会上。
[52] Taigman,Y.、Wolf,L.和;Hassner,T.(2009)。利用类标签信息的多个单选。在英国机器视觉会议(BMVC)上。统一资源定位地址http://www.openu.ac.il/home/hassner/projects/multishot .
[53] 田,Y.,刘,W.,肖,R.,文,F.,&;Tang,X.(2007)。具有部分聚类和交互式标记的人脸标注框架。在CVPR中。
[54] Turk,M.和;Pentland,A.(1991年)。用于识别的特征脸。认知神经科学杂志,3(1),71-86·doi:10.1162/jocn.1991.3.1.71
[55] Verbeek,J.和;Triggs,B.(2007年)。马尔可夫场方面模型的区域分类。在CVPR中。
[56] 维奥拉·P·;Jones,M.(2004)。强大的实时目标检测。国际计算机视觉杂志,57(2),137-154·doi:10.1023/B:VISI.0000013087.49260.fb
[57] Wagstaff,K.和;Rogers,S.(2001)。带背景知识的约束k-means聚类。ICML(第577-584页)。
[58] Weinberger,K.、Blitzer,J.和;Saul,L.(2006)。大幅度最近邻分类的距离度量学习。以NIPS为单位。
[59] Wolf,L.、Hassner,T.和;Taigman,Y.(2008)。野生的基于描述符的方法。在ECCV的面部真实图像研讨会上。
[60] Xing,E.,Ng,A.,Jordan,M.和;Russell,S.(2004)。远程度量学习,应用于带有副信息的集群。以NIPS为单位。
[61] Zhang,L.,Hu,Y.,Li,M.,Ma,W.,&张华(2004)。家族相册中人脸注释的高效传播。第12届ACM国际多媒体年会会议记录(第716-723页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。