×

语义属性的无监督发现、控制和分离,以及异常检测应用程序。 (英语) Zbl 1520.68154号

小结:我们的工作重点放在非监督和生成方法上,这些方法解决了以下目标:(1)学习非监督生成表征,发现控制图像语义属性的潜在因素,(2)研究这种形式化控制属性的能力与潜在因素解缠结问题的关系,澄清过去混淆的相关但不同的概念,以及(3)开发利用在第一个目标中学习的表示的异常检测方法。对于目标1,我们提出了一种网络架构,该架构利用多尺度生成模型与互信息(MI)最大化的组合。对于目标2,我们导出了一个分析结果,即引理1,它清楚地说明了两个相关但截然不同的概念:生成网络控制其生成图像的语义属性的能力,这是由MI最大化产生的,以及通过总相关最小化获得的分离潜在空间表示的能力。更具体地说,我们证明了最大化语义属性控制有助于消除潜在因素。使用引理1并在我们的损失函数中采用MI,然后我们实证表明,对于图像生成任务,与其他最先进的方法相比,所提出的方法在生成图像的质量和解缠结方面表现出优越的性能,质量通过傅里叶初始距离(FID)进行评估并通过相互信息差距解除纠缠。对于目标3,我们设计了几个利用目标1中学习到的表示法进行异常检测的系统,并与最先进的生成和区分算法相比,证明了它们的性能优势。我们在表征学习方面的贡献在解决计算机视觉中的其他重要问题方面具有潜在的应用,例如人工智能中的偏见和隐私。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62华氏35 多元分析中的图像分析
68T45型 机器视觉和场景理解
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abay,R.、Gehly,S.、Balage,S.,Brown,M.和Boyce,R.(2018年)。使用生成性对抗网络对空间物体进行机动探测。在毛伊岛先进光学和空间监视技术会议上发表的论文。谷歌学者
[2] Akçay,S.、Atapour-Abarghouei,A.和Breckon,T.P.(2018)。GANomaly:通过对抗训练进行半监督异常检测。在C.Jawahar、H.Li、G.Mori和K.Schindler(编辑)的《计算机科学讲义:第11363卷》中。2018年计算机愿景-ACCV。柏林:斯普林格。谷歌学者
[3] Akçay,S.、Atapour-Abarghouei,A.和Breckon,T.P.(2019年)。Skip-GANomaly:跳过连接的和经过对手训练的编码器-解码器异常检测。2019年IEEE国际神经网络联合会议记录(第1-8页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[4] 巴赫曼·P、赫杰姆·R·D和布赫瓦尔特·W(2019)。通过最大化视图之间的相互信息来学习表示。CoRR,腹肌/1906.00910。
[5] Bergmann,P.、Löwe,S.、Fauser,M.、Sattlegger,D.和Steger,C.(2018年)。通过将结构相似性应用于自动编码器来改进无监督缺陷分割。CoRR,abs/1807.02011。
[6] Brock,A.、Donahue,J.和Simonyan,K.(2019年)。用于高保真自然图像合成的大规模GAN训练。《学习代表国际会议论文集》。OpenReview。谷歌学者
[7] Burlina,P.、Joshi,N.和Wang,I.(2019年)。沃利现在在哪里?新颖性检测的深层生成性和区分性嵌入。《IEEE计算机视觉和模式识别会议记录》(第11507-11516页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[8] Chen,T.Q.、Li,X.、Grosse,R.B.和Duvenaud,D.K.(2018)。在变分自动编码器中隔离解纠缠源。S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett(编辑),《神经信息处理系统的进展》,31(第2610-2620页)。纽约州红钩市:Curran。谷歌学者
[9] Chen,X.、Duan,Y.、Houthooft,R.、Schulman,J.、Sutskever,I.和Abbeel,P.(2016)。InfoGAN:通过信息最大化生成性对抗网络进行可解释表示学习。D.Lee、M.Sugiyama、U.Luxburg、I.Guyon和R.Garnett(编辑),《神经信息处理系统的进展》,29(第2172-2180页)。纽约州红钩市:Curran。
[10] Deecke,L.、Vandermeulen,R.、Ruff,L.,Mandt,S.和Kloft,M.(2018年)。生成性对抗网络的图像异常检测。《欧洲机器学习与数据库知识发现原理与实践会议论文集》。查姆:斯普林格。谷歌学者
[11] Erfani,S.M.、Rajasegarar,S.、Karunasekera,S.和Leckie,C.(2016)。使用具有深度学习的线性单类SVM进行高维和大规模异常检测。模式识别,58121-134。谷歌学者
[12] Goodfellow,I.,Pouget Abadie,J.,Mirza,M.,Xu,B.,Warde Farley,D.,Ozair,S.,…Bengio,Y.(2014)。生成性对抗网络。Z.Ghahramani、M.Welling、C.Cortes、N.Lawrence和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,27(第2672-2680页)。纽约州红钩市:Curran。
[13] Gray,K.、Smolyak,D.、Badirli,S.和Mohler,G.(2020)。耦合IGMM-GAN用于人类活动数据中的深度多模态异常检测。ACM空间算法和系统汇刊,6(4),第24条。谷歌学者
[14] Grover,A.、Dhar,M.和Ermon,S.(2018年)。Flow-GAN:在生成模型中结合最大似然和对抗学习。第三十二届AAAI人工智能会议论文集。加利福尼亚州帕洛阿尔托:AAAI。谷歌学者
[15] Harkonen,E.、Hertzmann,A.、Lehtinen,J.和Paris,S.(2020年)。GANSpace:发现可解释的GAN控件。CoRR,abs/2004.02546。
[16] Heusel,M.、Ramsauer,H.、Unterthiner,T.、Nessler,B.和Hochreiter,S.(2017年)。通过两个时间尺度的更新规则训练的GANs收敛到局部纳什均衡。I.Guyon、Y.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett(编辑),《神经信息处理系统的进展》,30(第6626-6637页)。纽约州红钩市:Curran。
[17] Jain,N.、Manikonda,L.、Hernandez,A.O.、Sengupta,S.和Kambhampati,S.(2018年)。想象一个工程师:基于GAN的数据增强使偏见永久化。CoRR,abs/1811.03751。谷歌学者
[18] Karras,T.、Aila,T.,Laine,S.和Lehtinen,J.(2018年)。GANS的逐步增长,以提高质量、稳定性和变异性。《学习代表国际会议论文集》。OpenReview。谷歌学者
[19] Karras,T.、Laine,S.和Aila,T.(2019年)。生成性对抗网络的基于样式的生成器体系结构。在IEEE计算机视觉和模式识别会议论文集上。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[20] Karras,T.、Laine,S.、Aittala,M.、Hellsten,J.、Lehtinen,J.和Aila,T.(2020年)。分析并改进StyleGAN的图像质量。IEEE计算机视觉和模式识别会议论文集。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[21] Kimura,M.和Yanagihara,T.(2018年)。使用GANS的半监督异常检测用于噪声训练数据中的视觉检查。CoRR,abs/1807.01136。
[22] Kingma,D.P.和Dhariwal,P.(2018年)。辉光:具有可逆1×1卷积的生成流。S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett(编辑),《神经信息处理系统的进展》,31(第10215-10224页)。纽约州红钩市:Curran。
[23] Kingma,D.P.和Welling,M.(2013年)。自动编码变分贝叶斯。CoRR,abs/1312.6114。
[24] Krause,J.、Stark,M.、Deng,J.和Fei-Fei,L.(2013)。用于细粒度分类的3D对象表示。第四届IEEE 3D表示与识别国际研讨会论文集。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[25] Kynkäänniemi,T.、Karras,T.、Laine,S.、Lehtinen,J.和Aila,T.(2019)。用于评估生成模型的改进精度和召回度量。H.Wallach、H.Larochelle、A.Beygelzimer、F.d'Alché-Buc、E.Fox和R.Garnett(编辑),《神经信息处理系统的进展》,32(第3927-3936页)。纽约州红钩市:Curran。谷歌学者
[26] Lai,Y.、Hu,J.、Tsai,Y.&Chiu,W.(2018)。使用生成对抗网络进行工业异常检测和一类分类。2018年IEEE/ASME高级智能机电一体化国际会议论文集(第1444-1449页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[27] Lin,C.H.,Chang,C.,Chen,Y.,Juan,D.,Wei,W.,&Chen,H.(2019年)。COCO-GAN:通过条件协调按部件生成。IEEE计算机视觉国际会议论文集。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[28] Litjens,G.、Kooi,T.、Bejnordi,B.E.、Setio,A.A.A.、Ciompi,F.、Ghafoorian,M.、…Sánchez,C.I.(2017)。医学图像分析中的深度学习研究综述。医学图像分析,42,60-88。谷歌学者
[29] Liu,Y.、Li,Z.、Zhou,C.、Jiang,Y.,Sun,J.、Wang,M.和He,X.(2018)。无监督离群值检测的生成性对抗主动学习。CoRR,abs/1809.10816。
[30] Liu,Z.,Luo,P.,Wang,X.,&Tang,X..(2015)。深入学习野生人脸属性。计算机视觉国际会议论文集。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[31] Lucic,M.、Kurach,K.、Michalski,M.,Gelly,S.和Bousquet,O.(2018年)。GAN生来平等吗?大规模研究。在S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa Bianchi和R.Garnett(编辑),《神经信息处理系统的进展》,31。纽约州红钩市:Curran。谷歌学者
[32] Naphade,M.,Chang,M.-C.,Sharma,A.,Anastasiu,D.C.,Jagarlamudi,V.,Chakraborty,P.,…Siwei,L.(2018)。2018年NVIDIA AI城市挑战赛。IEEE计算机视觉和模式识别研讨会会议记录(第53-60页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[33] Nie,W.、Karras,T.、Garg,A.、Debnath,S.、Patney,A.、Patel,A.B.和Anandkumar,A.(2020年)。用于解纠缠学习的半监督式GAN。机器学习国际会议论文集。谷歌学者
[34] Oord,A.v.d.,Dieleman,S.,Zen,H.,Simonyan,K.,Vinyals,O.,Graves,A.,…Kavukcuoglu,K..(2016)。Wavenet:原始音频的生成模型。CoRR,arXiv:1609.03499。
[35] Poole,B.、Ozair,S.、van den Oord,A.、Alemi,A.和Tucker,G.(2019年)。关于互信息的变分界。第36届机器学习国际会议论文集。谷歌学者
[36] Russakovsky,O.、Deng,J.、Su,H.、Krause,J.,Satheesh,S.、Ma,S.…Fei-Fei,L.(2015)。ImageNet大规模视觉识别挑战。国际计算机视觉杂志,115(3),211-252。doi:。谷歌学者
[37] Salimans,T.、Goodfellow,I.、Zaremba,W.、Cheung,V.、Radford,A.和Chen,X.(2016)。改进了训练GAN的技术。D.Lee、M.Sugiyama、U.Luxburg、I.Guyon和R.Garnett(编辑),《神经信息处理系统的进展》,29(第2234-2242页)。纽约州红钩市:Curran。
[38] Schlegl,T.、Seeböck,P.、Waldstein,S.M.、Schmidt-Erfurth,U.和Langs,G.(2017)。利用生成性对抗网络进行无监督异常检测,以指导标记发现。《医学成像信息处理国际会议论文集》(第146-157页)。查姆:斯普林格。谷歌学者
[39] Shen,Y.,&Zhou,B.(2020)。GANS中潜在语义的闭式分解。arXiv:2007.06600。
[40] Tewari,A.、Elgharib,M.、Bharaj,G.、Bernard,F.、Seidel,H.-P.、Pérez,P.…Theobalt,C.(2020)。StyleRig:装配样式GAN,用于对肖像图像进行3D控制。在IEEE计算机视觉和模式识别会议(CVPR)上。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[41] Zenati,H.、Foo,C.S.、Lecouat,B.、Manek,G.和Chandrasekhar,V.R.(2018年)。高效的基于GAN的异常检测。CoRR,abs/1802.06222。
[42] Zhang,H.、Goodfellow,I.、Metaxas,D.和Odena,A.(2019年)。自我关注生成性对抗网络。第36届国际机器学习会议记录(第7354-7363页)。谷歌学者
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。