×

通过经验风险最小化,根据两两相似性/差异性和未标记数据进行分类。 (英语) Zbl 1470.62095号

摘要:在实际分类问题中,数据点之间的成对相似性和差异性通常比数据的完整标签更容易获得。为了利用这种成对信息,提出了一种经验风险最小化方法,其中仅根据成对相似性和未标记数据计算分类风险的无偏估计。然而,这种方法还不能处理成对差异。半监督聚类方法可以将相似性和差异性合并到其框架中;然而,它们通常需要对数据分布进行强有力的几何假设,例如流形假设,这可能会导致性能严重恶化。在这封信中,我们基于所有的相似性和不相似性以及未标记的数据推导了分类风险的无偏估计量。我们从理论上建立了估计误差界,并通过实验证明了我们的经验风险最小化方法的实用性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arora,S.、Khandepakar,H.、Khodak,M.、Plevrakis,O.和Saunshi,N.(2019)。对比非监督表征学习的理论分析。第36届机器学习国际会议论文集。谷歌学者
[2] Bao,H.、Niu,G.和Sugiyama,M.(2018年)。根据成对相似性和未标记数据进行分类。第35届机器学习国际会议论文集(第452页)。谷歌学者
[3] Bao,H.、Shimada,T.、Xu,L.、Sato,I.和Sugiyama,M.(2020年)。基于相似性的分类:将相似性学习与二进制分类联系起来。arXiv:2006.06207年。
[4] Basu,S.、Banerjee,A.和Mooney,R.(2002)。通过播种实现半监督聚类。在第19届国际机器学习会议论文集(第27页)。谷歌学者
[5] Basu,S.、Davidson,I.和Wagstaff,K.(2008)。约束聚类:算法、理论和应用的进展。佛罗里达州博卡拉顿:CRC出版社·Zbl 1142.68005号
[6] Bilenko,M.、Basu,S.和Mooney,R.J.(2004)。在半监督聚类中集成约束和度量学习。第21届机器学习国际会议论文集(第839页)。谷歌学者
[7] Chang,C.-C.和Lin,C.-J.(2011年5月)。LIBSVM:支持向量机库。ACM智能系统和技术交易,第27条。谷歌学者
[8] Chapelle,O.、Schölkopf,B.和Zien,A.(2010年)。半监督学习。马萨诸塞州剑桥:麻省理工学院出版社。
[9] Charoenphakdee,N.、Lee,J.和Sugiyama,M.(2019年)。关于从损坏标签中学习的对称损失。第36届机器学习国际会议论文集(第961页)。谷歌学者
[10] Chen,W.和Feng,G.(2012年)。谱聚类:一种半监督方法。神经计算,77,229-242。谷歌学者搜索ADS
[11] Chiang,K.-Y.、Hsieh,C.-J.和Dhillon,I.S.(2015)。带有噪声侧信息的矩阵补全。C.Cortes、N.Lawrence、D.Lee、M.Sugiyama和R.Garnett(编辑),《神经信息处理系统的进展》,28(第3447-3455页)。纽约州红钩市:Curran。谷歌学者
[12] Chopra,S.、Hadsell,R.和LeCun,Y.(2005)。区分性地学习相似性度量,并应用于人脸验证。在2005年IEEE计算机学会计算机视觉和模式识别会议论文集(第539-546页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[13] Cui,Z.、Charoenphakdee,N.、Sato,I.和Sugiyama,M.(2020年)。根据三联体比较数据进行分类。神经计算,32(3),659-681。谷歌学者搜索ADS·Zbl 1468.68150号
[14] Davis,J.V.、Kulis,B.、Jain,P.、Sra,S.和Dhillon,I.S.(2007年)。信息论计量学习。《第24届机器学习国际会议论文集》(第209-216页)。谷歌学者
[15] du Plessis,M.C.、Niu,G.和Sugiyama,M.(2014)。从正面和未标记数据中学习的分析。Z.Ghahramani、M.Welling、C.Cortes、N.Lawrence和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,27(第703-711页)。纽约州红钩市:Curran。谷歌学者
[16] du Plessis,M.C.、Niu,G.和Sugiyama,M.(2015)。用于从正数据和未标记数据中学习的凸公式。第32届机器学习国际会议论文集(第1386-1394页)。谷歌学者
[17] Dua,D.和Graff,C.(2017年)。UCI机器学习库。
[18] Ghosh,A.、Manwani,N.和Sastry,P.(2015)。使风险最小化容忍标签噪声。神经计算,160,93-107。谷歌学者搜索ADS
[19] Hadsell,R.、Chopra,S.和LeCun,Y.(2006年)。通过学习不变映射降低维数。2006年IEEE计算机学会计算机视觉和模式识别会议记录(第1735-1742页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[20] Hjelm,R.D.、Fedorov,A.、Lavoie-Marchildon,S.、Grewal,K.、Bachman,P.、Trischler,A.和Bengio,Y.(2019年)。通过相互信息估计和最大化学习深度表示。《学习代表国际会议论文集》。威斯康星州麦迪逊:无所不在。谷歌学者
[21] Hsu,Y.-C.,Lv,Z.,Schlosser,J.,Odom,P.,&Kira,Z.(2019年)。没有多类标签的多类分类。《学习代表国际会议论文集》。威斯康星州麦迪逊:无所不在。谷歌学者
[22] Hu,Y.,Wang,J.,Yu,N.,&Hua,X.-S.(2008)。具有成对约束的最大边距聚类。第八届IEEE数据挖掘国际会议论文集(第253-262页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[23] Ishida,T.、Niu,G.和Sugiyama,M.(2018年)。正置信数据的二进制分类。S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa-Bianchi和R.Garnett(编辑),《神经信息处理系统的进展》,31(第5917-5928页)。纽约州红钩市:Curran。谷歌学者
[24] Kiros,R.、Zhu,Y.、Salakhutdinov,R.R.、Zemel,R.和Urtasun,R.,Torralba,A.和Fidler,S.(2015)。跳过思考向量。C.Cortes、N.Lawrence、D.Lee、M.Sugiyama和R.Garnett(编辑),《神经信息处理系统的进展》,28(第3294-3302页)。纽约州红钩市:Curran。谷歌学者
[25] Klein,D.、Kamvar,S.D.和Manning,C.D.(2002年)。从实例级约束到空间级约束:充分利用数据聚类中的先验知识。《第19届机器学习国际会议论文集》(第307-314页)。谷歌学者
[26] Li,Z.和Liu,J.(2009)。通过谱核学习进行约束聚类。IEEE第12届计算机视觉国际会议论文集(第421-427页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[27] Logeswaran,L.和Lee,H.(2018)。学习句子表示的有效框架。《学习代表国际会议论文集》。威斯康星州麦迪逊:无所不在。谷歌学者
[28] Lu,N.,Niu,G.,Menon,A.K.,&Sugiyama,M.(2019年)。关于仅从未标记数据训练任何二进制分类器的最小监督。在学习代表国际会议上。威斯康星州麦迪逊:Omnipress。谷歌学者
[29] MacQueen,J.(1967)。多元观测值分类和分析的一些方法。《第五届伯克利数理统计与概率研讨会论文集》(第281-297页)。伯克利:加利福尼亚大学出版社。谷歌学者·Zbl 0214.46201号
[30] Mikolov,T.、Sutskever,I.、Chen,K.、Corrado,G.S.和Dean,J.(2013)。单词和短语的分布式表示及其组成。C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger(编辑),《神经信息处理系统的进展》,26(第3111-3119页)。纽约州红钩市:Curran。谷歌学者
[31] Mohri,M.、Rostamizadeh,A.、Bach,F.和Talwalkar,A.(2012年)。机器学习基础。马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1318.68003号
[32] Nederhof,A.J.(1985)。应对社会期望偏差的方法:综述。《欧洲社会心理学杂志》,15(3),263-280。谷歌学者交叉引用搜索ADS
[33] Niu,G.、Dai,B.、Yamada,M.和Sugiyama,M.(2012年)。基于熵正则化的信息论半监督度量学习。第29届机器学习国际会议论文集(第89-96页)。谷歌学者
[34] Okamoto,M.(1959年)。关于二项式概率部分和的一些不等式。统计数学研究所年鉴,10(1),29-35。谷歌学者搜索ADS·Zbl 0084.14001号
[35] Oord,A.v.d.,Li,Y.,&Vinyals,O.(2018年)。用对比预测编码进行表征学习。arXiv:1807.03748。
[36] Patrini,G.、Nielsen,F.、Nock,R.和Carioni,M.(2016)。损失因子分解、弱监督学习和标签噪声鲁棒性。第33届机器学习国际会议论文集(第708-717页)。谷歌学者
[37] Peters,M.E.、Neumann,M.、Iyyer,M.和Gardner,M.,Clark,C.、Lee,K.和Zettlemoyer,L.(2018年)。深层语境化的词语表达。《计算语言学协会北美分会2018年会议记录:人类语言技术》(第2227-2237页)。宾夕法尼亚州斯特劳德斯堡:ACL。谷歌学者
[38] Sakai,T.、du Plessis,M.C.、Niu,G.和Sugiyama,M.(2017年)。基于阳性和未标记数据分类的半监督分类。第34届国际机器学习会议记录(第2998-3006页)。谷歌学者
[39] Schroff,F.、Kalenichenko,D.和Philbin,J.(2015)。Facenet:人脸识别和聚类的统一嵌入。发表在《IEEE计算机视觉和模式识别会议论文集》(第815-823页)。新泽西州皮斯卡塔韦:IEEE。谷歌学者
[40] Sohn,K.(2016)。使用多类n对丢失目标改进深度度量学习。D.Lee、M.Sugiyama、U.Luxburg、I.Guyon和R.Garnett(编辑),《神经信息处理系统的进展》,29(第1857-1865页)。纽约州红钩市:Curran。谷歌学者
[41] Wagstaff,K.、Cardie,C.、Rogers,S.和Schrödl,S.(2001)。带背景知识的约束K-means聚类。《第18届机器学习国际会议论文集》(第577-584页)。谷歌学者
[42] Warner,S.L.(1965)。随机反应:一种消除回避回答偏见的调查技术。美国统计协会杂志,60,63-69。谷歌学者搜索ADS·Zbl 1298.62024号
[43] Weinberger,K.Q.和Saul,L.K.(2009年)。大幅度最近邻分类的距离度量学习。机器学习研究杂志,10207-244。谷歌学者·Zbl 1235.68204号
[44] Wu,S.,Xia,X.,Liu,T.,Han,B.,Gong,M.,Wang,N.,…Niu,G.(2020年)。Class2Simi:标签噪声学习的新视角。arXiv:2006.07831。
[45] Xing,E.P.、Jordan,M.I.、Russell,S.J.和Ng,A.Y.(2003)。远程度量学习,应用于带有副信息的集群。S.Becker、S.Thrun和K.Overmayer(编辑),《神经信息处理系统的进展》,15(第521-528页)。马萨诸塞州剑桥:麻省理工学院出版社。谷歌学者
[46] Yan,R.、Zhang,J.、Yang,J.和Hauptmann,A.G.(2006)。一种具有成对约束的视频对象分类判别学习框架。IEEE模式分析和机器智能汇刊,28(4),578-593。谷歌学者
[47] Yi,J.、Zhang,L.、Jin,R.、Qian,Q.和Jain,A.(2013)。输入模式辅助成对相似矩阵补全的半监督聚类。《第30届机器学习国际会议论文集》(第1400-1408页)。谷歌学者
[48] Zhang,J.,&Yan,R.(2007)。关于成对约束在分类和一致性方面的价值。第24届国际机器学习会议记录(第1111-1118页)。谷歌学者
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。