×

基于加权积分概率度量的正标记学习原理分析分类器。 (英语) Zbl 1494.68218号

摘要:我们考虑仅从正的和未标记的观察值学习二元分类器的问题(称为PU学习)。最近关于PU学习的研究在理论和实证上都显示出了优异的表现。然而,现有的大多数算法可能不适合大规模数据集,因为它们需要重复计算大型Gram矩阵或需要大规模超参数优化。本文提出了一种计算效率高且具有理论基础的PU学习算法。当假设空间是再生核希尔伯特空间中的闭合球时,所提出的PU学习算法产生一个闭合形式的分类器。此外,我们还建立了估计误差和超额风险的上界。得到的估计误差界比现有结果更尖锐,并且导出的超额风险界具有显式形式,随着样本量的增加而消失。最后,我们使用合成数据集和实际数据集进行了大量的数值实验,证明了所提算法提高了准确性、可扩展性和鲁棒性。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arjovsky,M.、Chintala,S.和Bottou,L.(2017)。Wasserstein生成性对抗网络。在机器学习国际会议上,第214-223页。
[2] 宾夕法尼亚州巴特利特;密歇根州约旦;McAuliffe,JD,凸性、分类和风险边界,美国统计协会杂志,101,473,138-156(2006)·兹比尔1118.62330 ·doi:10.1198/01621450000000907
[3] 巴特利特,PL;Mendelson,S.,《Rademacher和高斯复杂性:风险边界和结构结果》,《机器学习研究杂志》,2002年11月3日,463-482页·Zbl 1084.68549号
[4] Bekker,J.和Davis,J.(2018年)。通过决策树归纳法估计正数据和未标记数据中的类先验。在第32届AAAI人工智能会议的会议记录中。
[5] 布兰查德,G。;弗拉斯卡,M。;Handy,G。;波齐,S。;Scott,C.,非对称标签噪声分类:一致性和最大去噪,电子统计学杂志,10,227780-2824(2016)·Zbl 1347.62106号 ·doi:10.1214/16-EJS1193
[6] 布兰查德,G。;Lee,G。;Scott,C.,《半监督新颖性检测》,《机器学习研究杂志》,2973-2009年11月11日(2010年)·Zbl 1242.68205号
[7] Chang,C-C;Lin,C-J,Libsvm:支持向量机库,ACM智能系统与技术事务(TIST),2,3,27(2011)
[8] 沙佩尔,O。;Schölkopf,B。;Zien,A.,《半监督学习》(2006),剑桥:麻省理工学院出版社,剑桥
[9] Collobert,R.、Sinz,F.、Weston,J.和Bottou,L.(2006)。交易凸性以实现可扩展性。《第23届机器学习国际会议论文集》,ACM,第201-208页。
[10] 丹尼斯,F。;吉列伦,R。;Letouzey,F.,从正面和未标记的例子中学习,理论计算机科学,348,1,70-83(2005)·Zbl 1081.68081号 ·doi:10.1016/j.tcs.2005.09.007
[11] Du Plessis,M.C.、Niu,G.和Sugiyama,M.(2014)。从正面和未标记数据中学习的分析。《神经信息处理系统进展》,第703-711页。
[12] Du Plessis,M.C.、Niu,G.和Sugiyama,M.(2015)。用于从正数据和未标记数据中学习的凸公式。在机器学习国际会议上,第1386-1394页。
[13] Elkan,C.和Noto,K.(2008年)。仅从正面和未标记的数据学习分类器。第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,第213-220页。
[14] Gong,T.、Wang,G.、Ye,J.、Xu,Z.和Lin,M.(2018)。基于边缘的pu学习。在AAAI人工智能会议上。
[15] 格雷顿,A。;博格沃德,KM;拉什,MJ;Schölkopf,B。;Smola,A.,《内核双样本测试》,《机器学习研究杂志》,723-773年3月13日(2012)·Zbl 1283.62095号
[16] Gretton,A.、Smola,A.J.、Huang,J.、Schmittfull,M.、Borgwardt,K.M.、Schölkopf,B.、Candela,Q.、Sugiyama,M.,Schwaighofer,A.、Lawrence,N.D.等人(2009年)。通过核均值匹配实现协变量偏移。《机器学习中的数据集转换》,麻省理工学院出版社,第131-160页。
[17] Huang,J.、Gretton,A.、Borgwardt,K.M.、Schölkopf,B.和Smola,A.J.(2007年)。通过未标记数据纠正样本选择偏差。《神经信息处理系统进展》,第601-608页。
[18] Kato,M.、Teshima,T.和Honda,J.(2019年)。从积极和未标记的数据中学习,具有选择偏见。在学习代表国际会议上。统一资源定位地址https://openreview.net/forum?id=rJzLciCqKm。
[19] Kiryo,R.、Niu,G.、Plessis、Du Marthinus C.和Sugiyama,M.(2017年)。使用非负风险估计器的正向无标记学习。《神经信息处理系统进展》,第1675-1685页。
[20] Li,X.和Liu,B.(2003)。学习使用阳性和未标记的数据对文本进行分类。《第18届国际人工智能联合会议论文集》,摩根考夫曼出版社,第587-592页。
[21] Li,X.-L.,&Liu,B.(2005)。从不同数据分布的正面和未标记示例中学习。在欧洲机器学习会议上,第218-229页。
[22] Lin,Y.,分类中的支持向量机和贝叶斯规则,数据挖掘和知识发现,6,3,259-275(2002)·doi:10.1023/A:1015469627679
[23] Liu,B.、Dai,Y.、Li,X.、Lee,W.S.和Yu,P.S.(2003)。使用正面和未标记的示例构建文本分类器。第三届IEEE数据挖掘国际会议,2003年,ICDM 2003,IEEE,第179-186页。
[24] Liu,B.、Lee,W.S.、Yu,P.S.和Li,X.(2002)。部分监督文本文档的分类。机器学习国际会议,第2卷,Citeser,第387-394页。
[25] Müller,A.,积分概率度量及其函数生成类,应用概率进展,29,2,429-443(1997)·Zbl 0890.60011号 ·doi:10.2307/1428011
[26] Natarajan,N.、Dhillon,I.S.、Ravikumar,P.K.和Tewari,A.(2013)。用嘈杂的标签学习。《神经信息处理系统进展》,第1196-1204页·Zbl 1467.68151号
[27] Niu,G.,Du Plessis,M.C.,Sakai,T.,Ma,Y.,&Sugiyama,M.(2016)。正标记学习与正标记学习的理论比较。《神经信息处理系统的进展》,第1199-1207页。
[28] Oh,C.Y.,Gavves,E.,&Welling,M.(2018)。博克:圆柱核贝叶斯优化。arXiv-printarXiv:1806.01619。
[29] Patrini,G.、Nielsen,F.、Nock,R.和Carioni,M.(2016)。损失因子分解、弱监督学习和标签噪声鲁棒性。在机器学习国际会议上,第708-717页。
[30] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:《蟒蛇中的机器学习》,《机器学习研究杂志》,第12期,第2825-2830页(2011年)·Zbl 1280.68189号
[31] Ramaswamy,H.、Scott,C.和Tewari,A.(2016)。基于分布核嵌入的混合比例估计。在机器学习国际会议上,第2052-2060页。
[32] Sakai,T.、Du Plessis,M.C.、Niu,G.和Sugiyama,M.(2017年)。基于阳性和未标记数据分类的半监督分类。在国际机器学习会议上,第2998-3006页。
[33] Sansone,E。;德纳塔莱,FGB;周,Z.,积极无标记学习的有效培训,IEEE模式分析和机器智能汇刊,41,11,2584-2598(2019)·doi:10.1109/TPAMI.2018.2860995
[34] Scott,C.和Blanchard,G.(2009年)。新颖性检测:未标记的数据绝对有帮助。《人工智能与统计》,第464-471页。
[35] 斯梅尔,S。;周,D-X,《学习理论中近似误差的估计,分析与应用》,1,1,17-41(2003)·Zbl 1079.68089号 ·doi:10.1142/S0219530503000089
[36] Sriperumbudur,BK;Fukumizu,K。;格雷顿,A。;Schölkopf,B。;Lanckriet,GRG,《关于积分概率度量的经验估计》,《电子统计杂志》,61550-1599(2012)·Zbl 1295.62035号 ·doi:10.1214/12-EJS722
[37] Sriperumbudur,B.K.、Fukumizu,K.和Lanckriet,G.(2010a)。关于测度的普遍性、特征核和rkhs嵌入之间的关系。《第十三届人工智能和统计国际会议记录》,第773-780页。
[38] Sriperumbudur,BK;格雷顿,A。;Fukumizu,K。;Schölkopf,B。;Lanckriet,GRG,Hilbert空间嵌入和概率测度度量,机器学习研究杂志,1517-1561年4月11日(2010)·Zbl 1242.60005号
[39] 斯坦瓦特,I。;Christmann,A.,《支持向量机》(2008),柏林:施普林格出版社,柏林·Zbl 1203.68171号
[40] Tolstikhin,I.、Bousquet,O.、Gelly,S.和Schoelkopf,B.(2018年)。Wasserstein自动编码器。在学习代表国际会议上。
[41] 沃德·G。;哈斯蒂,T。;巴里,S。;Elith,J。;Leathwick,JR,《仅存在数据和EM算法》,《生物统计学》,65,2,554-563(2009)·Zbl 1167.62098号 ·doi:10.1111/j.1541-0420.2008.01116.x
[42] Xiao,Y.,Liu,B.,Yin,J.,Cao,L.,Zhang,C.,&Hao,Z.(2011)。基于相似性的积极学习和无标记学习方法。在第二十届国际人工智能联合会议上。
[43] Yan,H.,Ding,Y.,Li,P.,Wang,Q.,Xu,Y.和Zuo,W.(2017)。注意类权重偏差:无监督领域自适应的加权最大均值差异。2017年IEEE计算机视觉和模式识别会议(CVPR),IEEE,第945-954页。
[44] 杨,P。;李,X。;蔡,H-N;Kwoh,C-K;Ng,S-K,Ensemble阳性未标记学习用于疾病基因识别,PLoS ONE,9,5,e97079(2014)·doi:10.1371/journal.pone.0097079
[45] 杨,P。;李,X-L;梅,J-P;Kwoh,C-K;Ng,S-K,疾病基因识别的阳性无标记学习,生物信息学,28,20,2640-2647(2012)·doi:10.1093/生物信息学/bts504
[46] Zhang,J.、Wang,Z.、Yuan,J.和Tan,Y.-P.(2017)。用于多特征异常检测的正向和无标记学习。《2017年ACM多媒体会议论文集》,ACM,第854-862页。
[47] Zhang,T.,基于凸风险最小化的分类方法的统计行为和一致性,《统计年鉴》,32,56-85(2004)·Zbl 1105.62323号 ·doi:10.1214/aos/1079120130
[48] Zuluaga,M.A.、Hush,D.、Delgado,E.、Leyton,J.F.、Hoyos,M.H.和Orkisz,M.(2011)。仅从阳性和未标记数据中学习,以检测血管ct图像中的病变。在医学图像计算和计算机辅助干预国际会议上,Springer,第9-16页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。