×

从具有实例相关噪声的二进制标签学习。 (英语) Zbl 1475.68286号

总结:在过去的几十年里,监督学习在理论和实践方面取得了许多进步。然而,其相同列车和试验分布的基本假设在实践中往往不成立。这方面的一个重要例子是训练实例受到标签噪声的影响:即,观察到的标签不能准确反映潜在的地面真相。虽然已经广泛研究了简单噪声模型的影响,但相对较少关注实例相关标签噪声的实际相关设置。因此,在理论上和实践中,人们是否可以从受到此类噪声影响的数据中学习好的模型,而不需要干净的标签。我们对这个问题进行了理论分析,并作出了三点贡献。首先,我们证明了对于实例相关(但标签相关)噪声,任何在噪声分布上分类一致的算法在无噪声分布上也是一致的。其次,我们证明了一致性也适用于ROC曲线下的面积,假设噪声等级(精确意义上)与实例的固有困难有关。第三,当无噪声分布为广义线性模型时,我们证明了同位素算法可以有效且可证明地从噪声样本中学习。我们从经验上证实了我们的理论发现,我们希望这可能会刺激对这一重要学习环境的进一步分析。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agarwal,S,通过强适当损失进行二分排名的代孕后悔界限,机器学习研究杂志,151653-1674,(2014)·Zbl 1319.62041号
[2] Agarwal,S.和Niyogi,P.(2005年)。二部排序算法的稳定性和泛化。学习理论会议《施普林格》(第32-47页)·Zbl 1137.68513号
[3] 安格鲁因,D;Laird,P,从有噪声的例子中学习,机器学习,2433-370,(1988)
[4] Awasthi,P.、Balcan,M.F.和Long,P.M.(2014)。有效学习带噪声线性分离器的定位能力。计算理论研讨会(第449-458页)·Zbl 1315.68162号
[5] 阿瓦西,P;巴尔坎,MF;哈特拉布,N;Urner,R,有界噪声下线性分离器的有效学习,学习理论会议(COLT),40,167-190,(2015)
[6] Awasthi,P.、Balcan,M.、Haghtalab,N.和Zhang,H.(2016)。非对称噪声下的学习和1位压缩感知。学习理论会议(第152-192页)。
[7] 阿瓦西,P;Balcan,M;Long,PM,《本地化对有效学习带噪声线性分离器的作用》,《ACM杂志》,63,50,(2017)·Zbl 1315.68162号 ·数字对象标识代码:10.1145/3006384
[8] 艾尔,M;嗜酒,高清;通用汽车公司尤因;雷德,WT;Silverman,E,《不完全信息抽样的经验分布函数》,《数理统计年鉴》,26,641-647,(1955)·Zbl 0066.38502号 ·doi:10.1214/aoms/1177728423
[9] 巴特利特,PL;密歇根州约旦;麦考利夫,法学博士,凸性、分类和风险界限,美国统计协会杂志,101138-156,(2006)·Zbl 1118.62330号 ·doi:10.1198/01621450000000907
[10] Bhatia,K.、Jain,P.和Kar,P.(2015)。通过硬阈值进行稳健回归。神经信息处理系统(NIPS)的进展(第721-729页)。
[11] Blum,A.和Mitchell,T.(1998年)。将标记数据和未标记数据与协同训练相结合。学习理论会议(第92-100页)。
[12] Blum,A.、Frieze,A.、Kannan,R.和Vempala,S.(1996年)。学习带噪线性阈值函数的多项式时间算法。计算机科学基础(第330-338页)·兹比尔0910.68169
[13] Bootkrajang,J,在存在注释错误的情况下用于分类的通用标签噪声模型,神经计算,192,61-71,(2016)·doi:10.1016/j.neucom.2015.12.106
[14] Bootkrajang,J;Kabán,A,在类标签噪声存在下学习核逻辑回归,模式识别,473641-3655,(2014)·Zbl 1373.68314号 ·doi:10.1016/j.patcog.2014.05.007
[15] Bylander,T.(1994)。在存在分类噪声的情况下学习线性阈值函数。学习理论会议(第340-347页)。
[16] Bylander,T.(1997)。学习概率一致的线性阈值函数。学习理论会议(第62-71页)。
[17] Bylander,T.(1998)。学习噪声线性阈值函数(未发表的手稿)。网址:http://www.cs.utsa.edu/bylander/pubs/learning-noisy-ltfs.ps.gz。
[18] 克莱门松,S;卢戈西,G;Vayatis,N,U统计的排名和经验最小化,《统计年鉴》,36844-874,(2008)·Zbl 1181.68160号 ·doi:10.1214/0905260700000910
[19] Decatur,S.E.(1997)。带常数部分分类噪声的PAC学习及其在决策树归纳中的应用。机器学习国际会议(第83-91页)。
[20] Devroye,L.、Györfi,L.和Lugosi,G.(1996)。模式识别的概率理论柏林:施普林格·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5
[21] Du,J.和Cai,Z.(2015)。具有对称和非对称分布的类噪声建模。人工智能会议(第2589-2595页)。
[22] Elkan,C.和Noto,K.(2008年)。仅从正面和未标记的数据学习分类器。知识发现和数据挖掘国际会议(KDD)(第213-220页)。
[23] Frénay,B.和Kabán,A.(2014)。全面介绍标签噪音。欧洲人工神经网络研讨会(第667-676页)。
[24] 弗莱奈,B;Verleysen,M,《标签噪声存在下的分类:一项调查》,IEEE神经网络和学习系统汇刊,25845-869,(2014)·doi:10.1109/TNNLS.2013.2292894
[25] Ghosh,A;曼瓦尼,N;Sastry,PS,《使风险最小化容忍标签噪声》,神经计算,160,93-107,(2015)·doi:10.1016/j.neucom.2014.09.081
[26] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议(CVPR)(第770-778页)。
[27] Jain,S.、White,M.和Radivojac,P.(2016)。从有噪声的正数据和未标记数据估计类的先验和后验。神经信息处理系统(NIPS)的进展(第2685-2693页)。
[28] Kakade,S.、Kanade,V.、Shamir,O.和Kalai,A.(2011年)。利用等渗回归有效学习广义线性和单指数模型。神经信息处理系统(NIPS)的进展(第927-935页)。
[29] Kalai,A.和Sastry,R.(2009年)。同位素算法:高维等渗回归。学习理论会议.
[30] Kalai,A.、Klivans,A.、Mansour,Y.和Servedio,R.(2005年)。不可知地学习半空间。计算机系统基础(FOCS)(第11-20页)·Zbl 1155.68030号
[31] Koyejo,O.O.,Natarajan,N.,Ravikumar,P.K.,&Dhillon,I.S.(2014)。具有广义性能指标的一致二进制分类。神经信息处理系统(NIPS)的进展(第2744-2752页)。
[32] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。神经信息处理系统(NIPS)的研究进展(第1106-1114页)。
[33] Le,Q.V.、Smola,A.J.和Canu,S.(2005)。异方差高斯过程回归。机器学习国际会议(第489-496页)。
[34] Ling,C.X.和Li,C.(1998)。直销数据挖掘:问题和解决方案。知识发现和数据挖掘(KDD)(第73-79页)。
[35] 刘,T;Tao,D,通过重要性重加权对噪声标签进行分类,IEEE模式分析和机器智能汇刊,2001,447-461,(2015)
[36] Long,P.,&Servedio,R.(2008)。随机分类噪声击败了所有凸势助推器。机器学习国际会议(第608-615页)。
[37] 曼瓦尼,N;Sastry,PS,风险最小化下的噪声容限,IEEE控制论汇刊,43,1146-1151,(2013)·doi:10.1109/TSMCB.2012.2223460
[38] 马萨特,P;Nédélec,E,统计学习的风险界限,《统计年鉴》,342326-2366,(2006)·Zbl 1108.62007号 ·doi:10.1214/0090536000000786
[39] Menon,A.K.、van Rooyen,B.、Ong,C.S.和Williamson,B.(2015)。通过类概率估计从损坏的二进制标签中学习。机器学习国际会议(第125-134页)。
[40] Narasimhan,H.、Vaish,R.和Agarwal,S.(2014)。关于不可分解性能度量插件分类器的统计一致性。神经信息处理系统(NIPS)的研究进展(第1493-1501页)。
[41] Natarajan,N.、Dhillon,I.S.、Ravikumar,P.D.和Tewari,A.(2013)。用嘈杂的标签学习。神经信息处理系统(NIPS)的进展(第1196-1204页)·Zbl 1467.68151号
[42] Nguyen,新罕布什尔州;Tran,TD,通过\(ℓ _最小化,IEEE信息理论汇刊,592017-2035,(2013)·Zbl 1364.94145号 ·doi:10.10109/TIT.2013.2240435
[43] Patrini,G.、Nielsen,F.、Nock,R.和Carioni,M.(2016)。损失因子分解、弱监督学习和标签噪声鲁棒性。机器学习国际会议(第708-717页)。
[44] Patrini,G.、Rozza,A.、Menon,A.、Nock,R.和Qu,L.(2017年)。使深层神经网络对标签噪声鲁棒:一种损失校正方法。计算机视觉和模式识别(CVPR)(第2233-2241页)。
[45] Plessis,M.C.、Niu,G.、Sugiyama,M.(2015)。用于从正数据和未标记数据中学习的凸公式。机器学习国际会议(第1386-1394页)。
[46] Ralaivola,L.、Denis,F.和Magnan,C.N.(2006年)。CN=CPCN。机器学习国际会议(第721-728页)。
[47] Reed,S.E.、Lee,H.、Anguelov,D.、Szegedy,C.、Erhan,D.和Rabinovich,A.(2014)。用自举方法在噪声标签上训练深度神经网络。CoRR abs/1412.6596。
[48] Reid,M.D.和Williamson,R.C.(2009年)。代理适当损失的遗憾界限。机器学习国际会议(第897-904页)。
[49] van Rooyen,B.、Menon,A.K.和Williamson,R.C.(2015)。学习对称标签噪音:精神错乱的重要性。神经信息处理系统(NIPS)的进展(第10-18页)。
[50] Schölkopf,B.和Smola,A.J.(2001)。用内核学习剑桥:麻省理工学院出版社·Zbl 1019.68094号
[51] Scott,C.、Blanchard,G.和Handy,G.(2013年)。非对称标签噪声分类:一致性和最大去噪。学习理论会议(第489-511页)·Zbl 1347.62106号
[52] Servedio,R.(1999)。使用winnow、感知器和类感知器算法进行PAC学习。学习理论会议(第296-307页)。
[53] Shalizi,C.R.(2017)。从基本观点进行高级数据分析(未出版的书籍草稿)。网址:http://www.stat.cmu.edu/cshalizi/ADAfaEPoV/ADAfaEPoV.pdf。
[54] Steinwart,I.和Scovel,C.(2005)。支持向量机的快速速度。学习理论会议(第279-294页)·Zbl 1137.68564号
[55] Stempfel,G.和Ralaivola,L.(2007年)。使用随机投影在噪声数据上学习核感知器。算法学习理论(ALT)(第328-342页)·Zbl 1142.68408号
[56] Stempfel,G.和Ralaivola,L.(2009年)。从标记松散的数据中学习SVM。国际人工神经网络会议(ICANN)(第884-893页)。
[57] 赖特,J;Ma,Y,密集误差修正\(ℓ _1)-最小化,IEEE信息理论汇刊,56,3540-3560,(2010)·Zbl 1366.94133号 ·doi:10.1109/TIT.2010.2048473
[58] Xiao,T.、Xia,T.,Yang,Y.、Huang,C.和Wang,X.(2015)。从大量噪声标记数据中学习图像分类。IEEE计算机视觉和模式识别会议(CVPR)(第2691-2699页)。
[59] 张,T,基于凸风险最小化的分类方法的统计行为和一致性,《统计年鉴》,32,56-85,(2004)·Zbl 1105.62323号 ·doi:10.1214/aos/1079120130
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。