阿迪蒂亚·克里希纳·梅农;布伦丹·范·鲁扬;纳卡拉扬,纳塔拉扬 从具有实例相关噪声的二进制标签学习。 (英语) Zbl 1475.68286号 机器。学习。 107,编号8-10,1561-1595(2018). 总结:在过去的几十年里,监督学习在理论和实践方面取得了许多进步。然而,其相同列车和试验分布的基本假设在实践中往往不成立。这方面的一个重要例子是训练实例受到标签噪声的影响:即,观察到的标签不能准确反映潜在的地面真相。虽然已经广泛研究了简单噪声模型的影响,但相对较少关注实例相关标签噪声的实际相关设置。因此,在理论上和实践中,人们是否可以从受到此类噪声影响的数据中学习好的模型,而不需要干净的标签。我们对这个问题进行了理论分析,并作出了三点贡献。首先,我们证明了对于实例相关(但标签相关)噪声,任何在噪声分布上分类一致的算法在无噪声分布上也是一致的。其次,我们证明了一致性也适用于ROC曲线下的面积,假设噪声等级(精确意义上)与实例的固有困难有关。第三,当无噪声分布为广义线性模型时,我们证明了同位素算法可以有效且可证明地从噪声样本中学习。我们从经验上证实了我们的理论发现,我们希望这可能会刺激对这一重要学习环境的进一步分析。 引用于4文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 62H30型 分类和区分;聚类分析(统计方面) 关键词:标签噪声;实例相关噪声;一致性 软件:AlexNet公司;ImageNet公司 PDF格式BibTeX公司 XML格式引用 \textit{A.K.Menon}等人,马赫。学习。107,编号8--10,1561--1595(2018;Zbl 1475.68286) 全文: 内政部 参考文献: [1] Agarwal,S,通过强适当损失进行二分排名的代孕后悔界限,机器学习研究杂志,151653-1674,(2014)·Zbl 1319.62041号 [2] Agarwal,S.和Niyogi,P.(2005年)。二部排序算法的稳定性和泛化。在学习理论会议《施普林格》(第32-47页)·Zbl 1137.68513号 [3] 安格鲁因,D;Laird,P,从有噪声的例子中学习,机器学习,2433-370,(1988) [4] Awasthi,P.、Balcan,M.F.和Long,P.M.(2014)。有效学习带噪声线性分离器的定位能力。在计算理论研讨会(第449-458页)·Zbl 1315.68162号 [5] 阿瓦西,P;巴尔坎,MF;哈特拉布,N;Urner,R,有界噪声下线性分离器的有效学习,学习理论会议(COLT),40,167-190,(2015) [6] Awasthi,P.、Balcan,M.、Haghtalab,N.和Zhang,H.(2016)。非对称噪声下的学习和1位压缩感知。在学习理论会议(第152-192页)。 [7] 阿瓦西,P;Balcan,M;Long,PM,《本地化对有效学习带噪声线性分离器的作用》,《ACM杂志》,63,50,(2017)·Zbl 1315.68162号 ·数字对象标识代码:10.1145/3006384 [8] 艾尔,M;嗜酒,高清;通用汽车公司尤因;雷德,WT;Silverman,E,《不完全信息抽样的经验分布函数》,《数理统计年鉴》,26,641-647,(1955)·Zbl 0066.38502号 ·doi:10.1214/aoms/1177728423 [9] 巴特利特,PL;密歇根州约旦;麦考利夫,法学博士,凸性、分类和风险界限,美国统计协会杂志,101138-156,(2006)·Zbl 1118.62330号 ·doi:10.1198/01621450000000907 [10] Bhatia,K.、Jain,P.和Kar,P.(2015)。通过硬阈值进行稳健回归。在神经信息处理系统(NIPS)的进展(第721-729页)。 [11] Blum,A.和Mitchell,T.(1998年)。将标记数据和未标记数据与协同训练相结合。在学习理论会议(第92-100页)。 [12] Blum,A.、Frieze,A.、Kannan,R.和Vempala,S.(1996年)。学习带噪线性阈值函数的多项式时间算法。在计算机科学基础(第330-338页)·兹比尔0910.68169 [13] Bootkrajang,J,在存在注释错误的情况下用于分类的通用标签噪声模型,神经计算,192,61-71,(2016)·doi:10.1016/j.neucom.2015.12.106 [14] Bootkrajang,J;Kabán,A,在类标签噪声存在下学习核逻辑回归,模式识别,473641-3655,(2014)·Zbl 1373.68314号 ·doi:10.1016/j.patcog.2014.05.007 [15] Bylander,T.(1994)。在存在分类噪声的情况下学习线性阈值函数。在学习理论会议(第340-347页)。 [16] Bylander,T.(1997)。学习概率一致的线性阈值函数。在学习理论会议(第62-71页)。 [17] Bylander,T.(1998)。学习噪声线性阈值函数(未发表的手稿)。网址:http://www.cs.utsa.edu/bylander/pubs/learning-noisy-ltfs.ps.gz。 [18] 克莱门松,S;卢戈西,G;Vayatis,N,U统计的排名和经验最小化,《统计年鉴》,36844-874,(2008)·Zbl 1181.68160号 ·doi:10.1214/0905260700000910 [19] Decatur,S.E.(1997)。带常数部分分类噪声的PAC学习及其在决策树归纳中的应用。在机器学习国际会议(第83-91页)。 [20] Devroye,L.、Györfi,L.和Lugosi,G.(1996)。模式识别的概率理论柏林:施普林格·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5 [21] Du,J.和Cai,Z.(2015)。具有对称和非对称分布的类噪声建模。在人工智能会议(第2589-2595页)。 [22] Elkan,C.和Noto,K.(2008年)。仅从正面和未标记的数据学习分类器。在知识发现和数据挖掘国际会议(KDD)(第213-220页)。 [23] Frénay,B.和Kabán,A.(2014)。全面介绍标签噪音。在欧洲人工神经网络研讨会(第667-676页)。 [24] 弗莱奈,B;Verleysen,M,《标签噪声存在下的分类:一项调查》,IEEE神经网络和学习系统汇刊,25845-869,(2014)·doi:10.1109/TNNLS.2013.2292894 [25] Ghosh,A;曼瓦尼,N;Sastry,PS,《使风险最小化容忍标签噪声》,神经计算,160,93-107,(2015)·doi:10.1016/j.neucom.2014.09.081 [26] He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016)。用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)(第770-778页)。 [27] Jain,S.、White,M.和Radivojac,P.(2016)。从有噪声的正数据和未标记数据估计类的先验和后验。在神经信息处理系统(NIPS)的进展(第2685-2693页)。 [28] Kakade,S.、Kanade,V.、Shamir,O.和Kalai,A.(2011年)。利用等渗回归有效学习广义线性和单指数模型。在神经信息处理系统(NIPS)的进展(第927-935页)。 [29] Kalai,A.和Sastry,R.(2009年)。同位素算法:高维等渗回归。在学习理论会议. [30] Kalai,A.、Klivans,A.、Mansour,Y.和Servedio,R.(2005年)。不可知地学习半空间。在计算机系统基础(FOCS)(第11-20页)·Zbl 1155.68030号 [31] Koyejo,O.O.,Natarajan,N.,Ravikumar,P.K.,&Dhillon,I.S.(2014)。具有广义性能指标的一致二进制分类。在神经信息处理系统(NIPS)的进展(第2744-2752页)。 [32] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。在神经信息处理系统(NIPS)的研究进展(第1106-1114页)。 [33] Le,Q.V.、Smola,A.J.和Canu,S.(2005)。异方差高斯过程回归。在机器学习国际会议(第489-496页)。 [34] Ling,C.X.和Li,C.(1998)。直销数据挖掘:问题和解决方案。在知识发现和数据挖掘(KDD)(第73-79页)。 [35] 刘,T;Tao,D,通过重要性重加权对噪声标签进行分类,IEEE模式分析和机器智能汇刊,2001,447-461,(2015) [36] Long,P.,&Servedio,R.(2008)。随机分类噪声击败了所有凸势助推器。在机器学习国际会议(第608-615页)。 [37] 曼瓦尼,N;Sastry,PS,风险最小化下的噪声容限,IEEE控制论汇刊,43,1146-1151,(2013)·doi:10.1109/TSMCB.2012.2223460 [38] 马萨特,P;Nédélec,E,统计学习的风险界限,《统计年鉴》,342326-2366,(2006)·Zbl 1108.62007号 ·doi:10.1214/0090536000000786 [39] Menon,A.K.、van Rooyen,B.、Ong,C.S.和Williamson,B.(2015)。通过类概率估计从损坏的二进制标签中学习。在机器学习国际会议(第125-134页)。 [40] Narasimhan,H.、Vaish,R.和Agarwal,S.(2014)。关于不可分解性能度量插件分类器的统计一致性。在神经信息处理系统(NIPS)的研究进展(第1493-1501页)。 [41] Natarajan,N.、Dhillon,I.S.、Ravikumar,P.D.和Tewari,A.(2013)。用嘈杂的标签学习。在神经信息处理系统(NIPS)的进展(第1196-1204页)·Zbl 1467.68151号 [42] Nguyen,新罕布什尔州;Tran,TD,通过\(ℓ _最小化,IEEE信息理论汇刊,592017-2035,(2013)·Zbl 1364.94145号 ·doi:10.10109/TIT.2013.2240435 [43] Patrini,G.、Nielsen,F.、Nock,R.和Carioni,M.(2016)。损失因子分解、弱监督学习和标签噪声鲁棒性。在机器学习国际会议(第708-717页)。 [44] Patrini,G.、Rozza,A.、Menon,A.、Nock,R.和Qu,L.(2017年)。使深层神经网络对标签噪声鲁棒:一种损失校正方法。在计算机视觉和模式识别(CVPR)(第2233-2241页)。 [45] Plessis,M.C.、Niu,G.、Sugiyama,M.(2015)。用于从正数据和未标记数据中学习的凸公式。在机器学习国际会议(第1386-1394页)。 [46] Ralaivola,L.、Denis,F.和Magnan,C.N.(2006年)。CN=CPCN。在机器学习国际会议(第721-728页)。 [47] Reed,S.E.、Lee,H.、Anguelov,D.、Szegedy,C.、Erhan,D.和Rabinovich,A.(2014)。用自举方法在噪声标签上训练深度神经网络。CoRR abs/1412.6596。 [48] Reid,M.D.和Williamson,R.C.(2009年)。代理适当损失的遗憾界限。在机器学习国际会议(第897-904页)。 [49] van Rooyen,B.、Menon,A.K.和Williamson,R.C.(2015)。学习对称标签噪音:精神错乱的重要性。在神经信息处理系统(NIPS)的进展(第10-18页)。 [50] Schölkopf,B.和Smola,A.J.(2001)。用内核学习剑桥:麻省理工学院出版社·Zbl 1019.68094号 [51] Scott,C.、Blanchard,G.和Handy,G.(2013年)。非对称标签噪声分类:一致性和最大去噪。在学习理论会议(第489-511页)·Zbl 1347.62106号 [52] Servedio,R.(1999)。使用winnow、感知器和类感知器算法进行PAC学习。在学习理论会议(第296-307页)。 [53] Shalizi,C.R.(2017)。从基本观点进行高级数据分析(未出版的书籍草稿)。网址:http://www.stat.cmu.edu/cshalizi/ADAfaEPoV/ADAfaEPoV.pdf。 [54] Steinwart,I.和Scovel,C.(2005)。支持向量机的快速速度。在学习理论会议(第279-294页)·Zbl 1137.68564号 [55] Stempfel,G.和Ralaivola,L.(2007年)。使用随机投影在噪声数据上学习核感知器。在算法学习理论(ALT)(第328-342页)·Zbl 1142.68408号 [56] Stempfel,G.和Ralaivola,L.(2009年)。从标记松散的数据中学习SVM。在国际人工神经网络会议(ICANN)(第884-893页)。 [57] 赖特,J;Ma,Y,密集误差修正\(ℓ _1)-最小化,IEEE信息理论汇刊,56,3540-3560,(2010)·Zbl 1366.94133号 ·doi:10.1109/TIT.2010.2048473 [58] Xiao,T.、Xia,T.,Yang,Y.、Huang,C.和Wang,X.(2015)。从大量噪声标记数据中学习图像分类。在IEEE计算机视觉和模式识别会议(CVPR)(第2691-2699页)。 [59] 张,T,基于凸风险最小化的分类方法的统计行为和一致性,《统计年鉴》,32,56-85,(2004)·Zbl 1105.62323号 ·doi:10.1214/aos/1079120130 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。