×

噪声容忍度和差异隐私的统计主动学习算法。 (英语) Zbl 1315.68202号

摘要:我们描述了一个设计高效主动学习算法的框架,该算法能够容忍随机分类噪声,并且具有不同的私密性。该框架基于主动学习算法统计的在这个意义上,它们依赖于对过滤随机示例的函数期望的估计。它建立在强大的统计查询框架之上M.卡恩斯[J.ACM 45,第6期,983–1006(1998年;Zbl 1065.68605号)]. 我们表明,任何有效的主动统计学习算法都可以自动转换为一种有效的主动学习算法,该算法能够容忍随机分类噪声以及其他形式的“不相关”噪声。所得算法的复杂性具有理论上最优的信息二次依赖于\(1/(1-2\eta)\),其中\(\eta)是噪声率。我们表明,在我们的框架中可以有效地主动学习常用的概念类,包括阈值、矩形和线性分隔符。这些结果与我们的通用转换相结合,产生了第一个计算效率高的算法,用于在存在随机分类噪声的情况下主动学习这些概念类中的一些,与被动类相比,这些算法在对误差的依赖性上有指数级的改善。此外,我们还证明了我们的算法可以自动转换为有效的主动差分-私有算法。这导致了第一个与被动情况相比具有指数级标签节省的差异-私有主动学习算法。

MSC公司:

68T05型 人工智能中的学习和自适应系统

软件:

SuLQ公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Awasthi,P.,Balcan,M.-F.,Long,P.:有效学习带噪声线性分离器的本地化能力。收录于:第46届美国计算机学会计算理论研讨会论文集(2014)·Zbl 1315.68162号
[2] Aslam,J.,Decatur,S.:效率和噪声容限统计查询算法的规范和模拟。JCSS 56191-208(1998)·Zbl 0912.68063号
[3] Angluin,D.,Laird,P.:从吵闹的例子中学习。机器。学习。2, 343-370 (1988)
[4] Bousquet,O.,Boucheron,S.,Lugosi,G.:分类理论:最新进展综述。ESAIM概率。统计9,323-375(2005)·Zbl 1136.62355号 ·doi:10.1051/ps:2005018
[5] Balcan,M.-F.,Beygelzimer,A.,Langford,J.:不可知积极学习。In:ICML(2006)·Zbl 1162.68516号
[6] Balcan,M.-F.,Broder,A.,Zhang,T.:基于边缘的主动学习。收录于:COLT,第35-50页(2007年)·Zbl 1203.68136号
[7] Beygelzimer,A.,Dasgupta,S.,Langford,J.:重要性加权主动学习。载于:ICML,第49-56页(2009年)·Zbl 0910.68169号
[8] Blum,A.,Dwork,C.,McSherry,F.,Nissim,K.:实用隐私:SuLQ框架。摘自:PODS会议记录,第128-138页(2005)
[9] Blumer,A.,Ehrenfeucht,A.,Haussler,D.,Warmuth,M.:可学习性和Vapnik-Chervonenkis维度。J.ACM 36(4),929-965(1989)·Zbl 0697.68079号 ·数字对象标识代码:10.1145/76359.76371
[10] 比肖蒂,N.,费尔德曼,V.:关于使用扩展统计查询来避免成员查询。JMLR 2,359-395(2002)·Zbl 1007.68081号
[11] Blum,A.、Furst,M.、Jackson,J.、Kearns,M.,Mansour,Y.、Rudich,S.:弱学习DNF和使用傅里叶分析表征统计查询学习。在:STOC,第253-262页(1994年)·兹比尔1345.68186
[12] Blum,A.、Frieze,A.、Kannan,R.、Vempala,S.:学习有噪线性阈值函数的多项式时间算法。Algorithmica 22(1/2),35-52(1997)·Zbl 0910.68169号
[13] Balcan,M.-F.,Hanneke,S.:稳健的交互式学习。输入:COLT(2012)
[14] Beygelzimer,A.,Hsu,D.,Langford,J.,Zhang,T.:无约束的不可知积极学习。In:NIPS(2010)
[15] Balcan,M.-F.,Hanneke,S.,Wortman,J.:主动学习的真正样本复杂性。输入:COLT(2008)·Zbl 1470.68078号
[16] Balcan,M.-F.,Long,P.M.:对数压缩分布下线性分隔符的主动和被动学习。输入:COLT(2013)·Zbl 0697.68079号
[17] Bylander,T.:在存在分类噪声的情况下学习线性阈值函数。摘自:COLT会议记录,第340-347页(1994年)
[18] Cavallanti,G.,Cesa Bianchi,N.,Gentile,C.:通过自适应和选择性采样学习有噪声的线性分类器。马赫学习。83, 71-102 (2011) ·Zbl 1237.68139号
[19] Chaudhuri,K.,Hsu,D.:差异私人学习的样本复杂性边界。收录于:JMLR COLT Proceedings,vol.19,pp.155-186(2011)·Zbl 1235.68143号
[20] Chu,C.、Kim,S.、Lin,Y.、Yu,Y.,Bradski,G.、Ng,A.、Olukotun,K.:多核机器学习的地图还原。摘自:NIPS会议记录,第281-288页(2006年)·Zbl 1065.68605号
[21] Castro,R.,Nowak,R.:主动学习的最小极限。输入:COLT(2007)·Zbl 1203.68142号
[22] Dasgupta,S.:主动学习的粗糙样本复杂性边界。In:NIPS,第18卷(2005)
[23] Dasgupta,S.:主动学习理论。摘自:Sammut,C.,Webb,G.I.(编辑)《机器学习百科全书》,第14-19页(2010年)
[24] Dekel,O.,Gentile,C.,Sridharan,K.:从单个和多个教师那里进行选择性抽样和积极学习。J.马赫。学习。第13(1)号决议,2655-2697(2012)·Zbl 1433.68336号
[25] Dasgupta,S.,Hsu,D.:主动学习的分层抽样。收录于:ICML,第208-215页(2008年)
[26] Dasgupta,S.,Hsu,D.J.,Monteleoni,C.:一种通用的不可知主动学习算法。In:NIPS(2011)
[27] Dasgupta,S.,Tauman Kalai,A.,Monteleoni,C.:基于感知机的主动学习分析。J.马赫。学习。第10281-299号决议(2009年)·Zbl 1235.68143号
[28] Dwork,C.,McSherry,F.,Nissim,K.,Smith,A.:私人数据分析中噪声灵敏度的校准。收录于:TCC,第265-284页(2006年)·Zbl 1112.94027号
[29] Dunagan,J.,Vempala,S.:求解线性程序的简单多项式时间缩放算法。收录于:STOC,第315-320页(2004年)·Zbl 1192.90116号
[30] Feldman,V.:统计查询学习的完整特征及其演化应用。J.计算。系统。科学。78(5), 1444-1459 (2012) ·Zbl 1244.68045号 ·doi:10.1016/j.jcss.2011.12.024
[31] Feldman,V.、Grigorescu,E.、Reyzin,L.、Vempala,S.、Xiao,Y.:统计算法和检测种植集团的下限。收件人:ACM STOC(2013)·Zbl 1293.68142号
[32] Freund,Y.,Seung,H.S.,Shamir,E.,Tishby,N.:使用委员会查询算法的选择性采样。机器。学习。28(2-3),133-168(1997)·Zbl 0881.68093号 ·doi:10.1023/A:1007330508534
[33] Gonen,A.,Sabato,S.,Shalev-Shwartz,S.:基于池的半空间有效主动学习。In:ICML(2013)·Zbl 1317.68160号
[34] Hanneke,S.:基于分歧的主动学习理论。已找到。趋势马赫数。学习。7(2-3), 131-309 (2014) ·Zbl 1327.68193号
[35] Hanneke,S.:不可知论主动学习的标签复杂性。In:ICML(2007)·Zbl 1203.68151号
[36] Jagannathan,G.,Monteleoni,C.,Pillaipakkamnatt,K.:差异隐私的半监督学习方法。摘自:2013年IEEE国际数据挖掘研讨会(ICDMW)会议记录,IEEE数据挖掘隐私问题研讨会(PADM)(2013)
[37] Kearns,M.:从统计查询中高效的容错学习。JACM 45(6),983-1006(1998)·Zbl 1065.68605号 ·doi:10.145/293347.293351
[38] Kasiviswanathan,S.P.,Lee,H.K.,Nissim,K.,Raskhodnikova,S.,Smith,A.:我们可以私下学到什么?SIAM J.计算。40(3), 793-826 (2011) ·Zbl 1235.68093号 ·doi:10.1137/090756090
[39] Koltchinskii,V.:Rademacher复杂性和主动学习中的过度风险边界。JMLR 11,2457-2485(2010)·Zbl 1242.62088号
[40] Kearns,M.,Vazirani,U.:计算学习理论导论。麻省理工学院出版社,马萨诸塞州剑桥(1994)
[41] Kanade,V.、Valiant,L.G.、Wortman Vaughan,J.:漂移目标的进化。摘自:COLT会议记录,第155-167页(2010年)·Zbl 0910.68169号
[42] Long,P.M.:关于PAC学习半空间对均匀分布的样本复杂性。IEEE传输。神经网络。6(6), 1556-1559 (1995) ·doi:10.1109/72.471352
[43] Lovász,L.,Vempala,S.:对数凹函数的几何和采样算法。随机结构。算法30(3),307-358(2007)·Zbl 1122.65012号 ·doi:10.1002/rsa.20135
[44] McCallum,A.,Nigam,K.:在基于池的主动学习中使用EM进行文本分类。收录于:ICML,第350-358页(1998年)·Zbl 0912.68063号
[45] Rosenblatt,F.:感知器:大脑中信息存储和组织的概率模型。精神病。版本65386-407(1958)·doi:10.1037/0042519
[46] Raginsky,M.,Rakhlin,A.:被动学习和主动学习的下限。收录于:NIPS,第1026-1034页(2011年)
[47] Valiant,L.G.:可学习理论。Commun公司。ACM 27(11),1134-1142(1984)·Zbl 0587.68077号 ·数字对象标识代码:10.1145/1968.1972
[48] Vapnik,V.:统计学习理论。Wiley-Interscience,纽约(1998年)·兹比尔0935.62007
[49] Vempala,S.:个人沟通(2013)
[50] Wang,L.:不可知积极学习的平滑性、不一致系数和标签复杂性。J.马赫。学习。第12号决议,2269-2292(2011年)·Zbl 1280.68213号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。