×

分级分类预测的无监督评估和加权聚合。 (英文) Zbl 1440.68199号

总结:集合来自一组不同基础学习者的预测的集成方法始终优于单个分类器。许多这样的流行策略都是在有监督的环境中开发的,其中样本标签被提供给集成算法。然而,随着人们对用于机器学习的无监督算法的兴趣不断增加,以及未经处理的数据量不断增加,对标记数据的依赖阻碍了集成算法在许多现实问题中的应用。为此,我们开发了一个新的集成学习理论框架,即无监督多方法聚合策略(SUMMA),该策略估计基本分类器的性能,并使用这些估计来形成集成分类器。SUMMA还根据其分配给每个样本的置信度得分生成样本的集合排名。我们使用一个合成示例和两个实际问题来演示SUMMA的性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
62G05型 非参数估计
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] 希瓦尼·阿加瓦尔(Shivani Agarwal)、托尔·格雷佩尔(Thore Graepel)、拉尔夫·赫布里奇(Ralf Herbrich)、萨里尔·哈普莱德(Sariel Har-Peled)和丹·罗斯(Dan Roth)。roc曲线下面积的推广边界。机器学习研究杂志,6:393-4252005·Zbl 1222.68129号
[2] 贾维德·阿斯拉姆和马克·蒙塔古。元搜索模型。2001年ACM SIGIR会议记录。
[3] Akshay Balsubramani和Yoav Freund。分类器的可伸缩半监督聚合。神经信息处理系统进展,2015年。
[4] Rina Foygel理发师和Wooseok Ha。具有非凸约束的梯度下降:局部凹度决定收敛。信息与推断,7(4):755-8062018·Zbl 1476.90251号
[5] 安东尼奥·贝拉(Antonio Bella)、塞萨尔·费里(C'esar Ferri)、何塞·埃尔恩安德斯·奥拉洛(Josée Hern´andez-Orallo)和玛尔·拉梅·雷兹·金塔纳。关于分类器组合中的校准效果。应用情报,38(4):566-5852013。
[6] Avradeep Bhowmik和Joydeep Ghosh。无监督秩聚合的Letor方法。2017年万维网国际会议论文集。
[7] 利奥·布雷曼(Leo Breiman)。装袋预测器。机器学习,24(2):123-1401996·Zbl 0858.68080号
[8] 蔡建峰(Jian Feng Cai)、伊曼纽尔·坎迪斯(Emmanuel J Cand’es)和沈左伟(Zuowei Shen)。矩阵补全的奇异值阈值算法。SIAM优化杂志,20(4):1956-19822010·Zbl 1201.90155号
[9] Emmanuel J Cand’es和Benjamin Recht。通过凸优化实现精确矩阵补全。计算数学基础,9(6):7172009·Zbl 1219.90124号
[10] 伊曼纽尔·坎迪斯和特伦斯·陶。凸松弛的幂:近似最优矩阵完备。IEEE信息理论汇刊,56(5):2053-20802010·Zbl 1366.15021号
[11] Rich Caruana、Alexandru Niculescu-Mizil、Geoff Crew和Alex Ksikes。从模型库中进行集成选择。2004年机器学习国际会议论文集。
[12] 弗兰科伊斯·乔利特。Xception:利用深度可分离卷积进行深度学习。《IEEE计算机视觉和模式识别会议论文集》,第1251-1258页,2017年。
[13] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克。支持向量网络。机器学习,20(3):273-2971995·兹比尔08316.8098
[14] 亚历山大·菲利普·达维德(Alexander Philip Dawid)和艾伦·M·斯科恩(Allan M Skene)。使用em算法对观测器错误率进行最大似然估计。英国皇家统计学会杂志:C辑,28(1):20-281979。
[15] Arthur P Dempster、Nan M Laird和Donald B Rubin。通过em算法从不完整数据中获得最大似然。英国皇家统计学会杂志:B辑,39(1):1-221977·Zbl 0364.62022号
[16] 托马斯·迪特里奇(Thomas G Dietterich)。合奏学习。《大脑理论和神经网络手册》,2:110-1252002。
[17] 卡尔·埃卡特和盖尔·扬。一个矩阵与另一个低阶矩阵的近似。《心理测量学》,1(3):211-218,1936年。
[18] 分级分类预测的无监督评估和加权聚合
[19] M Elter、R Schulz-Wendtland和T Wittenberg。使用两种cad方法预测乳腺癌活检结果,这两种方法都强调可理解的决策过程。医学物理学,34(11):4164-41722007。
[20] 彼得·爱默生。最初的博尔达计票和部分投票。《社会选择与福利》,40(2):353-3582013年·Zbl 1287.91050号
[21] Yoav Freund和Robert E Schapire。在线学习的决策理论推广及其在助推中的应用。计算机与系统科学杂志,55(1):119-1391997·Zbl 0880.68103号
[22] 魏高、金荣、朱生火、周志华。单程auc优化。在2013年国际机器学习会议上·兹比尔1357.68168
[23] 迈克·盖斯勒(Mike Gashler)、克里斯托夫·吉拉德(Christophe Giraud-Carrier)和托尼·马丁内斯(Tony Martinez)。决策树集成:小型异构比大型同构更好。机器学习和应用国际会议论文集,2008年。
[24] 弗兰克·E·哈雷尔。有序逻辑回归。在回归建模策略中,第331-343页。施普林格,2001年·Zbl 0982.62063号
[25] Ariel Jaffe、Boaz Nadler和Yuval Kluger。在没有标记数据的情况下估计多个分类器的准确性。《人工智能与统计》,2015年。
[26] Prateek Jain和Sewoong Oh。使用谱分解学习离散产品分布的混合。2014年学习理论会议。
[27] Prateek Jain、Raghu Meka和Inderjit S Dhillon。通过奇异值投影保证秩最小化。神经信息处理系统进展,第937-945页,2010年。
[28] 埃德温·T·杰恩斯。信息论和统计力学。《物理评论》,106(4):6201957·Zbl 0084.43701号
[29] 阿扎姆·卡拉米(Azam Karami)、梅赫兰·亚兹迪(Mehran Yazdi)和格里戈伊尔·梅西耶(Gr´egoire Mercier)。使用离散小波变换和塔克分解对高光谱图像进行压缩。IEEE应用地球观测和遥感专题期刊,5(2):444-450,2012年。
[30] 亚历山大·克莱门提夫(Alexandre Klementiev)、丹·罗斯(Dan Roth)和凯文·斯莫尔(Kevin Small)。基于距离模型的无监督等级聚合。机器学习国际会议论文集,2008年。
[31] 塔马拉·G·科尔达(Tamara G Kolda)和布雷特·巴德(Brett W Bader)。张量分解及其应用。SIAM评论,51(3):455-500,2009年·Zbl 1173.65029号
[32] Max Kuhn等人。使用插入符号包在r中构建预测模型。统计软件杂志,28(5):1-262008a。
[33] Max Kuhn等人。插入符号包。统计软件杂志,28(5):1-262008b。
[34] M.利奇曼。Uci机器学习库,2013年。29
[35] Max A Little、Patrick E McSharry、Stephen J Roberts、Declan AE Costello和Irene M Moroz。利用非线性递归和分形标度特性进行语音障碍检测。生物医学工程在线,6(1):232007。
[36] 刘铁燕、李杭和刘玉亭。监督基于排名的排名汇总,2010年。美国专利7840522。
[37] Daniel Marbach、James C Costello、Robert K¨uffner、Nicole M Vega、Robert J Prill、Diogo M Camacho、Kyle R Allison、Andrej Aderhold、Richard Bonneau、Yukun Chen等。稳健基因网络推断的群体智慧。自然方法,9(8):7962012。
[38] 卡伦·马尔兹班(Caren Marzban)。roc曲线及其下的面积作为性能度量。天气与预报,19(6):1106-11142004。
[39] S´ergio Moro、Paulo Cortez和Paulo Rita。预测银行电话营销成功的数据驱动方法。决策支持系统,62:22-312014。
[40] Kenta Nakai和Minoru Kanehisa。预测革兰氏阴性细菌蛋白质定位位点的专家系统。蛋白质:结构、功能和生物信息学,11(2):95-1101991。
[41] 亚历山德鲁·尼古列斯库·梅齐尔(Alexandru Niculescu-Mizil)、克劳迪亚·佩里奇(Claudia Perlich)、格热戈兹·斯威斯基(Grzegorz Swirszcz)、维卡斯·辛德瓦尼(Vikas Sindhwani)、刘燕(Yan Liu)、普雷姆·梅尔维尔(Prem Melville)、王东(Dong Wang)、小靖(Ji。2009年KDD-Cup国际会议记录。
[42] Shmuel Nitzan和Jacob Paroush。不确定二分选择情况下的最优决策规则。《国际经济评论》,第289-297页,1982年·Zbl 0489.90011号
[43] Shmuel Nitzan和Ariel Rubinstein。博尔达排名方法的进一步表征。公共选择,36(1):153-1581981。
[44] T Maruthi Padmaja、Narendra Dhulipalla、Raju S Bapi和P Radha Krishna。使用极端异常值消除和抽样技术进行欺诈检测的不平衡数据分类。2007年高级计算与通信国际会议论文集。
[45] 法比奥·帕里西、弗朗西斯科·斯特里诺、波阿斯·纳德勒和尤瓦尔·克鲁格。在没有标记数据的情况下对多个预测因子进行排序和组合。《美国国家科学院院刊》,111(4):1253-12582014·Zbl 1359.62259号
[46] 罗伯特·普里尔、丹尼尔·马尔巴赫、朱利奥·萨伊兹·罗德里格斯、彼得·索尔格、列奥尼达斯·亚历克索普洛斯、薛晓伟、尼尔·D·克拉克、格雷戈伊尔·阿尔坦·博内特和古斯塔沃·斯托洛维茨基。走向系统生物学模型的严格评估:梦想3挑战。《公共科学图书馆·综合》,5(2):e92022010年。
[47] 朱利奥·塞兹·罗德里格斯(Julio Saez-Rodriguez)、詹姆斯·科斯特洛(James C Costello)、斯蒂芬·弗里德(Stephen H Friend)、迈克尔·凯伦(Michael R Kellen)、劳拉·曼格拉维特(Lara Mangravite)、巴勃罗·迈耶(Pablo Meyer)、西亚·诺。众包生物医学研究:利用社区作为创新引擎。《自然评论遗传学》,17(8):4702016年。
[48] 分级分类预测的无监督评估和加权聚合
[49] 罗伯特·夏皮雷(Robert E Schapire)。弱可学性的力量。机器学习,5(2):197-2271990·Zbl 0747.68058号
[50] Amartya Sen.社会选择理论。《数学经济学手册》,3:1073-11811986年·Zbl 0604.90013号
[51] Vincent G Sigillito、Simon P Wing、Larrie V Hutton和Kile B Baker。使用神经网络对电离层雷达回波进行分类。约翰斯·霍普金斯大学APL技术文摘,10(3):262-2661989。
[52] 里昂·斯诺(Rion Snow)、布伦丹·奥康纳(Brendan O'Connor)、丹尼尔·尤拉夫斯基(Daniel Jurafsky)和安德鲁·伍兹(Andrew Y Ng)。价格便宜,速度快,但它好吗评估自然语言任务的非专家注释。《自然语言处理经验方法会议论文集》,第254-263页。计算语言学协会,2008年。
[53] 古斯塔沃·斯托洛维茨基(Gustavo Stolovitzky)、罗伯特·普利尔(Robert J Prill)和安德烈亚·卡里瓦诺(Andrea Califano)。梦想2挑战的教训:评估生物网络推断的社区努力。《纽约科学院年鉴》,1158(1):159-1952009。
[54] Karthik Subbian和Prem Melville。监督排名聚合,用于预测推特中的影响者。2011年国际隐私、安全、风险和信任会议记录。
[55] Liang Sun、Tomonori Honda、Vesselin Diev、Gregory Gancarz、Jeong-Yoon Lee、Ying Liu、Mona Mahmoudi、Raghav Mathur、Shahinur Rahman、Steve Wickert等。最大化默认预测中的auc:建模和混合。
[56] 詹姆斯·苏洛维耶基(James Surowiecki)。群众的智慧。Anchor,2005年。
[57] 蔡志芳和萧玉娇。组合多种特征选择方法进行股票预测:并集、交集和多交集方法。决策支持系统,50(1):258-2692010。
[58] 列文·范登伯格和斯蒂芬·博伊德。半定规划的应用。应用数值数学,29(3):283-2991999·Zbl 0956.90031号
[59] 肖恩·沃伦和高拉夫·潘迪。集成分类器的比较分析:基因组学中的案例研究。2013年国际数据挖掘会议记录。
[60] 大卫·H·沃尔伯特。叠加概括。神经网络,5(2):241-2591992。
[61] 大卫·H·沃尔伯特。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。