×

二分类和多分类结果的机器学习概率估计:理论。 (英语) Zbl 1441.62404号

摘要:使用logistic和多项式logistic回归对二分类和多分类结果进行概率估计在生物统计学中有着悠久的传统。然而,如果模型指定错误,可能会产生偏差。相反,个体的结果概率可以使用机器学习方法一致地进行估计,包括(k)-最近邻(k)-NN)、袋装最近邻(b-NN)、随机森林(RF)和支持向量机(SVM)。由于应用生物统计学家很少使用机器学习方法,因此本文的主要目标是用这些方法解释概率估计的概念,并总结最近的理论发现。(k)-NN、b-NN和RF中的概率估计可以嵌入到非参数回归学习机类中;因此,我们首先构建非参数回归估计,并回顾一致性和收敛速度方面的结果。在SVM中,通过反复解决分类问题来一致地估计个体的结果概率。对于SVM,我们回顾了分类问题,然后是二分法概率估计。接下来,我们将使用(k)-NN、b-NN和RF估计概率的算法扩展到多类别结果,并讨论使用SVM的多类别概率估计问题的方法。在对二分和多类别因变量的模拟研究中,我们证明了机器学习方法的一般有效性,并将其与逻辑回归进行了比较。然而,每种方法在至少一种模拟场景中都失败了。我们最后对失败进行了讨论,并给出了选择和调整方法的建议。实际数据和示例代码的应用见配套文章【Biom.J.56,No.4,564-583(2014;Zbl 1441.62405号)].

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62G08号 非参数回归和分位数回归
62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿明格,《数据分析和信息系统》,第243页–(1996年)·doi:10.1007/978-3642-80098-6_21
[2] Austin,预测心血管疾病患者死亡率的回归树:使用基于集合的方法可以实现哪些改进?,《生物医学杂志》54第657页–(2012年)·Zbl 1400.62244号 ·doi:10.1002/bimj.201100251
[3] Barla,预测蛋白质组学的机器学习方法,生物信息学简报9,第119页–(2008)·doi:10.1093/bib/bbn008
[4] Bartlett,凸性、分类和风险边界,《美国统计协会期刊》101第138页–(2006)·Zbl 1118.62330号 ·doi:10.1198/01621450000000907
[5] Benichou,Graphs to estimate a individual risk of breast cancer,《临床肿瘤学杂志》,第14页,第103页–(1996)·doi:10.1200/JCO.1996.14.1.103
[6] Biau,《随机森林模型分析》,《机器学习研究杂志》13页1063–(2012)
[7] Biau,关于袋装最近邻估计的收敛速度,机器学习研究杂志11页687–(2010)·Zbl 1242.62025号
[8] Biau,关于分层最近邻估计、袋装最近邻估计和回归分类中的随机森林方法,多元分析杂志101第2499页–(2010)·Zbl 1198.62048号 ·doi:10.1016/j.jmva.2010.06.019
[9] Biau,随机森林和其他平均分类器的一致性,《机器学习研究杂志》第9期第2039页–(2008)·Zbl 1225.62081号
[10] Bickel,《套索和dantzig选择器的同步分析》,《统计年鉴》第37卷第1705页–(2009年)·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[11] 比林斯利,概率与测度(1995)
[12] Breiman,Bagging predictors,机器学习24 pp 123–(1996)·Zbl 0858.68080号 ·doi:10.1007/BF00058655
[13] Breiman,《随机森林》,机器学习45页,第5页–(2001年)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[14] Breiman,L.2004随机森林简单模型的一致性技术报告670。加利福尼亚大学伯克利分校统计系http://www.stat.berkeley.edu/breiman/RandomForests/consistencyRFA.pdf
[15] Bühlmann,《袋装分析》,《统计年鉴》30,第927页–(2002年)·Zbl 1029.62037号 ·doi:10.1214操作系统/1031689014
[16] Buja,《装袋观察》,《中国统计》第16卷第323页–(2006年)·Zbl 1096.62034号
[17] Bunea,套索的稀疏预言不等式,《电子统计杂志》1第169页–(2007)·兹比尔1146.62028 ·doi:10.1214/07-EJS008
[18] 坎迪斯,《dantzig选择器:当p远大于n时的统计估计》,《统计年鉴》第35卷第2313页–(2007年)·Zbl 1139.62019号 ·doi:10.1214/00905360000001523
[19] Carlin,使用加权估计方程和离散生存期方法分析纵向研究中的二元结果:青少年队列中吸烟的流行率和发病率,《医学统计学》第18页,第2655页–(1999)·doi:10.1002/(SICI)1097-0258(19991015)18:19<2655::AID-SIM202>3.0.CO;2-#
[20] Chapelle,为支持向量机选择多个参数,机器学习46 pp 131–(2002)·Zbl 0998.68101号 ·doi:10.1023/A:1012450327387
[21] Chen,基因组数据分析的随机森林,Genomics 99 pp 323–(2012)·doi:10.1016/j.ygeno.2012.04.003
[22] Claus,遗传流行病学中的风险模型,医学研究中的统计方法9,第589页–(2000)·Zbl 1121.62586号 ·doi:10.1191/096228000675337994
[23] 封面,《夏威夷国际系统科学会议记录》第413页–(1968年)
[24] Cox,《通过优化风险管理实现心血管健康的新方法(锚):初级保健中的行为改变有效降低了全球风险》,《加拿大心脏病杂志》29页1400–(2013)·doi:10.1016/j.cjca.2013.03.007
[25] Cucker,《关于学习的数学基础》,《美国数学学会公报》39页1–(2002)·Zbl 0983.68162号 ·doi:10.1090/S0273-0979-01-00923-5
[26] D'Agostino,《2012年心血管风险评估:经验教训和对HIV人群的适用性》,《传染病杂志》205(增刊3)第S362页–(2012)·doi:10.1093/infdis/jis196
[27] Devroye,对于有限样本量,任何判别规则都可能有任意错误概率,IEEE模式分析与机器智能学报4 pp 154–(1982)·Zbl 0484.62072号 ·doi:10.1109/TPAMI.1982.4767222
[28] Devroye,《关于最近邻回归函数估计的强一致性》,《统计年鉴》22卷1371页–(1994年)·Zbl 0817.62038号 ·doi:10.1214/aos/1176325633
[29] Devroye,模式识别的概率理论(1996)·doi:10.1007/978-1-4612-0711-5
[30] Devroye,《无分布一致性导致非参数判别和回归函数估计》,《统计学年鉴》8第231页–(1980)·Zbl 0431.62025号 ·doi:10.1214/aos/1176344949
[31] Díaz Uriarte,使用随机森林对微阵列数据进行基因选择和分类,BMC生物信息学7第3页–(2006)·doi:10.1186/1471-2105-7-3
[32] Domeniconi,《第17届模式识别国际会议论文集》,2004年,第228页–(2004)
[33] 弗里德曼(Friedman),《加性逻辑回归:提升的统计观点》(Additive logistic regression:a statistical view of boosting)(作者进行了讨论和反驳,《统计年鉴》28第337页–(2000)·兹比尔1106.62323 ·doi:10.1214/aos/1016218223
[34] Friedman,《关于装袋和非线性估计》,《统计规划与推断杂志》137 pp 669–(2007)·Zbl 1104.62047号 ·doi:10.1016/j.jspi.2006.06.002
[35] Genton,《机器学习的内核类:统计视角》,机器学习研究杂志2,第299页–(2002)·Zbl 1037.68113号
[36] Genuer,《纯随机森林中的方差减少》,《非参数统计杂志》,第24页,543页–(2012年)·Zbl 1254.62050号 ·doi:10.1080/10485252.2012.677843
[37] Genuer,R.Poggi,J.M.Tuleau,C.2008随机森林:一些方法论见解。技术报告6729法国奥赛州莱萨克利国家信息与自动化研究所http://arxiv.org/pdf/0811.3619v1.pdf
[38] Gillmann,关于二元logistic回归模型的良好性的图形检查,《医学信息方法》48页306–(2009)·doi:10.3414/ME0571
[39] Gneiting,《严格正确的评分规则、预测和估计》,《美国统计协会杂志》102第359页–(2007)·Zbl 1284.62093号 ·doi:10.19198/0162114506000001437
[40] Györfi,非参数回归的无分布理论(2002)·Zbl 1021.62024号 ·数字对象标识代码:10.1007/b97848
[41] 霍尔,袋装最近邻分类器的属性,《皇家统计学会杂志》,B辑67 pp 363–(2005)·Zbl 1069.62051号 ·文件编号:10.1111/j.1467-9868.2005.0050.x
[42] Harrell,回归建模策略。线性模型、Logistic回归和生存分析的应用(2001)·Zbl 0982.62063号
[43] Hastie,《统计学习的要素:数据挖掘、推断和预测》(2009年)·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[44] Hastie,广义加法模型(1990)·Zbl 0747.62061号
[45] 科勒,局部多项式核回归估计的通用一致性,统计数学研究所年鉴54,第879页–(2002)·Zbl 1047.62033号 ·doi:10.1023/A:1022427805425
[46] 科勒,使用惩罚最小二乘法的非参数回归估计,IEEE信息理论汇刊47页3054–(2001)·Zbl 1008.62580号 ·doi:10.1109/18.998089
[47] Kohler,具有无界数据的分区和最近邻回归估计的收敛速度,《多变量分析杂志》97第311页–(2006)·Zbl 1085.62041号 ·doi:10.1016/j.jmva.2005.03.006
[48] 科勒,无界数据非参数回归的最优全局收敛速度,《统计规划与推断杂志》139页1286–(2009)·Zbl 1153.62031号 ·doi:10.1016/j.jspi.2008.07.012
[49] König,《使用学习机进行以患者为中心的是/否预测》,《国际数据挖掘和生物信息学杂志》2,第289页–(2008年)·doi:10.1504/IJDMB.2008.022149
[50] König,《关于外部验证必要性的实践经验》,《医学统计学》26页5499–(2007)·doi:10.1002/sim.3069
[51] Kruppa,使用机器学习方法进行二分和多类别结果的概率估计:应用,《生物医学杂志》56 pp 564–(2014)·Zbl 1441.62405号 ·doi:10.1002/bimj.201300077
[52] Kruppa,《消费者信贷风险:使用机器学习的个人概率估计》,《应用专家系统》40页5125–(2013)·doi:10.1016/j.eswa.2013.03.019
[53] Kruppa,使用机器学习方法进行风险评估和风险预测,《人类遗传学》131页1639–(2012)·doi:10.1007/s00439-012-1194-y
[54] Lee,《使用机器学习改进倾向得分加权》,《医学统计学》第29页第337页-(2010)
[55] Lee,《多类别支持向量机:微阵列数据和卫星辐射数据分类的理论和应用》,《美国统计协会杂志》99页67–(2004)·Zbl 1089.62511号 ·doi:10.1198/016214500000098
[56] Li,用于评估诊断准确性改进的多类别重新分类统计,《生物统计学》第14页,第382页–(2013)·doi:10.1093/biostatistics/kxs047
[57] Lin,支持向量机和分类中的贝叶斯规则,数据挖掘和知识发现6 pp 259–(2002)·doi:10.1023/A:1015469627679
[58] 林,《随机森林和适应性最近邻》,《美国统计协会期刊》101第578页–(2006)·Zbl 1119.62304号 ·doi:10.1198/0162145000001230
[59] Liu,增强型多类别支持向量机,《计算与图形统计杂志》,20 pp 901–(2011)·doi:10.1198/jcgs.2010.09206
[60] 刘,软分类还是硬分类?《大利润统一机器》,《美国统计协会杂志》106第166页–(2011年)·Zbl 1396.62144号 ·doi:10.1198/jasa.2011.tm10319
[61] Lugosi,通过经验风险最小化的非参数估计,IEEE信息理论汇刊41第677页–(1995)·Zbl 0818.62041号 ·doi:10.1109/18.382014年
[62] Malley,《生物医学数据的统计学习》(2011年)·兹比尔1263.62128 ·doi:10.1017/CBO9780511975820
[63] Malley,概率机器。使用非参数学习机进行一致概率估计,《医学信息方法》51第74页–(2012年)·doi:10.3414/ME00-01-0052
[64] Mease,Boosted classification trees and class probability/quantile estimation,Journal of Machine Learning Research 8 pp 409–(2007年)·Zbl 1222.68261号
[65] Meinshausen,分位数回归森林,《机器学习研究杂志》,第7页,983–(2006)·Zbl 1222.68262号
[66] Moguerza,支持向量机及其应用,《统计科学》21,第322页–(2006)·Zbl 1246.68185号 ·doi:10.1214/08834230600000493
[67] Perk,《欧洲临床实践中的心血管疾病预防指南》(2012年版):欧洲心脏病学会和其他学会关于临床实践中心血管疾病预防的第五个联合工作组(由九个学会的代表和特邀专家组成),《欧洲心脏杂志》33页1635页–(2012年)·doi:10.1093/eurheartj/ehs092
[68] Platt,《大利润分类器的进展》,第61页–(1999年)
[69] Porzelius,《在分类方法中利用分子相互作用的外部知识预测患者风险》,《生物医学杂志》53卷第190页–(2011年)·兹比尔1209.62324 ·doi:10.1002/bimj.201000155
[70] Prentice,Logistic疾病发病率模型和病例对照研究,Biometrika 66第403页–(1979)·Zbl 0428.62078号 ·doi:10.1093/biomet/66.3.403
[71] Provost,基于概率排名的树归纳法,机器学习52页199–(2003)·Zbl 1039.68105号 ·doi:10.1023/A:1024099825458
[72] 罗伊斯顿,用临床流行病学中的连续协变量建立多变量回归模型,重点是分数多项式,《医学信息方法》44,第561页–(2005)
[73] 罗伊斯顿,《多变量建模:基于分数多项式建模连续变量的回归分析实用方法》(2008)·Zbl 1269.62053号 ·doi:10.1002/9780470770771
[74] Sajda,疾病检测和诊断的机器学习,《生物医学工程年度回顾》,第8页,537页–(2006)·doi:10.1146/annurev.bioeng.8.061505.095802
[75] Samworth,最优加权最近邻分类器,《统计年鉴》40,第2733页–(2012)·Zbl 1373.62317号 ·doi:10.1214/12-AOS1049
[76] Schapire,《弱可学习性的力量》,机器学习5第197页–(1990)·Zbl 0747.68058号 ·doi:10.1007/BF00116037
[77] Schölkopf,《使用内核学习》(2002)
[78] Schwarz,《随机丛林之旅:高维数据随机森林的快速实现》,生物信息学26第1752页–(2010)·doi:10.1093/bioinformatics/btq257
[79] Selvaraj,疾病管理计划(教练)对初级保健中心血脂异常患者实现更好的心血管风险控制的影响(DISSEMINATE研究):一项随机对照试验,BMC家庭实践13第97页–(2012)·doi:10.1186/1471-2296-13-97
[80] Smola,支持向量回归教程,《统计与计算》,第14页,199–(2004)·doi:10.1023/B:STCO.0000035301.49549.88
[81] Spiegelman,非参数回归中的一致窗口估计,《统计年鉴》8第240页–(1980)·Zbl 0432.62066号 ·doi:10.1214/aos/1176344950
[82] Stanski,H.R.Wilson,L.J.Burrows,W.R.1989年http://www.cawcr.gov.au/projects/verification/Stanski_et_al/Stanski_ent_al.html
[83] Steinbach,《数据挖掘中的十大算法》,第151页–(2009年)·doi:10.1201/9781420089653.ch8
[84] Steinwart,使用高斯核的支持向量机的快速率,《统计年鉴》35,第575页–(2007)·Zbl 1127.68091号 ·doi:10.1214/009053606000001226
[85] Steyerberg,临床预测模型(2009)·Zbl 1314.92010年 ·doi:10.1007/978-0-387-77244-8
[86] 斯通,一致非参数回归,《统计年鉴》5,第595页–(1977年)·Zbl 0366.62051号 ·doi:10.1214/aos/1176343886
[87] Stone,非参数回归的最优全局收敛速度,《统计学年鉴》,第10页,1040–(1982)·Zbl 0511.62048号 ·doi:10.1214/aos/1176345969
[88] Strobl,《递归划分导论:分类树、回归树、套袋和随机森林的原理、应用和特征》,《心理学方法》14,第323页–(2009)·doi:10.1037/a0016973
[89] Tibshirani,通过套索进行回归收缩和选择,《皇家统计学会杂志》,B辑58,第267页–(1996)·Zbl 0850.62538号
[90] Iterson,《解决统计和机器学习中的舌头混淆:生物学家和生物信息学家入门》,蛋白质组学12页543–(2012)·doi:10.1002/pmic.201100395
[91] Vapnik,统计学习理论(1998)
[92] Wahba,通过再生核hilbert空间方法进行软硬分类,美国国家科学院院刊102页12 332–(2002)·兹比尔1106.62338
[93] Walk,光滑核回归估计的强通用一致性,《统计数学研究所年鉴》57 pp 665–(2005)·Zbl 1094.62052号 ·doi:10.1007/BF02915432
[94] Wang,大边缘分类器的概率估计,Biometrika 95第149页–(2008)·Zbl 1437.62648号 ·doi:10.1093/biomet/asm077
[95] Wang,关于l-范数多类支持向量机:方法论和理论,《美国统计协会杂志》102页595–(2007)·Zbl 1172.62317号 ·doi:10.1198/0162145000001383
[96] Wu,通过两两耦合进行多类分类的概率估计,《机器学习研究杂志》5 pp 975–(2004)·Zbl 1222.68336号
[97] Wu,Robust截断无指支持向量机,《美国统计协会杂志》102 pp 974–(2007)·Zbl 1469.62293号 ·doi:10.1198/0162145000000617
[98] Wu,非交叉大边缘概率估计及其通过预处理在稳健SVM中的应用,《统计方法》8,第56页–(2011)·Zbl 1213.62110号 ·doi:10.1016/j.stamet.2009.05.004
[99] Wu,自适应加权大边距分类器,《计算与图形统计杂志》22页416页–(2013)·doi:10.1080/10618600.2012.680866
[100] Wu,鲁棒无模型多类概率估计,《美国统计协会杂志》105第424页–(2010)·Zbl 1397.62236号 ·doi:10.1198/jasa.2010.tm09107
[101] 薛,《数据挖掘十大算法》第37页–(2009)·doi:10.1201/9781420089653.ch3
[102] Young,遗传咨询风险计算入门(2007年)
[103] 张,《多类别大边缘统一机器》,《机器学习研究杂志》,第14页,1349页–(2013)·Zbl 1317.68200号
[104] 张,一些多类别大幅度分类方法的统计分析,《机器学习研究杂志》5 pp 1225–(2004a)·Zbl 1222.68344号
[105] 张,基于凸风险最小化的分类方法的统计行为和一致性,《统计年鉴》32第56页–(2004b)·Zbl 1105.62323号 ·doi:10.1214/aos/1079120130
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。