×

用机器学习方法进行二分类和多分类结果的概率估计:应用。 (英语) Zbl 1441.62405号

生物。J。 56,第4期,564-583(2014); 更正同上,63,第7号,1547(2021)。
摘要:机器学习方法应用于三个不同的大数据集,所有这些方法都处理二分类或多分类数据的概率估计问题。具体来说,我们研究了k-最近邻、袋装最近邻、概率估计树的随机森林,以及贝塞尔、线性、拉普拉斯和径向基类型核的支持向量机。用logistic回归进行了比较。德国中风研究合作组织的数据集,包括二分和三类结果变量,特别允许进行时间和外部验证。其他两个数据集可从UCI学习库中免费获得,并提供两种结果变量。其中一个是克利夫兰诊所基金会心脏病数据集,使用来自一个诊所的数据进行培训,使用来自三个诊所的信息进行外部验证,而另一个是甲状腺疾病数据集,通过按研究招募日期将数据分为培训和测试数据来进行时间验证。对于二分法结果变量,我们使用受试者操作特征、曲线下面积值和自举95%置信区间以及Hosmer-Lemeshow型数据作为比较标准,我们用95%的置信区间计算了bootstrap Brier分数,并通过bootstrapping进行了比较。在补充中,我们提供了R代码,用于执行分析,并用于random Jungle中的随机森林分析,版本2.1.0。学习机器在所有构建的模型中表现出良好的性能。它们应用简单,可作为逻辑或多项逻辑回归分析的替代方法。
关于理论部分,参见《生物杂志》第56卷第4期第534-563页(2014年;Zbl 1441.62404号)].

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62克08 非参数回归和分位数回归
62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统

软件:

GeneSrF公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Banerjee,M.、Ding,Y.和Noone,A.M.(2012)。从集合中识别代表树。医学统计311601-1616。
[2] Bradley,A.A.、Schwartz,S.S.和Hashino,T.(2008)。Brier分数和Brier技能分数的抽样不确定性和置信区间。天气和预测23992-1006。
[3] Brier,G.W.(1950)。验证以概率表示的预测。每月天气回顾78,1-3。
[4] Cortes,C.和Mohri,M.(2005年)。ROC曲线下面积的置信区间。收录人:Saul,L.K.(编辑)、Weiss,Y.(编纂)和Lon,B.(编辑),《神经信息处理系统进展》,第17卷。《布拉德福德图书》,马萨诸塞州剑桥,第305-312页。
[5] DeLong,E.R.、DeLong、D.M.和Clarke‐Pearson,D.L.(1988年)。比较两个或多个相关接收器工作特性曲线下的面积:非参数方法。生物统计学44837-845·兹比尔0715.62207
[6] Detrano,R.、Janosi,A.、Steinbrunn,W.、Pfisterer,M.、Schmid,J.J.、Sandhu,S.、Guppy,K.H.、Lee,S.和Froelicher,V.(1989年)。新概率算法在冠心病诊断中的国际应用。美国心脏病学杂志64,304-310。
[7] Detrano,R.、Yiannikas,J.、Salcedo,E.E.、Rincon,G.、Go,R.T.、Williams,G.和Leatherman,J.(1984)。贝叶斯概率分析:其在冠心病诊断中临床实用性的前瞻性证明。发行量69,541-547。
[8] Díaz‐Uriarte,R.和Alvarez de Andrés,s.(2006年)。使用随机森林对微阵列数据进行基因选择和分类。BMC生物信息学7、3。
[9] Domeniconi,C.和Yan,B.(2004)。最近的邻居合奏。收录于:Kittler,J.(编辑)、Petrou,M.(编纂)、Nixon,M.S.(编辑)和Hancock,E.R.(编撰),《第17届模式识别国际会议论文集》,2004年。IEEE计算机学会出版社,英国剑桥,第228-231页。
[10] Ferro,C.A.T.(2007)。将概率预测系统与Brier评分进行比较。天气和预测221076-1088。
[11] Genders,T.S.、Steyerberg,E.W.、Alkadhi,H.、Leschka,S.、Desbioles,L.、Nieman,K.、Galema,T.W.、Meijboom,W.B.、Mollet,N.R.、de Feyter,P.J.、Cademartiri,F.、Maffei,E.、Dewey,M.、Zimmermann,E.、Laule,M.,Pugliese,F.,Barbagallo,R.、Sinitsyn,V.、Bogaert,J.、Goetschalckx,K.,Schoepf,U.J.、Rowe,G.W.,Schuijf,J.D.、Bax,J。J.、de Graaf,F.R.、Knuuti,J.、Kajander,S.、van Mieghem,C.A.、Meijs,M.F.、Cramer,M.J.、Gopalan,D.、Feuchtner,G.、Friedrich,G.,Krestin,G.P.、Hunink,M.G.和Consortium,C.A.D.(2011)。冠心病诊断的临床预测规则:验证、更新和扩展。《欧洲心脏杂志》32,1316-1330。
[12] Gillmann,G.和Minder,C.E.(2009年)。二元逻辑回归模型的图形拟合优度检查。医学信息方法48,306-310。
[13] Gneiting,T.和Raftery,A.E.(2007年)。严格正确的评分规则、预测和评估。《美国统计协会杂志》102,359-378·Zbl 1284.62093号
[14] Hall,P.和Samworth,R.J.(2005)。袋装最近邻分类器的属性。英国皇家统计学会期刊,B6736-379系列·Zbl 1069.62051号
[15] Harrell,F.E.,Jr.、Lee,K.L.和Mark,D.B.(1996)。多变量预测模型:开发模型、评估假设和充分性以及测量和减少误差方面的问题。医学统计15,361-387。
[16] Hilden,J.和Gerds,T.A.(2013年)。关于新生物标记物评估的说明:不依赖综合鉴别改进和净重新分类指数。医学统计学,doi:10.1002/sim.5804。
[17] Huang,H.、Liu,Y.和Marron,J.S.(2012)。数据可视化应用中的双向识别。生物特征99,851-864·Zbl 1452.62449号
[18] 池田,M.、伊藤,S.、石垣,T.和山内,K.(2001)。重采样技术在Brier评分统计分析中的应用。医学信息方法40,259-264。
[19] Karatzoglou,A.、Meyer,D.和Hornik,K.(2006年)。支持向量机。统计软件期刊15。网址:www.jstatsoft.org/v15/i09/paper。
[20] König,I.R.、Malley,J.D.、Pajevic,S.、Weimar,C.、Diener,H.C.和Ziegler,A.(2008)。使用学习机器进行以患者为中心的是/否预测。国际数据挖掘与生物信息学杂志2,289-341。
[21] König,I.R.,Malley,J.D.,Weimar,C.,Diener,H.C.,Ziegler,A.,并代表德国中风研究合作者。(2007). 关于外部验证必要性的实践经验。医学统计26,5499-5511。
[22] Koopman,P.A.R.(1984)。两个二项式比例比率的置信区间。生物统计学40,513-517。
[23] Kruppa,J.、Liu,Y.、Biau,G.、Kohler,M.、König,I.R.、Malley,J.D.和Ziegler,A.(2014)。二分和多类别结果的机器学习概率估计:理论。《生物医学杂志》56,534-563·Zbl 1441.62404号
[24] Kruppa,J.、Schwarz,A.、Arminger,G.和Ziegler,A.(2013)。消费者信贷风险:使用机器学习进行个人概率估计。带应用程序的专家系统40,5125-5131。
[25] Kruppa,J.、Ziegler,A.和König,I.R.(2012)。使用机器学习方法进行风险评估和风险预测。人类遗传学1311639-1654。
[26] 林毅(2002)。分类中的支持向量机和贝叶斯规则。数据挖掘和知识发现6,259-275。
[27] 马奥尼,F.I.和巴瑟尔,D.W.(1965)。功能评估:Barthel指数。马里兰州州立医学杂志14,61-65。
[28] Malley,D.J.、Malley、K.G.和Pajevic,S.(2011年)。生物医学数据统计学习。剑桥大学出版社,剑桥·兹比尔1263.62128
[29] Malley J.D.、Kruppa J.、Dasgupta A.、Malley K.G.和Ziegler A.(2012年)。概率机器:使用非参数学习机器进行一致概率估计。医学信息方法51,74-81。
[30] Moguerza,J.M.和Muñoz,A.(2006年)。支持向量机和应用程序。统计科学21,322-336·兹比尔1246.68185
[31] Newcombe,R.G.(1998年a)。改进了基于配对数据的二项式比例差异的置信区间。医学统计17,2635-2650。
[32] Newcombe,R.G.(1998年b)。独立比例差异的区间估计:11种方法的比较。医学统计17,873-890。
[33] Newcombe,R.G.(1998年c)。单一比例的双侧置信区间:七种方法的比较。医学统计17,857-872。
[34] Nicodemus,K.K.、Malley,J.D.、Strobl,C.和Ziegler,A.(2010年)。预测相关下基于随机森林排列的变量重要性度量的行为。BMC生物信息学11,110。
[35] Quinlan,J.R.、Compton,P.J.、Horn,K.A.和Lazarus,L.(1987)。归纳知识获取:案例研究。摘自:Quinlan,J.R.(编辑),《专家系统的应用》。Addison Wesley,英国伦敦,第157-173页。
[36] Redelmeier,D.A.、Bloch,D.A.和Hickam,D.H.(1991)。评估预测准确性:如何比较Brier分数。《临床流行病学杂志》44,1141-1146。
[37] Reiser,B.和Guttman,I.(1986年)。p(y<x)的统计推断:正常情况。技术计量28,253-257·兹比尔0631.62033
[38] Samworth,R.J.(2012)。最优加权最近邻分类器。统计年鉴402733-2763·Zbl 1373.62317号
[39] Schölkopf,B.和Smola,A.J.(2002年)。用内核学习。麻省理工学院出版社,马萨诸塞州剑桥。
[40] Schwarz,D.F.、König,I.R.和Ziegler,A.(2010年)。关于Random Jungle的狩猎之旅:针对高维数据的Random Forests的快速实现。生物信息学261752-1758。
[41] Shomon,M.(2013)甲状腺疾病。甲状腺功能减退、甲状腺功能亢进、结节、癌症的基本信息。可在http://thyroid.about.com/cs/basics_starthere/a/tyroid101.htm,2013年11月28日查阅。
[42] Sindhwani,V.、Bhattacharya,P.和Rakshit,S.(2001年)。多类支持向量机中的信息论特征信用。摘自:Grossman,R.(编辑)和Kumar,V.(编辑。),《第一届SIAM国际数据挖掘会议论文集》。工业和应用数学学会,伊利诺伊州芝加哥,第5-7页。
[43] Spiegelhalter,D.J.(1986)。患者管理和临床试验中的概率预测。医学统计5,421-433。
[44] Stanski,H.R.、Wilson,L.J.和Burrows,W.R.(1989)。气象学常用验证方法综述。世界气象观测技术报告8,WMO/TD第358号。世界气象组织。可在http://www.cawcr.gov.au/projects/verification/Stanski_et_al/Stanski_ent_al.html,2013年4月1日访问。
[45] Tango,T.(2000年)。相关二进制比例差异的置信区间。医学统计19,133-139。
[46] Wang,J.、Shen,X.和Liu,Y.(2008)。大幅度分类器的概率估计。生物特征95149-167·Zbl 1437.62648号
[47] Weigel,A.P.、Liniger,M.A.和Appenzeller,C.(2007年)。离散的Brier和排名概率技能分数。每月天气回顾135,118-124。
[48] Weimar,C.、König,I.R.、Kraywinkel,K.、Ziegler,A.、Diener,H.C.代表德国中风研究合作组织。(2004). 发病后6小时内的年龄和国立卫生研究院卒中评分是脑缺血后预后的准确预测因素:预后模型的开发和外部验证。笔划35,158-162。
[49] Weimar,C.、Ziegler,A.、König,I.R.、Diener,H.C.以及代表德国中风研究合作者。(2002). 预测急性缺血性卒中后的功能预后和生存率。神经病学杂志249,888-895。
[50] Wenzel,D.和Zapf,A.(2013年)。两种相关敏感性和特异性的差异:各种方法的比较。《生物医学期刊》55,705-718·Zbl 1285.62128号
[51] Wilks,D.S.(2006)。大气科学中的统计方法(第2版)。学术出版社,马萨诸塞州伯灵顿。
[52] 周小海和秦国胜(2005)。配对数据的两个二项式比例之差的新置信区间。《统计规划与推理杂志》128527-542·Zbl 1089.62032号
[53] Zhou,X.H.和Qin,G.S.(2007):“配对数据的两个二项式比例差异的新置信区间”的补充。《统计规划与推断杂志》137,357-358·Zbl 1332.62104号
[54] 周晓华、曹M.和秦国胜(2004)。两个独立二项式比例之差的新区间。《统计规划与推断杂志》123,97-115·Zbl 1051.62018年
[55] Zou,G.和Donner,A.(2004)。两个比例之间差异的简单替代置信区间。对照临床试验25,3-12。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。