×

ROC曲线下面积最大化的推进方法。 (英语) Zbl 1225.62084号

小结:我们讨论了临床领域中二进制分类问题的受试者操作特征(ROC)曲线和ROC曲线下面积(AUC)。基于AUC最大化的boosting算法,我们提出了一种组合多个特征变量的统计方法。在这个迭代过程中,由特征变量组成的各种简单分类器被灵活地组合成一个单一的强分类器。我们考虑了一种正则化,以防止算法中使用非光滑惩罚项对数据进行过度拟合。这种正则化方法不仅提高了分类性能,而且有助于我们更清楚地了解每个特征变量与二元结果变量的关系。我们证明了由boosting方法构造的分数图的有用性。我们描述了两个仿真研究和一个实际数据分析,以说明我们的方法的实用性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62页第10页 统计学在生物学和医学中的应用;元分析
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bamber D.(1975)有序优势图上方的区域和接收器操作特征图下方的区域。数学心理学杂志12:387–415·Zbl 0327.92017号 ·doi:10.1016/0022-2496(75)90001-2
[2] Chambers J.M.、Hastie T.J.(1992)《加利福尼亚州南太平洋格罗夫、华兹华斯和布鲁克斯的统计模型》·Zbl 0776.62007号
[3] Eguchi S.,Copas J.(2002)一类逻辑型判别函数。生物特征89:1–22·Zbl 0995.62065号 ·doi:10.1093/biomet/89.1.1
[4] Freund Y.,Schapire R.E.(1997)在线学习的决策理论概括及其在助推中的应用。计算机与系统科学杂志55:119–139·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[5] Friedman J.,Hastie T.,Tibshirani R.(2000)《加性逻辑回归:助推的统计学观点》(带讨论)。统计年鉴28:337–407·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[6] Hastie T.,Tibshirani R.(1986)广义加性模型。统计科学1:297–318·Zbl 0645.62068号 ·doi:10.1214/ss/1177013604
[7] Hastie T.、Tibshirani R.、Friedman J.(2001)《统计学习的要素》。纽约州施普林格·Zbl 0973.62007号
[8] Kawakita M.、Minami M.、Eguchi S.、Lennert-Cody C.E.(2005)预测技术介绍AdaBoost与广义加性模型的比较。渔业研究76:328–343·doi:10.1016/j.fishres.2005.07.011
[9] Long P.M.,Servedio R.A.(2007)提高ROC曲线下的面积。收录:Platt J.C.、Koller D.、Singer Y.、Roweis S.(编辑)《神经信息处理系统进展》(第20卷)。麻省理工学院出版社,马萨诸塞州剑桥,第945-952页
[10] Ma S.,Huang J.(2005)利用微阵列数据对疾病分类和生物标记物选择的规则化ROC方法。生物信息学21:4356–4362·doi:10.1093/bioinformatics/bti724
[11] Ma S.,Huang J.(2007)使用ROC结合多个标记进行分类。生物统计学63:751–757·Zbl 1128.62117号 ·doi:10.1111/j.1541-0420.2006.00731.x
[12] McIntosh M.W.,Pepe M.S.(2002),结合多项筛选测试:风险评分的最佳性。生物计量学58:657–664·Zbl 1210.62189号 ·doi:10.1111/j.0006-341X.2002.00657.x
[13] McLachlan G.J.(2004)判别分析和统计模式识别。纽约威利·Zbl 1108.62317号
[14] Murata N.、Takenouchi T.、Kanamori T.、Eguchi S.(2004)$${\(\backslash\)mathcal{U}$$-Boost和Bregman散度的信息几何。神经计算16:1437–1481·Zbl 1102.68489号 ·doi:10.1162/089976604323057452
[15] Neyman J.,Pearson E.S.(1933)关于统计假设的最有效测试问题。伦敦皇家学会哲学汇刊,A辑231:289-337·Zbl 0006.26804号 ·doi:10.1098/rsta.1933.0009
[16] Pepe M.S.(2003)《分类和预测医学测试的统计评估》。牛津大学出版社·Zbl 1039.62105号
[17] Pepe M.S.、Thompson M.L.(2000)结合诊断测试结果以提高准确性。生物统计学1:123–140·Zbl 0959.62109号 ·doi:10.1093/biostatistics/1.2.123
[18] Pepe M.S.、Longton G.、Anderson G.L.和Schummer M.(2003)从微阵列实验中选择差异表达基因。生物统计59:133–142·Zbl 1210.62200号 ·doi:10.1111/1541-0420.0016
[19] Pepe M.S.、Cai T.和Longton G.(2006)使用接收器工作特性曲线下的面积组合预测分类。生物识别62:221–229·Zbl 1091.62125号 ·文件编号:10.1111/j.1541-0420.2005.00420.x
[20] Pepe M.S.、Janes H.、Longton G.、Leisenring W.、Newcomb P.(2004),优势比在衡量诊断、预后或筛查标记物性能方面的局限性。美国流行病学杂志159:882–890·doi:10.1093/aje/kwh101
[21] 苏J.Q.,刘J.S.(1993)多个诊断标记的线性组合。美国统计协会杂志88:1350–1355·Zbl 0792.62099号 ·doi:10.1080/01621459.1993.10476417
[22] Takenouchi T.,Eguchi S.(2004)通过添加原始错误率增强AdaBoost。神经计算16:767–787·Zbl 1097.68608号 ·doi:10.1162/089976604322860695
[23] Tutz G.,Binder H.(2006)通过基于相似性的增强进行隐式变量选择的广义加性建模。生物统计学62:961–971·Zbl 1116.62075号 ·doi:10.1111/j.1541-0420.2006.00578.x
[24] Ueki,M.,Fueda,K.(2009年)。最大惩罚似然法中的最优调谐参数估计。统计数学研究所年鉴。doi:10.1007/s10463-008-0186-0·Zbl 1440.62035号
[25] Wang Z.,Chang Y.I.,Ying Z.,Zhu L.,Yang Y.(2007)一种通过受试者操作特征曲线的简约阈值无关蛋白质特征选择方法。生物信息学23:2788–2794·doi:10.1093/bioinformatics/btm442
[26] 张伯通、于斌(2005)《提前停止推进:收敛性和一致性》。《统计年鉴》33:1538-1579·Zbl 1078.62038号 ·doi:10.1214/009053605000000255
[27] 周晓华,奥布乔夫斯基N.A.,McClish D.K.(2002)《诊断医学中的统计方法》。纽约威利·Zbl 1007.62092号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。