×

优化医疗评分系统的超解析线性整数模型。 (英语) Zbl 1406.62144号

总结:评分系统是一种线性分类模型,只需要用户对几个小数字进行加、减、乘即可做出预测。这些模型被医学界广泛使用,但很难从数据中学习,因为它们需要精确和稀疏,具有互质整数系数,并满足多种操作约束。我们提出了一种创建数据驱动的评分系统的新方法,称为超级解析线性整数模型(SLIM)。SLIM评分系统是通过使用整数规划问题构建的,该问题直接编码精度度量(0-1损失)和稀疏性度量((ell_0)-半范数),同时将系数限制为互质整数。SLIM可以无缝地结合与准确性和稀疏性相关的各种操作约束,并且可以在不进行参数调整的情况下生成可接受的模型,因为可以直接控制这些数量。我们为SLIM评分系统的测试和训练精度提供了界限,并提出了一种新的数据缩减技术,该技术可以通过预先消除部分训练数据来提高可伸缩性。我们的论文包括与马萨诸塞州总医院睡眠实验室合作的结果,该实验室正在使用SLIM创建一个高度定制的睡眠呼吸暂停筛查评分系统。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Antman,E.M.、Cohen,M.、Bernink,P.J.L.M.、McCabe,C.H.、Horacek,T.、Papuchis,G.等人(2000年)。不稳定型心绞痛/非ST段抬高型心肌梗死的TIMI风险评分。美国医学会杂志,284(7),835-842·doi:10.1001/jama.284.7.835
[2] Asparoukhov,Ok K.和Stam,A.(1997)。二元变量两组分类的数学规划公式。《运筹学年鉴》,7489-112·Zbl 0888.90150号 ·doi:10.1023/A:1018995010063
[3] Bache,K.和Lichman,M.(2013)。UCI机器学习库·兹伯利0978.90113
[4] Bajgier,S.M.和Hill,A.V.(1982年)。统计和线性规划方法对判别问题的实验比较。决策科学,13(4),604-618·doi:10.1111/j.1540-5915.1982.tb01185.x
[5] Bien,J.、Taylor,J.和Tibshirani,R.等人(2013年)。用于分层交互的套索。《统计年鉴》,41(3),1111-1141·兹比尔1292.62109 ·doi:10.1214/13-AOS1096
[6] Bone,R.C.,Balk,R.A.,Cerra,F.B.,Dellinger,R.P.,Fein,A.M.,Knaus,W.A.等人(1992年)。美国胸科医师学会/重症监护医学会共识会议:脓毒症和器官衰竭的定义以及脓毒症创新疗法的使用指南。重症医学,20(6),864-874·doi:10.1097/00003246-199206000-00025
[7] Bousquet,O.、Boucheron,S.和Lugosi,G.(2004)。统计学习理论导论。在机器学习高级讲座中。施普林格,第169-207页·兹比尔1120.68428
[8] Bradley,P.S.、Fayyad,U.M.和Mangasarian,O.L.(1999)。数据挖掘的数学编程:公式和挑战。信息计算杂志,11(3),217-238·Zbl 0973.90096号 ·doi:10.1287/ijoc.11.3.217
[9] Brooks,J.P.(2011)。具有斜坡损失和硬边损失的支持向量机。运筹学,59(2),467-479·Zbl 1228.90057号 ·数字对象标识代码:10.1287/opre.1100.0854
[10] Brooks,J.P.和Lee,E.K.(2010年)。基于混合整数规划的多类别约束判别模型的一致性分析。《运筹学年鉴》,174(1),147-168·Zbl 1185.90156号 ·doi:10.1007/s10479-008-0424-0
[11] Carrizosa,E.、Martín-Barragán,B.和Morales,D.R.(2010年)。二值化支持向量机。信息计算杂志,22(1),154-167·Zbl 1243.62088号 ·doi:10.1287/ijoc.1090.0317
[12] Carrizosa,E.、Nogales-Gómez,A.和Morales,D.R.(2013)。强烈同意还是强烈反对?支持向量机中的评级功能。英国牛津大学萨伊德商学院技术报告·Zbl 1243.62088号
[13] Chevaleyre,Y.、Koriche,F.和Zucker,J.-D.(2013)。离散线性分类的舍入方法。《第30届机器学习国际会议论文集》(ICML-13),第651-659页。
[14] Cranor,L.F.和LaMacchia,B.A.(1998年)。垃圾邮件!。ACM通讯,41(8),74-83·doi:10.1145/280324.280336
[15] Detrano,R.、Janosi,A.、Steinbrunn,W.、Pfister,M.、Schmid,J.-J.、Sandhu,S.等人(1989年)。新概率算法在冠心病诊断中的国际应用。美国心脏病杂志,64(5),304-310·doi:10.1016/0002-9149(89)90524-9
[16] Dupačová,J.、Consigli,G.和Wallace,S.W.(2000)。多阶段随机程序的场景。运筹学年鉴,100(1-4),25-53·兹比尔1017.90068 ·doi:10.1023/A:1019206915174
[17] 杜帕乔娃,J.,Gröwe-Kuska,N.,&Römisch,W.(2003)。随机规划中的场景简化。数学编程,95(3),493-511·Zbl 1023.90043号 ·doi:10.1007/s10107-002-0331-0
[18] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)。最小角度回归。《统计年鉴》,32(2),407-499·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[19] Elter,M.、Schulz-Wendtland,R.和Wittenberg,T.(2007年)。使用两种cad方法预测乳腺癌活检结果,这两种方法都强调可理解的决策过程。医学物理学,34(11),4164-4172·数字对象标识代码:10.1118/1.2786864
[20] 弗雷塔斯,A.A.(2014)。可理解的分类模型:立场文件。ACM SIGKDD探索新闻稿,15(1),1-10·doi:10.1145/2594473.2594475
[21] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。统计软件杂志,33(1),1-22·doi:10.18637/jss.v033.i01
[22] Gage,B.F.、Waterman,A.D.、Shannon,W.、Boechler,M.、Rich,M.W.和Radford,M.J.(2001)。中风预测临床分类方案的验证。《美国医学会杂志》,285(22),2864-2870·doi:10.1001/jama.285.22.2864
[23] Glen,J.J.(1999)。数学规划判别分析模型中归一化和变量选择的整数规划方法。《运筹学学会期刊》,501043-153·Zbl 1054.90618号 ·doi:10.1057/palgrave.jors.2600804
[24] Goh,S.T.和Rudin,C.(2014)。用于学习不平衡数据的方框图。第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第333-342页。
[25] Goldberg,N.和Eckstein,J.(2010年)。加强分类器的l0-放松惩罚。《第27届国际机器学习会议记录》(ICML-10),第383-390页·Zbl 1185.90156号
[26] Goldberg,N.和Eckstein,J.(2012年)。稀疏加权投票分类器选择及其线性规划松弛。信息处理信件,112,481-486·Zbl 1243.68239号 ·doi:10.1016/j.ipl.2012.03.004
[27] Guan,W.、Gray,A.和Leyffer,S.(2009年)。混合整数支持向量机。在NIPS机器学习优化研讨会上。
[28] Guyon,I.和Elisseeff,A.(2003)。变量和特征选择简介。机器学习研究杂志,31157-1182·Zbl 1102.68556号
[29] 哈伯曼·S·J(1976)。对数线性模型的广义残差。《第九届国际生物特征识别会议论文集》,波士顿,第104-122页。
[30] Hastie,T.、Tibshirani,R.、Friedman,J.、Hastie、T.、Fridman,J和Tibshirani,R.(2009年)。统计学习的要素(第2卷)。纽约:斯普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[31] Jenatton,R.、Audibert,J.-Y和Bach,F.(2011年)。具有稀疏诱导范数的结构化变量选择。机器学习研究杂志,122777-2824·Zbl 1280.68170号
[32] Jennings,D.、Amabile,TM和Ross,L.(1982)。非正式协变量评估:基于数据的与基于理论的判断。《不确定性下的判断:启发式和偏见》,第211-230页
[33] Joachimstaler,E.A.和Stam,A.(1990年)。两组判别分析中分类问题的数学规划方法。多元行为研究,25(4),427-454·doi:10.1207/s15327906mbr2504_2
[34] Kapur,V.K.(2010)。阻塞性睡眠呼吸暂停:诊断、流行病学和经济学。呼吸护理,55(9),1155-1167。
[35] Kim,M.-J.和Han,I.(2003年)。利用遗传算法从定性破产数据中发现专家决策规则。应用专家系统,25(4),637-646·doi:10.1016/S0957-4174(03)00102-7
[36] Knaus,W.A.、Zimmerman,J.E.、Wagner,D.P.、Draper,E.A.和Lawrence,D.E.(1981)。APACHE-急性生理学和慢性健康评估:基于生理学的分类系统。危重病护理医学,9(8),591-597·doi:10.1097/00003246-198108000-00008
[37] Knaus,W.A.、Draper,E.A.、Wagner,D.P.和Zimmerman,J.E.(1985)。APACHE II:疾病严重程度分类系统。危重病护理医学,13(10),818-829·doi:10.1097/00003246-198510000-00009
[38] Knaus,W.A.、Wagner,D.P.、Draper,E.A.、Zimmerman,J.E.、Bergner,M.、Bastos,P.G.等人(1991年)。APACHE III预测系统。重症住院成人住院死亡率的风险预测。《胸部杂志》,100(6),1619-1636·doi:10.1378/箱.100.6.1619
[39] Kodratoff,Y.(1994)。可理解性宣言。KDD掘金新闻稿,94,9。
[40] Kohavi,R.(1996)。扩大naive-bayes分类器的准确性:决策树混合。KDD,第202-207页。
[41] Kuhn,M.、Weston,S.和Coulter,N.(2012年)。C50:C5.0决策树和基于规则的模型,2012年。R.Quinlan为C5.0编写的C代码。R包装版本0.1.0-013·Zbl 0857.90073号
[42] Le Gall,J.-R.、Loirat,P.、Alperovitch,A.、Glaser,P.,Granthil,C.、Mathieu,D.等人(1984年)。icu患者的简化急性生理学评分。危重病护理医学,12(11),975-977·doi:10.1097/00003246-198411000-00012
[43] Le Gall,J.-R.、Lemeshow,S.和Saulnier,F.(1993)。基于欧洲/北美多中心研究的新简化急性生理学评分(SAPS II)。《美国医学会杂志》,270(24),2957-2963·doi:10.1001/jama.1993.03510240069035
[44] Lee,E.K.和Wu,T.-L.(2009年)。通过数学编程进行分类和疾病预测。在医学优化手册中。斯普林格,第1-50页·Zbl 1243.62088号
[45] Li,L.,&Lin,H.-T.(2007)。通过随机坐标下降优化感知器的0/1损失。在2007年国际神经网络联合会议上。IJCNN 2007。IEEE,第749-754页·Zbl 1054.90618号
[46] Light,R.W.、Macgregor,M.I.、Luchsinger,P.C.和Ball,W.C.(1972年)。胸腔积液:渗出物和渗出物的诊断分离。《内科年鉴》,77(4),507-513·doi:10.7326/0003-4819-77-4-507
[47] Liittschwager,J.M.和Wang,C.(1978年)。分类问题的整数规划解法。管理科学,241515-1525·Zbl 0491.90056号 ·doi:10.1287/mnsc.24.1515
[48] Lin,D.,Pitler,E.,Foster,D.P.,&Ungar,L.H.(2008)。为10辩护。在特征选择研讨会(ICML 2008)上。
[49] Liu,H.、Hussain,F.、Tan,C.L.和Dash,M.(2002)。离散化:一种使能技术。数据挖掘和知识发现,6393-423·doi:10.1023/A:1016304305535
[50] Liu,H.和Zhang,J.(2009)。群套索的估计一致性及其应用。第十二届人工智能和统计国际会议论文集。
[51] Mangasarian,O.L.(1994)。最小化误分类。《全局优化杂志》,5(4),309-323·Zbl 0814.90081号 ·doi:10.1007/BF01096681
[52] Mangasarian,O.L.,Street,W.N.和Wolberg,W.H.(1995)。通过线性规划进行乳腺癌诊断和预后。运筹学,43(4),570-577·Zbl 0857.90073号 ·doi:10.1287/操作43.4.570
[53] Mao,K.Z.(2004)。特征子集选择的正交正向选择和反向消除算法。IEEE系统、人与控制论汇刊,B部分:控制论,34(1),629-634·doi:10.1109/TSMCB.2002.804363
[54] Marklof,J.(2012年7月)。多维Farey序列的精细统计。ArXiv电子版,2012年7月·Zbl 1291.37044号
[55] Meyer,D.、Dimitriadou,E.、Hornik,K.、Weingessel,A.和Leisch,F.(2012年)。e1071:统计部其他职能(e1071),TU Wien,2012年。R包版本1.6-1·兹比尔1017.90068
[56] Miller,A.J.(1984)。选择回归变量子集。英国皇家统计学会期刊A辑(综述),47389-425·Zbl 0584.62106号 ·doi:10.2307/2981576
[57] Moreno,R.P.、Metnitz,P.G.H.、Almeida,E.、Jordan,B.、Bauer,P.、Campos,R.A.等人(2005年)。SAPS 3-从患者评估到重症监护室评估。第2部分:建立icu入院时医院死亡率的预测模型。重症监护医学,31(10),1345-1355·doi:10.1007/s00134-005-2763-5
[58] Nguyen,H.T.和Franke,K.(2012年)。基于混合0-1编程的通用lp-norm支持向量机。在模式识别中的机器学习和数据挖掘。施普林格,第40-49页。
[59] Nguyen,T.和Sanner,S.(2013年)。二进制分类中直接0-1损失优化算法。在第30届机器学习国际会议论文集(ICML-13),第1085-1093页。
[60] Pazzani,M.J.(2000年)。从数据中发现知识?IEEE智能系统及其应用,15(2),10-12·数字对象标识代码:10.1109/5254.850821
[61] R核心团队。(2014). R: 用于统计计算的语言和环境。R统计计算基金会,奥地利维也纳,2014年。统一资源定位地址http://www.R-project.org/。
[62] Ranson,J.H.、Rifkind,K.M.、Roses,D.F.、Fink,S.D.、Eng,K.、Spencer,F.C.等人(1974年)。急性胰腺炎的预后体征和手术治疗的作用。外科,妇产科学,139(1),69。
[63] 鲁宾,P.A.(1990)。混合整数规划判别模型的启发式求解过程。管理与决策经济学,11255-266·doi:10.1002/mde.4090110407
[64] 鲁宾,P.A.(1997)。通过分解解决混合整数分类问题。运筹学年鉴,74,51-64·Zbl 0888.90160号 ·doi:10.1023/A:1018990909155
[65] 鲁宾,P.A.(2009)。混合整数分类问题。在优化百科全书中。施普林格,第2210-2214页。
[66] Schlimer,J.C.(1987年)。通过表征调整获得概念。
[67] Souillard-Mandar,W.,Davis,R.,Rudin,C.,Au,R..,Libon,D.J.,Swenson,R.等人(2015)《从数字时钟绘制测试中的微妙行为中学习认知条件的分类模型》。机器学习。已接受·Zbl 06679347号
[68] Therneau,T.、Atkinson,B.和Ripley,B.(2012年)。rpart:递归分区,2012年。统一资源定位地址http://CRAN.R-project.org/package=rpart。R包版本4.1-0。
[69] Tibshirani,R.(1996)。通过套索回归收缩和选择。英国皇家统计学会期刊B辑(方法学),58267-288·Zbl 0850.62538号
[70] Towell,G.G.和Shavlik,J.W.(1993年)。从基于知识的神经网络中提取精炼规则。机器学习,13,71-101。
[71] Ustun,B.、Westover,M.B.、Rudin,C.和Bianchi,M.T.(2015)。睡眠呼吸暂停的临床预测模型:病史对症状的重要性。临床睡眠医学杂志:JCSM:美国睡眠医学学会官方出版物。
[72] Van Belle,V.、Neven,P.、Harvey,V.,Van Huffel,S.、Suykens,J.A.K.和Boyd,S.(2013)。区间编码生存方法的风险组检测和生存函数估计。神经计算,112200-210·doi:10.1016/j.neucom.2012.12.049
[73] Vapnik,V.(1998)。统计学习理论。纽约:Wiley·Zbl 0935.62007号
[74] Wells,P.S.、Anderson,D.R.、Bormanis,J.、Guy,F.、Mitchell,M.、Gray,L.等人(1997年)。深静脉血栓形成预测试概率评估在临床管理中的价值。《柳叶刀》,350(9094),1795-1798·doi:10.1016/S0140-6736(97)08140-3
[75] Wells,P.S.、Anderson,D.R.、Rodger,M.、Ginsberg,J.S.、Kearon,C.、Gent,M.等人(2000年)。衍生一个简单的临床模型来对患者肺栓塞概率进行分类,增加了模型使用SimpliRED D-二聚体的效用。血栓形成和止血,83(3),416-420。
[76] Wolsey,L.A.(1998年)。整数编程(第42卷)。纽约:Wiley·Zbl 0930.90072号
[77] Yanev,N.和Balev,S.(1999)。分类问题的组合方法。欧洲运筹学杂志,115(2),339-350·Zbl 0978.90113号 ·doi:10.1016/S0377-2217(98)00229-X
[78] Zhao,P.,&Bin,Y.(2007)。套索的模型选择一致性。机器学习研究杂志,7(2),25-41。
[79] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。英国皇家统计学会杂志:B辑(统计方法),67(2),301-320·Zbl 1069.62054号 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
[80] Zeng,J.、Ustun,B.和Rudin,C.(2015)。累犯预测的可解释分类模型。arXiv预输入rXiv:1503.07810。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。