×

逻辑回归:从艺术到科学。 (英语) Zbl 1442.62166号

摘要:高质量的logistic回归模型包含各种理想的特性:预测能力、可解释性、显著性、对数据错误的鲁棒性和稀疏性等。为了实现这些相互竞争的目标,建模者在磨合最终模型时会迭代地合并这些属性。在1991年至2015年期间,混合整数线性优化(MILO)算法的进步,加上硬件的改进,使MILO问题的求解速度惊人地提高了4500亿因子。基于这种加速,我们提出用混合整数非线性优化(MINLO)方法对逻辑回归问题进行算法建模,以便以联合而非顺序的方式明确地合并这些属性。生成的MINLO是灵活的,可以根据建模者的需要进行调整。通过使用真实数据和合成数据,我们证明了总体方法普遍适用,并在现实的时间范围内提供了高质量的解决方案,同时保证了次优性。当MINLO不可行时,我们得到了一个保证,即施加不同的统计特性根本不可行。

MSC公司:

62J12型 广义线性模型(逻辑模型)
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 巴赫·F·R(2008)。群套索和多核学习的一致性。J.马赫。学习。第9号决议1179-1225·Zbl 1225.68147号
[2] Bache,K.和Lichman,M.(2014)。UCI机器学习库。可在http://archive.ics.uci.edu/ml。访问时间:2014-08-20。
[3] Ben-Tal,A.、El Ghaoui,L.和Nemirovski,A.(2009年)。稳健优化。普林斯顿大学出版社,新泽西州普林斯顿·Zbl 1221.90001号
[4] Berk,R.、Brown,L.、Buja,A.、Zhang,K.和Zhao,L.(2013)。有效的后选择推理。统计年鉴41 802-837·Zbl 1267.62080号
[5] Bertsimas,D.、Brown,D.B.和Caramanis,C.(2011年)。稳健优化理论与应用。SIAM版本53 464-501·Zbl 1233.90259号
[6] Bertsimas,D.、Dunn,J.、Pawlowski,C.和Zhuo,Y.D.(2017)。稳健的分类。J.马赫。学习。Res.To出现。
[7] Bertsimas,D.和King,A.(2017年)。《逻辑回归:从艺术到科学》的补充。DOI:10.1214/16-STS602SUPP·Zbl 1442.62166号
[8] Bertsimas,D.、King,A.和Mazumder,R.(2016)。通过现代优化透镜选择最佳子集。美国国家统计局44 813-852·Zbl 1335.62115号 ·doi:10.1214/15-AOS1388
[9] Bezanson,J.、Karpinski,S.、Shah,V.B.和Edelman,A.(2012)。朱莉娅:一种用于技术计算的快速动态语言。预打印。可在https://arxiv.org/abs/1209.5145。 ·Zbl 1356.68030号
[10] Bianco,A.M.和Yohai,V.J.(1996年)。逻辑回归模型中的稳健估计。稳健统计、数据分析和计算机密集型方法(Schloss Thurnau,1994)。莱克特。注释统计109 17-34。纽约州施普林格·Zbl 0839.62030号
[11] Bonami,P.、Kilinç,M.和Linderoth,J.(2012年)。凸混合整数非线性规划的算法和软件。在混合整数非线性规划1-39中。柏林施普林格·Zbl 1242.90121号
[12] Box,G.E.P.和Tidwell,P.W.(1962年)。自变量的转换。技术计量学4 531-550·Zbl 0114.10602号
[13] Bussieck,M.R.和Vigerske,S.(2010年)。Minlp Solver软件。在威利运营研究和管理科学百科全书中。威利在线图书馆。
[14] Carroll,R.J.和Pederson,S.(1993年)。关于逻辑回归模型的稳健性。J.R.统计社会服务。B.统计方法55 693-706·Zbl 0794.62021号
[15] Chatterjee,S.、Hadi,A.S.和Price,B.(2012年)。《实例回归分析》,第5版,威利出版社,纽约·Zbl 0946.62064号
[16] Cramer,J.S.(2002年)。逻辑回归的起源。廷伯根研究所技术报告。
[17] Croux,C.和Haesbroeck,G.(2003年)。实现逻辑回归的Bianco和Yohai估计。计算。统计师。数据分析44 273-295。纪念斯坦·阿森的特刊:生日庆典·Zbl 1429.62317号
[18] Czyzyk,J.、Mesnier,M.P.和Moré,J.J.(1998)。neos服务器。J.计算。科学。工程5 68-75。
[19] Dobson,A.J.和Barnett,A.G.(2008)。广义线性模型简介,第三版,CRC出版社,佛罗里达州博卡拉顿·Zbl 1165.62049号
[20] Dolan,E.D.(2001)。Neos服务器4.0管理指南。预打印。可在arXiv:cs/0107034上获取。
[21] Duran,M.A.和Grossmann,I.E.(1986年)。一类混合整数非线性规划的外逼近算法。数学。程序36 307-339·Zbl 0619.90052号
[22] Efron,B.(1979年)。引导方法:再看一下折刀。统计年鉴7 1-26·Zbl 0406.62024号
[23] Eldar,Y.C.和Kutyniok,G.(2012年)。压缩传感:理论与应用。剑桥大学出版社,伦敦。
[24] Figueiredo,M.A.T.(2003)。用于监督学习的自适应稀疏性。IEEE传输。模式分析。机器。情报.25 1150-1159。
[25] Fithian,W.、Sun,D.和Taylor,J.(2014)。模型选择后的最优推理。预印本。可从arXiv:1410.2597获得。
[26] 自由软件基金会(2015)。GNU线性编程套件。可在http://www.gnu.org/software/glpk/glpk.html。访问日期:2015-03-06。
[27] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。J.Stat.Softw.33 1-22.统计软件。
[28] Furnival,G.M.和Wilson,R.W.(1974年)。跨越式的衰退。技术计量16 499-511·Zbl 0294.62079号
[29] Gropp,W.和Moré,J.(1997)。优化环境和neos服务器。近似理论与优化167-182。剑桥大学出版社,英国剑桥·兹比尔1031.65075
[30] Hilbe,J.M.(2011)。逻辑回归模型。佛罗里达州博卡拉顿CRC出版社·Zbl 1225.92043号
[31] Hosmer,D.W.、Jovanovic,B.和Lemeshow,S.(1989年)。最佳子集逻辑回归。生物计量学45 1265-1270·Zbl 0715.62125号
[32] Hosmer Jr.,D.W.和Lemeshow,S.(2013)。应用Logistic回归。新泽西州霍博肯威利·Zbl 1276.62050号
[33] IBM ILOG CPLEX Optimization Studio(2015)。复杂优化器。可在http://www-01.ibm.com/software/commerce/optimization/cplex-optimizer/index.html。访问时间:2015-03-06。
[34] 古罗比公司(2014)。Gurobi优化器参考手册。可在http://www.gurobi.com。访问时间:2014-08-20。
[35] Kim,Y.、Kim,J.和Kim,Y(2006)。分块稀疏回归。统计师。中国16 375-390·Zbl 1096.62076号
[36] Koh,K.,Kim,S.-J.和Boyd,S.P.(2007年)。大规模(l_1)正则logistic回归的一种内点方法。J.马赫。学习。第8号决议1519-1555·Zbl 1222.62092号
[37] Krishnapuram,B.、Carin,L.、Figueiredo,M.A.T.和Hartemink,A.J.(2005)。稀疏多项式logistic回归:快速算法和泛化界限。IEEE传输。模式分析。机器。情报27 957-968。
[38] Krishnapuram,B.、Harternink,A.J.、Carin,L.和Figueiredo,M.A.T.(2004)。联合特征选择和分类器设计的贝叶斯方法。IEEE传输。模式分析。机器。智能26 1105-1111。
[39] Lee,S.-I.、Lee,H.、Abbeel,P.和Ng,A.Y.(2006)。高效\(ℓ_1)正则化logistic回归。《全国人工智能会议记录》21 401。加利福尼亚州门罗公园AAAI出版社。
[40] Lockhart,R.、Taylor,J.、Tibshirani,R.J.和Tibshirani,R.(2014)。拉索的显著性检验。统计年鉴42 413-468·兹比尔1305.62254
[41] Lubin,M.和Dunning,I.(2015)。使用Julia进行运筹学计算。信息J.计算27 238-248·Zbl 1331.90001号
[42] Ma,S.、Song,X.和Huang,J.(2007)。监督小组套索应用于微阵列数据分析。BMC生物信息学8 60。
[43] Maronna,R.、Martin,R.D.和Yohai,V.(2006年)。稳健统计。奇切斯特·威利·邮编1094.62040
[44] Meier,L.、Van De Geer,S.和Bühlmann,P.(2008)。该组套索用于逻辑回归。J.R.统计社会服务。B.统计方法70 53-71·Zbl 1400.62276号
[45] Menard,S.(2002)。应用Logistic回归分析106。加州千橡Sage。
[46] Pregibon,D.(1981)。逻辑回归诊断。《统计年鉴》9 705-724·Zbl 0478.62053号
[47] Ryan,T.P.(2009)。《现代回归方法》,第二版,新泽西州霍博肯威利出版社·Zbl 1166.62049号
[48] 佐藤(Sato,T.)、高野(Takano,Y.)、宫崎骏(Miyashiro,R.)和吉泽(Yoshise,A.)(2016)。基于混合整数优化的逻辑回归特征子集选择。计算。最佳方案。申请64 865-880·兹比尔1352.90068
[49] Shafieezadeh-Abadeh,S.、Mohajerin,P.和Kuhn,D.分布稳健逻辑回归。第28届神经信息处理系统国际会议(NIPS’15)会议记录,加拿大蒙特利尔,2015年12月7日至12日(C.Cortes,D.D.Lee,M.Sugiyama和R.Garnett,eds.)1576-1584。麻省理工学院出版社,马萨诸塞州剑桥。
[50] Simon,N.、Friedman,J.、Hastie,T.和Tibshirani,R.(2013)。稀疏群拉索。J.计算。图表。统计22 231-245。
[51] Tabachnick,B.G.,Fidell,L.S.等人(2001年)。使用多元统计。Allyn和Bacon,马萨诸塞州波士顿。
[52] Tipping,M.E.(2001)。稀疏贝叶斯学习和相关向量机。J.马赫。学习。第1号决议211-244·Zbl 0997.68109号
[53] Yuan,M.和Lin,Y.(2006)。分组变量回归中的模型选择和估计。J.R.统计社会服务。B.统计方法68 49-67·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[54] Zhao,P.、Rocha,G.和Yu,B.(2009年)。用于分组和分层变量选择的复合绝对惩罚系列。Ann.Statist.37 3468-3497·Zbl 1369.62164号
[55] 邹华(2006)。自适应套索及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。