×

估计约束参数的有效方法及其在正则(Lasso)logistic回归中的应用。 (英语) Zbl 1452.62550号

摘要:当参数受到限制时,拟合logistic回归模型具有挑战性。在本文中,我们首先开发了一种用于盒或线性不等式约束优化的二次下限(QLB)算法,并导出了对应于最小全局优化矩阵的最快QLB算法。所提出的QLB算法特别适用于EM型算法不适用的问题(例如,logistic、多项式logistic和Cox的比例风险模型),同时保留了相同的EM上升特性,从而确保了单调收敛。其次,我们将QLB算法推广到惩罚函数可能不完全可微的惩罚问题。因此,所提出的方法为拉索逻辑回归中的估计提供了一种替代算法,而现有拉索算法的收敛性通常无法得到保证。最后,通过放宽上升要求,可以进一步加快收敛速度。我们引入了一种伪Newton方法,它保留了QLB算法的简单性和Newton方法的快速收敛性。理论论证和数值例子表明,伪牛顿方法比最快的QLB算法快71倍(就CPU时间而言)或107倍(就迭代次数而言),从而使自举方差估计变得可行。进行了模拟和比较,并分析了三个实际示例(唐氏综合征数据、脊柱后凸数据和结肠微阵列数据)来说明所提方法。

MSC公司:

62J12型 广义线性模型(逻辑模型)
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Agresti,A.,《分类数据分析》(2002),John Wiley&Sons:John Willey&Sons New York·Zbl 1018.6202号
[2] 阿龙,美国。;北巴尔凯。;诺特曼,D.A。;Gish,K。;伊巴拉,S。;麦克,D。;Levine,A.J.,通过寡核苷酸阵列探测的肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,美国国家科学院学报,96,6745-6750(1999)
[3] 巴洛·R·E。;Brunk,H.D.,等渗回归问题及其对偶,美国统计协会杂志,67140-147(1972)·Zbl 0236.62050号
[4] Böhning,D.,《多项式逻辑回归算法》,《统计数学研究所年鉴》,44197-200(1992)·Zbl 0763.62038号
[5] Böhning博士。;Lindsay,B.G.,二次近似算法的单调性,统计数学研究所年鉴,40641-663(1988)·Zbl 0723.65150号
[6] Collett,D.,《二进制数据建模》(1991),查普曼和霍尔:查普曼与霍尔伦敦·Zbl 0431.62020号
[7] 考克斯·D·R。;Oakes,D.,《生存数据分析》(1984),查普曼和霍尔:查普曼与霍尔伦敦
[8] 克雷文,P。;Wahba,G.,用样条函数平滑噪声数据:用广义交叉验证方法估计平滑的正确程度,数值数学,31377-403(1979)·Zbl 0377.65007号
[9] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法从不完整数据中获得最大似然(带讨论)》,《皇家统计学会杂志》,B辑,39,1-38(1977)·Zbl 0364.62022号
[10] Dykstra,R.L.,限制最小二乘回归算法,美国统计协会杂志,78837-842(1983)·Zbl 0535.62063号
[11] 埃夫隆,B。;Tibshirani,R.J.,《Bootstrap简介》(1993),查普曼和霍尔/CRC:查普曼与霍尔/CRC博卡拉顿·Zbl 0835.62038号
[12] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.J.,最小角回归(含讨论),《统计年鉴》,32,407-499(2004)·Zbl 1091.62054号
[13] 费斯勒,J.A。;新罕布什尔州Clinthorne。;Rogers,W.L.,关于PET重建算法的完整数据空间,IEEE核科学汇刊,40,4,1055-1061(1993)
[14] 弗兰克,I.E。;Friedman,J.H.,一些化学计量学回归工具的统计观点(含讨论),技术计量学,35,2,109-148(1993)·Zbl 0775.62288号
[15] Geyer,C.J.,用等张凸logistic回归举例说明约束最大似然,美国统计协会杂志,86717-724(1991)
[16] Gilks,W.R.,全条件分布,(Gilks,W.R.;Richardson,S.;Spiegelholter,D.J.,Markov Chain Monte Carlo in Practice(1996),Chapman&Hall:Chapman&Hall London),75-88·Zbl 0845.62024号
[17] Green,P.J.,《关于使用EM算法进行惩罚似然估计》,《皇家统计学会杂志》,B辑,52,443-452(1990)·Zbl 0706.62022号
[18] 哈斯蒂·T·J。;Tibshirani,R.J.,广义加法模型(1990),Chapman&Hall/CRC:Chapman和Hall/CCR Boca Raton·Zbl 0747.62061号
[19] 胡克,E.B。;Fabia,J.J.,按一年孕期间隔划分的活产婴儿唐氏综合征的频率:马萨诸塞州的一项研究结果,《畸胎学》,第17期,第223-228页(1978年)
[20] Khuri,A.I.,一个约束最小二乘问题,《统计中的通信:模拟和计算》,582-84(1976)
[21] Kim,Y。;Kwon,S。;Song,S.H.,使用基因表达数据对多种癌症类型进行分类的多类备用逻辑回归,计算统计和数据分析,511643-1655(2006)·Zbl 1157.62535号
[22] Liu,C.H.,带一类单纯形约束的离散分布估计,美国统计协会杂志,95109-120(2000)
[23] 梅塔,C.R。;帕特尔,N.R。;Senchaudhuri,P.,条件logistic回归的有效蒙特卡罗方法,美国统计协会杂志,95,99-108(2000)
[24] 孟晓乐,关于ECM算法的收敛速度,《统计年鉴》,22,326-339(1994)·Zbl 0803.65146号
[25] 孟晓乐。;Rubin,D.R.,使用EM获得渐近方差-方差矩阵:SEM算法,美国统计协会杂志,86899-909(1991)
[26] 孟,X.L。;Rubin,D.B.,《通过ECM算法的最大似然估计:一般框架》,《生物特征识别》,80,267-278(1993)·Zbl 0778.62022号
[27] 孟晓乐。;van Dyk,D.,《EM算法——一首古老的民歌,以快速的新调子演唱(带讨论)》,《皇家统计学会杂志》,B辑,59,511-567(1997)·Zbl 1090.62518号
[28] Meyer,M.C.,《将混合原对偶基算法扩展到约束多于维数的情况》,《统计规划与推断杂志》,81,13-31(1999)·Zbl 1057.62510号
[29] Robertson,T。;Wright,F.T。;Dykstra,R.L.,《顺序限制统计推断》(1988),John Wiley&Sons:John Willey&Sons New York·Zbl 0645.62028号
[30] Schmoyer,R.L.,量子生物测定中的Sigmoidally约束最大似然估计,美国统计协会杂志,79,448-453(1984)·Zbl 0553.62096号
[31] 西尔瓦普勒,M.J。;Sen,P.K.,《约束统计推断:不等式、顺序和形状限制》(2005),John Wiley&Sons:John Willey&Sons纽约·Zbl 1077.62019年
[32] Tan,M。;Tian,G.L。;Fang,H.B.,使用EM型算法和IBF抽样估计限制正态均值,(Huang,J.;Zhang,H.,《现代统计学的发展和相关主题——庆祝张耀廷教授70岁生日》(2003年),《世界科学:新泽西世界科学》),53-73·Zbl 1081.62019
[33] Tan,M。;Tian,G.L。;方,H.B。;Ng,K.W.,凸约束下二次优化的快速EM算法,中国统计,17,3945-964(2007)·Zbl 1133.62019年
[34] Tibshirani,R.J.,《通过套索进行回归收缩和选择》,《皇家统计学会杂志》,B辑,58,267-288(1996)·Zbl 0850.62538号
[35] 朱春云。;伯德·R·H。;卢,P.H。;Nocedal,J.,算法778:L-BFGS-B:大规模有界约束优化的Fortran子程序,ACM数学软件学报,23,4,550-560(1997)·Zbl 0912.65057号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。