×

用于增强线性回归可解释性的整数约束。 (英语) Zbl 1442.62151号

总结:研究人员面临的主要挑战之一是确定预测模型中最相关的特征。因此,许多寻求稀疏性的正规化方法蓬勃发展。虽然稀疏,但在存在伪系数和相关特征的情况下,它们的解可能无法解释。在本文中,我们的目的是通过以下方法来增强存在多重共线性的线性回归的可解释性:(i)强制估计系数的符号与预测因子之间相关性的符号一致,(ii)避免伪系数,以便模型中只表示显著特征。这将通过建模约束并将其添加到优化问题中来解决,该优化问题表示一些估计过程,如普通最小二乘法或套索。得到的约束回归模型将成为混合整数二次型问题。在真实和模拟数据集上进行的数值实验表明,通过添加约束模型(i)和/或(ii),缩小一些标准线性回归模型的搜索空间,有助于提高具有竞争性预测质量的解的稀疏性和可解释性。

MSC公司:

62J05型 线性回归;混合模型
90立方厘米 混合整数编程

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Atamurk,A.、Nemhauser,G.和Savelsbergh,M.(2000年)。解决整数规划问题中的冲突图。《欧洲运筹学杂志》,121,40-55·Zbl 0959.90034号
[2] Bartholomew,D.J.、Steele,F.、Moustaki,I.和Galbraith,J.(2008)。多元社会科学数据分析。查普曼和霍尔·Zbl 1162.62096号
[3] Bertsimas,D.和King,A.(2015年)。OR论坛-线性回归的算法方法。运筹学,64,2-16·Zbl 1338.90272号
[4] Bertsimas,D.,King,A.,Mazumder,R.(2016)。通过现代优化透镜选择最佳子集。《统计年鉴》,44813-852·Zbl 1335.62115号
[5] Breiman,L.(1995)。使用非负garrote进行更好的子集回归。技术计量学,37,373-384·Zbl 0862.62059号
[6] B–uhlmann,P.和van de Geer,S.(2011年)。高维数据统计。斯普林格·Zbl 1273.62015年
[7] Cai,A.、Tsay,R.和Chen,R.(2009年)。具有多个预测因子的线性回归中的变量选择。计算与图形统计杂志,18573-591。
[8] Camm,J.D.、Raturi,A.S.和Tsubakitani,S.(1990年)。将bigM切割成尺寸。接口,20,61-66。
[9] Cao,G.、Guo,Y.和Bouman,C.A.(2010年)。使用稀疏矩阵变换(SMT)的高维回归。《声学语音和信号处理》(ICASSP),2010年IEEE国际会议,第1870-1873页。IEEE标准。
[10] Carrizosa,E.和Guerrero,V.(2014)。生物目标稀疏主成分分析。多元分析杂志,132151-159·Zbl 1360.62301号
[11] Carrizosa,E.、Nogales-G´omez,A.和Morales,D.R.(2016)。强烈同意还是强烈反对支持向量机中的评级功能。信息科学,329256-273。
[12] Carrizosa,E.、Nogales-G´omez,A.和Morales,D.R.(2017)。支持向量Emilio Carrizosa、Alba V.Olivares-Nadal和Pepa Ram´11n rez-Cobo93中的聚类类别
[13] Hastie,T.、Tibshirani,R.和Wainwright,M.(2015)。稀疏的统计学习:套索和泛化。CRC出版社·兹比尔1319.68003
[14] Hesterberg,T.、Choi,N.H.、Meier,L.和Fraley,C.(2008)。最小角度和1不良回归:回顾。统计调查,261-93·Zbl 1189.62070号
[15] Jou,Y.-J.、Huang,C.-C.L.和Cho,H.-J.(2014)。一种基于VIF的优化模型,用于缓解多元线性回归中的共线性问题。计算统计学,291515-1541·Zbl 1306.65077号
[16] Kim,S.和Xing,E.P.(2009年)。数量性状网络相关基因组关联的统计估计。PLoS遗传学,5,e1000587。
[17] Lichman,M.(2016)。UCI机器学习库。http://archive.ics.uci.edu/ml。加州大学欧文分校信息与计算机科学学院。
[18] Massy,W.F.(1965年)。探索性统计研究中的主成分回归。美国统计协会杂志,60,234-256。
[19] Meinshausen,N.(2013年)。高维回归的符号约束最小二乘估计。《电子统计杂志》,第7期,1607-1631页·Zbl 1327.62422号
[20] Miller,A.(2002年)。回归中的子集选择(第2版)。查普曼和霍尔/CRC·Zbl 1051.62060号
[21] Montgomery,D.C.、Peck,E.A.和Vining,G.G.(2012)。线性回归分析简介,第821卷。约翰·威利父子公司·Zbl 1274.62016年
[22] Rothberg,E.(2007)。一种改进混合整数规划解的进化算法。信息计算杂志,19534-541·Zbl 1241.90092号
[23] Savelsbergh,M.(1994)。混合整数规划问题的预处理和探测技术。ORSA计算机期刊,6445-454·Zbl 0814.90093号
[24] Sengupta,D.和Bhimasankaram,P.(1997年)。关于线性模型中观测值在共线性中的作用。《美国统计协会杂志》,921024-1032·Zbl 0888.62075号
[25] Silvey,S.(1969年)。多重共线性和不精确估计。英国皇家统计学会杂志。B系列(方法学),539-552·兹比尔0193.16501
[26] Tamura R.、Kobayashi K.、Takano Y.、Miyashiro R.、Nakata K.和Matsui T.(2017年)。消除多重共线性的最佳子集选择。日本运筹学会杂志,60,321-336·Zbl 1382.90068号
[27] Tamura,R.、Kobayashi,K.、Takano,Y.、Miyashiro,R.、Nakata,K.和Matsui,T.(2019)。基于方差膨胀因子消除多重共线性的混合整数二次优化公式·Zbl 1421.90093号
[28] 94增强线性回归可解释性的整数约束
[29] 比较方法的数学公式
[30] 数值研究中解决的优化问题采用Prob形式
[31] lem(6),其目标函数是套索或OLS的目标函数(即目标函数
[32] 问题(3)中的λ=0)。表示拧紧套件
[33] 作为Sm,m=1。。,第3.1节中定义了。为了理解,这些
[34] 现在将明确说明问题。
[35] A.1带紧集的拉索回归问题SSS111 minky-β0-βββXk22+λkββk1
[36] A.2紧集拉索回归问题SSS222 minky-β0-βββXk22+λkβββk1
[37] A.3拉索回归问题与紧集SSS333 Emilio Carrizosa、Alba V.Olivares-Nadal和Pepa Ram´225 rez-Cobo95
[38] A.4紧集拉索回归问题SSS444 minky-β0-βββXk22+λkβββk1
[39] A.5紧集SSS555 minky-β0-βββXk22+λkβββk1的拉索回归问题
[40] 96增强线性回归可解释性的整数约束
[41] 表8:基于相关性的方法的预测质量(MSE)和稀疏性(NZ)
[42] 校准参数η和α时的约束条件。Cpu游艇Whitewine Redwine Golf2008Golf2009Compact
[43] C NNN===100100100的模拟数据中的相关变量
[44] 为了更好地理解表中显示的强化程序的结果
[45] 图5和图7中,我们在图8中表示了热图,表明是否有两个
[46] 变量高度相关(ρ≥0.8)或中度相关
[47] 第3.3.1节中每个模拟数据示例的随机实例。橙色
[48] 指示相关性约束(7)包括在紧固集合S5中,并且
[49] 符号一致性约束(9)-(12)添加到拧紧集S4。绿色
[50] 仅表示S4中存在符号一致性约束(9)-(12)。左侧面板
[51] 表示所有特征之间的相关性,而右侧面板显示相关性
[52] 只有在生成模型中真正出现的预测因子中(即βi6=0)。作为它
[53] 可以观察到,示例1的生成模型中出现的一些特征具有
[54] 绝对值大于0.8的相关性,因此禁止出现
[55] 一起在S5的输出模型中。埃米利奥·卡里佐萨(Emilio Carrizosa)、阿尔巴·V·奥利瓦雷斯·奈达尔(Alba V.Olivares-Nadal)和佩帕·拉姆(Pepa Ram´227 rez-Cobo97)
[56] 98增强线性回归可解释性的整数约束
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。