Variable selection for general index models via sliced inverse regression

Bo Jiang; Jun S. Liu

doi:10.1214/14-AOS1233

2014年10月基于分段逆回归的一般指数模型变量选择

薄江,Jun S.Liu（刘军）

安。统计师。 42(5): 1751年-1786年（2014年10月）。数字对象标识码：10.1214/14-AOS1233

摘要

变量选择，也称为机器学习中的特征选择，在高维数据建模中起着重要作用，是数据驱动科学发现的关键。这里我们考虑在一般指数模型下检测影响变量的问题，其中响应通过一个或多个预测因子线性组合的未知函数依赖于预测因子。我们没有建立给定预测因子组合的响应预测模型，而是对给定响应的预测因子的条件分布建模。这种反向建模的观点促使我们提出一种基于似然比检验的逐步程序，该程序在识别重要变量时有效且计算效率高，而无需指定预测因子和响应之间的参数关系。例如，所建议的程序能够检测$p$预测器之间具有成对、三向甚至更高阶交互作用的变量，计算时间为$O（p）$而不是$O（p^{k}）$（其中$k$是交互作用的最高阶）。通过模拟研究和实际数据示例，证明了其与现有方法相比具有优异的经验性能。建立了当预测数和样本量都趋于无穷大时变量选择过程的一致性。