统计学及其接口

第9卷(2016)

数字4

大数据统计计算理论与方法专刊

客座编辑:陈明辉(康涅狄格大学);Radu V.Craiu(多伦多大学);Faming Liang(佛罗里达大学);和刘川海(普渡大学)

降秩估计中的模型诊断

页:469 – 484

内政部:https://dx.doi.org/10.4310/SII.2016.v9.n4.a7

作者

陈坤(美国康涅狄格州斯托斯康涅狄克大学统计系)

摘要

降秩方法在高维多元分析中非常流行,可以同时进行降维和模型估计。然而,常用的还原库方法并不稳健,因为只有少数数据异常值很容易扭曲还原库的基本结构。大数据问题中必然存在异常,在某些应用程序中,异常本身可能是主要关注点。虽然由于潜在的掩蔽和淹没,朴素的残差分析通常不足以进行离群值检测,但稳健的缩减秩估计方法可能需要计算。在Stein的无偏风险估计框架下,我们提出了一套工具,包括杠杆得分和广义信息得分,用于在大规模缩减银行估计中进行模型诊断和异常值检测。杠杆得分将所谓的模型自由度精确分解到观测水平,从而精确分解许多常用信息标准;由此产生的量被称为观测值的信息分数。提出的信息评分方法提供了一种将残差和杠杆评分结合起来进行异常检测的原则方法。仿真研究证实,所提出的诊断工具工作良好。手写数字图像的模式识别示例和美国月度宏观经济数据的时间序列分析示例进一步证明了所提方法的有效性。

关键词

大数据、信息得分、模型诊断、多元回归、离群值检测、缩减秩估计

2010年数学学科分类

主62M10。次级62J12。

2016年9月14日出版