×

用正则化迭代多重对应分析处理缺失值。 (英语) Zbl 1360.62306号

摘要:处理多元探索性数据分析中缺失值的一种常见方法是最小化所有非缺失元素的损失函数,这可以通过EM型算法实现,其中在轴和组件的估计过程中对缺失值进行迭代插补。本文提出了一种迭代多重对应分析算法,用于处理多重对应分析中的缺失值。描述了基于迭代PCA算法的算法,并研究了其性能。我们指出了过拟合问题,并提出了一种正则化的算法来克服这一主要问题。最后,通过仿真和实际数据集评估了正则化迭代MCA算法(在名为missMDA的R包中实现)的性能。与其他方法相比,结果是有希望的,例如缺失数据被动修正余量方法,该方法是对Gifi的同质性分析框架中使用的缺失被动方法的改编。

MSC公司:

62H25个 因子分析和主成分;对应分析
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] BENZéCRI,J-P.(1973),《多恩分析》,《托美二世:通信分析》,巴黎:杜诺出版社·Zbl 0297.62039号
[2] BRO,R.、KJELDAHL,K.、SMILDE,A.K.和KIERS,H.A.L.(2008),“成分模型的交叉验证:对当前方法的批判”,分析和生物分析化学,390,1241–1251·doi:10.1007/s00216-007-1790-1
[3] DE LEEUW,J.和VAN DER HEIJDEN,P.G.M.(1988),“不完全列联表的对应分析”,心理测量学,53223-233·Zbl 0718.62116号 ·doi:10.1007/BF02294134
[4] DEMPSTER,A.P.、LAIRD,N.M.和RUBIN,D.B.(1977),“通过Em算法从不完整数据中获得最大可能性”,英国皇家统计学会杂志B,39,1–38·兹比尔0364.62022
[5] ESCOFIER,B.(1987年),“Traitement des Questionnaires avec Non Réponse,Analyse des Corresponses avec Marges Modifiee et Analyse Multicanonique avec Contrainte”,巴黎大学统计研究所出版物,32,33–70·Zbl 0651.62055号
[6] ESCOUFIER,Y.(1973),“向量变量的特征”,《生物计量学》,29751-760·doi:10.2307/2529140
[7] GABRIEL,K.R.和ZAMIR,S.(1979年),“任意权重选择的最小二乘法矩阵的低阶近似”,技术计量学,21,236–246·Zbl 0471.62004号 ·doi:10.1080/00401706.1979.10489819
[8] GIFI,A.(1981),非线性多变量分析,莱顿:D.S.W.O.出版社·Zbl 0697.62048号
[9] GREENACRE,M.(1984),《对应分析理论与应用》,伦敦:学术出版社·Zbl 0555.62005号
[10] GREENACRE,M.(1988),“用加权最小二乘法对多变量分类数据进行对应分析”,《生物统计学》,75,457-477·Zbl 0651.62054号 ·doi:10.1093/biomet/75.3.457
[11] GREENACRE和BLASIUS,J.(2006),多重对应分析及相关方法,伦敦:查普曼;霍尔/CRC·Zbl 1277.62156号
[12] GREENACRE,M.和PARDO,R.(2006),“子集对应分析:从问卷调查中可视化一组选择的反应类别之间的关系”,社会学方法与研究,35(2):193–218·doi:10.177/049124106290316
[13] HASTIE,T.、TIBSHIRANI,R.和FRIEDMAN,J.(2001),《统计学习的要素:数据挖掘、推断和预测》,《统计学中的斯普林格系列》·Zbl 0973.62007号
[14] HOERL,A.F.和KENNARD,R.W.(1970),“岭回归:非正交问题的有偏估计”,技术计量学,12,55–67·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[15] HUSSON,F.和JOSSE,J.(2010),《missMDA:用多元数据分析(主成分方法)处理缺失值》,R包1.2版,http://www.agrocampus-ouest.fr/math/husson , http://www.agrocampus-ouest.fr/math/josse网站 .
[16] HUSSON,F.、JOSSE,J.、Lá,S.和MAZET,J.(2011),FactoMineR:多元探索性数据分析和R,R包版本1.16的数据挖掘,http://factominer.free.fr , http://www.agrocampus-ouest.fr/math/ .
[17] ILIN,A.和RAIKO,T.(2010),“存在缺失值时主成分分析的实用方法”,《机器学习研究杂志》,第11期,第1957-2000页·Zbl 1242.62047号
[18] JOSSE,J.、PAGÈS,J.和HUSSON,F.(2008),“测试Rv系数的重要性”,计算统计与数据分析,53,82–91·Zbl 1452.62399号 ·doi:10.1016/j.csda.2008.06.012
[19] JOSSE,J.、PAGÈS,J.和HUSSON,F.(2009年),“Manquantes en Analyse en Composantes Principales”,《法国社会统计杂志》,第150、28–51页·兹比尔1311.62091
[20] KIERS,H.A.L.(1997),“使用普通最小二乘算法的加权最小二乘拟合”,《心理测量学》,62251-266·Zbl 0873.62058号 ·doi:10.1007/BF02295279
[21] Lá,S.、JOSSE,J.和HUSSON,F.(2008),“事实决策者:多元分析的R包”,《统计软件杂志》,25(1),1-18·doi:10.18637/jss.v025.i01
[22] LEBART,L.、MORINEAU,A.和WARWICK,K.M.(1984),多元描述性统计分析,纽约:Wiley·Zbl 0658.62069号
[23] LITTLE,R.J.A.和RUBIN,D.B.(1987年、2002年),《缺失数据的统计分析》,纽约:概率统计中的威利级数·Zbl 0665.62004号
[24] MEULMAN,J.(1982),《不完全数据的Homgeneity分析》,莱顿:D.S.W.O.出版社。
[25] NISHISATO,S.(1980),《分类数据分析:双尺度及其应用》,多伦多:多伦多大学出版社,多伦多·兹伯利04876/2001
[26] NORA-CHOUTEAU,C.(1974),《重建与不完整分析的方法》,未发表的博士论文,皮埃尔大学与玛丽·居里大学。
[27] R DEVELOPMENT CORE TEAM,(2010),R:统计计算语言与环境,R统计计算基金会,奥地利维也纳,ISBN 3-900051-07-0,网址:http://www.R-project.org/ .
[28] RUBIN,D.B.(1976),“推断和缺失数据”,《生物特征》,第63、581–592页·Zbl 0344.62034号 ·doi:10.1093/biomet/63.3.581
[29] SCHAFER,J.L.(1997),不完全多元数据分析,Chapman&霍尔/CRC·兹比尔0997.62510
[30] SCHAFER,J.L.和GRAHAM,J.W.(2002),“缺失的数据:我们对最新技术的看法”,《心理学方法》,第7期,第147-177页·doi:10.1037/1082-989X.7.2.147
[31] SMILDE,A.K.,KIERS,H.A.L.,BIJLSMA,S.,RUBINGH,C.M.和VAN ERK,M.J.(2009),“高维数据的矩阵相关性:修正的RV系数”,生物信息学,25,401–405·Zbl 05743746号 ·doi:10.1093/bioinformatics/btn634
[32] TAKANE,Y.和HWANG,H.(2002),“广义约束规范相关分析”,多变量行为研究,37163-195·doi:10.1207/S15327906MBR3702_01
[33] 塔卡内,Y,。和HWANG,H.(2006),“正则化多重对应分析”,载于《多重对应分析及相关方法》,J.Blasius和M.J.Greenacre,Chapman&霍尔,第259-279页·Zbl 1277.62161号
[34] TAKANE,Y.和OSHIMA-TAKANE,Y.(2003),“处理主成分分析中缺失数据的两种方法之间的关系”,行为测量学,30,145-154·Zbl 1055.62070号 ·数字对象标识代码:10.233/bhmk.30.145
[35] TENENHAUS,M.和YOUNG,F.W.(1985),“多元对应分析、最佳尺度、双尺度、同质性分析和其他量化类别多元数据的方法的分析与综合”,《心理测量学》,50,91–119·Zbl 0585.62104号 ·doi:10.1007/BF02294151
[36] TIPPING,M.和BISHOP,C.M.(1999),“概率主成分分析”,《皇家统计学会学报》B,61611-622·Zbl 0924.62068号 ·doi:10.1111/1467-9868.00196
[37] VAN DER HEIJDEN,P.G.M.和ESCOFIER,B.(2003),“缺失数据的多重对应分析”,收录于Recherches sur l’Analysis des Corresponses,第152-170页。
[38] VERMUNT,J.K.、VAN GINKEL,J.R.、VAN DER ARK,L.A.和SIJTSMA,K.(2008),“使用潜在类别分析对不完整类别数据进行多重插补”,社会学方法论,33,369–397。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。