×

配位高斯化:理论与应用。 (英语) Zbl 07784911号

小结:在统计分析中,研究人员经常进行协调高斯化,使得每个变量都是微正态的。正态分数变换是一种协调高斯化方法,广泛应用于统计学、计量经济学、遗传学等领域。然而,关于正态得分变换的理论性质的研究很少,特别是在维数(p)与样本大小(n)不同的高维问题中。在本文中,我们证明了即使当\(\log p=o(n/\log n)\)时,正态分数变换也一致收敛于其总体对应。我们的结果可以证明正态得分转换优于任何下游统计方法,理论正态转换对其有益。Winsorized正规变换也得到了同样的结果,这是另一种常用的坐标高斯化方法。我们通过研究坐标高斯化在高斯copula模型、最近收缩质心分类器和距离相关性中的应用,证明了坐标高斯化的好处。理论上清楚地表明了其优点,并得到了数值研究的支持。此外,我们还指出了协调高斯化无助于甚至造成损害的情况。我们就如何在应用中使用协调高斯化提供了一般性建议。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Anokhin,A.P.、Heath,A.C.和Ralano,A.(2003),“遗传对额叶脑功能的影响:双胞胎的WCST表现”,《神经报告》,1975年至1978年第14期。
[2] Beasley,T.M.、Erickson,S.和Allison,E.B.(2009),“基于秩的反向正态变换越来越多地被使用,但它们有价值吗?”《行为遗传学》,第35期,第580-595页。内政部:。
[3] Berkowitz,J.(2001),“测试密度预测及其在风险管理中的应用”,《商业与经济统计杂志》,第19465-474页。
[4] Bliss,C.I.(1967),《生物学统计》,纽约:麦格劳-希尔出版社·Zbl 0183.20603号
[5] Blom,G.(1958),《统计估计和转换贝塔变量》,纽约:Wiley出版社·Zbl 0086.34501号
[6] Cai,T.和Liu,W.(2011),“稀疏线性判别分析的直接估计方法”,《美国统计协会杂志》,1061566-1577。内政部:·Zbl 1233.62129号
[7] Cai,T.、Liu,W.和Luo,X.(2011),“稀疏精度矩阵估计的约束(ell_1)最小化方法”,美国统计协会杂志,106,594-607·Zbl 1232.62087号
[8] Cai,T.T.和Zhang,L.(2018),“高维高斯Copula回归:自适应估计和统计推断”,《统计学》,第28期,第963-993页·Zbl 1390.62099号
[9] Cai,X.、Li,H.和Liu,A.(2016),“基于边际秩的反向正态变换方法比较多个临床试验终点”,《医学统计学》,35,3259-3271。内政部:。
[10] Chang,J.、Tang,C.Y.和Wu,Y.(2013),“边际经验似然和确定独立特征筛选”,《统计年鉴》,第41期,第2123-2148页。内政部:·Zbl 1277.62109号
[11] Chang,J.、Tang,C.Y.和Wu,Y.(2016),“基于边际经验似然的非参数和半参数模型的局部独立性特征筛选”,《统计学年鉴》,44,515-539·Zbl 1486.62082号
[12] Chen,X.、Chen,X和Wang,H(2018),“通过距离相关对超高维右删失数据进行稳健特征筛选”,计算统计与数据分析,119118-138·兹比尔1469.62043
[13] Chen,X.和Fan,Y.(2006),“基于Copula的半参数时间序列模型的估计”,《计量经济学杂志》,130,307-335。内政部:·兹比尔1337.62201
[14] Cui,H.、Li,R.和Zhong,W.(2015),“超高维判别分析的无模型特征筛选”,美国统计协会杂志,110,630-641。内政部:·Zbl 1373.62305号
[15] Dixon,A.L.,Liang,L.,Moffatt,M.F.,Chen,W.,Heath,S.,Wong,K.C.,Taylor,J.,Burnett,E.,Gut,I.,Farrall,M.,Mark Lathrop,G.,Abecasis,G.R.,and Cookson,W.O.C.(2007),“全球基因表达的全基因组关联研究”,《自然遗传学》,39,1202-1207。内政部:。
[16] Fan,J.和Fan,Y.(2008),“使用特征退火独立规则的高维分类”,《统计年鉴》,362605-2637。内政部:·Zbl 1360.62327号
[17] Fan,J.、Feng,Y.和Song,R.(2011),“稀疏超高维可加模型中的非参数独立性筛选”,美国统计协会杂志,106,544-557。内政部:·Zbl 1232.62064号
[18] Fan,J.、Feng,Y.和Tong,X.(2012),“高维空间分类之路”,《皇家统计学会杂志》,B辑,745-771。内政部:·Zbl 1411.62167号
[19] Fan,J.和Lv,J.(2008),“超高维特征空间的绝对独立性筛选”,《皇家统计学会杂志》,B辑,20,101-148。
[20] Fan,J.和Song,R.(2010),“具有NP维的广义线性模型中的确定独立性筛选”,《统计年鉴》,38,3567-3604。内政部:·Zbl 1206.68157号
[21] Fan,J.、Xue,L.和Zou,H.(2015),“超正态模型下的多任务分位数回归”,美国统计协会杂志,1111726-1735。内政部:。
[22] Fan,R.,Wang,Y.,Mills,J.L.,Wilson,A.F.,Bailey-Wilson,J.E.和Xiong,M.(2013),“数量性状关联分析的函数线性模型”,遗传流行病学,37,726-742。内政部:。
[23] Friedman,J.H.、Hastie,T.和Tibshirani,R.(2008),“用图形拉索进行稀疏逆协方差估计”,《生物统计》,第9期,第432-441页。DOI:·Zbl 1143.62076号
[24] Glass,G.V.和Hopkins,K.D.(1996),《教育和心理学中的统计方法》(第三版),波士顿:Allyn&Bacon。
[25] Han,F.和Liu,H.(2014),“高维半参数尺度不变主成分分析”,IEEE模式分析和机器智能汇刊,362016-2032。内政部:。
[26] Hastie,T.、Tibshirani,R.和Friedman,J.H.(2008),《统计学习的要素:数据挖掘、推断和预测》(第二版),纽约:Springer Verlag出版社·Zbl 0973.62007号
[27] Hoff,P.D.(2007),“扩展半参数Copula估计的秩似然”,《应用统计学年鉴》,第1265-283页·邮编1129.62050
[28] Hoff,P.D.、Niu,X.和Wellner,J.A.(2014),“高斯Copula的信息界”,伯努利,20,604-622。内政部:·Zbl 1321.62054号
[29] Jin,J.和Wang,W.(2016),“高维聚类的影响特征PCA”,《统计年鉴》,442323-2359·Zbl 1359.62249号
[30] Johnstone,I.M.和Lu,A.Y.(2009),“关于高维主成分分析的一致性和稀疏性”,《美国统计协会杂志》,104682-693。内政部:·Zbl 1388.62174号
[31] Klaassen,C.和Wellner,J.(1997),“二元正态Copula模型中的有效估计:正态裕度是最不可取的”,伯努利,3,55-77。内政部:·Zbl 0877.62055号
[32] Lambregts Rommelse,N.,Arias Vasquez,A.,Altink,M.,Buschgens,C.,Fliers,E.,Asherson,P.,Faraone,S.,Buitelaar,J.,Sergeant,J.,Oostelaan,J.,Franke,B.(2008),“全基因组连锁分析的神经心理学内表型方法确定2q21上adhd的易感性位点。1和13q12。11,“美国人类遗传学杂志,83,99-105。内政部:。
[33] Li,G.,Peng,H.,Zhang,J.和Zhu,L.-X.(2012),“基于稳健秩相关的筛选”,《统计学年鉴》,第40期,1846-1877页。内政部:·Zbl 1257.62067号
[34] Li,R.,Zhong,W.和Zhu,L.-P.(2012),“通过距离相关学习进行特征筛选”,美国统计协会杂志,1071129-1139。内政部:·Zbl 1443.62184号
[35] Lin,Y.和Jeon,Y.(2003),“通过半参数模型进行判别分析”,《生物特征识别》,90,379-392。内政部:·Zbl 1034.62054号
[36] Liu,H.、Han,F.、Yuan,M.、Lafferty,J.和Wasserman,L.(2012),“高维半参数高斯Copula图形模型”,《统计学年鉴》,第40期,第2293-2326页·Zbl 1297.62073号
[37] Liu,H.、Lafferty,J.和Wasserman,L.(2009),“非超常:高维无向图的半参数估计”,《机器学习研究杂志》,102295-2328·Zbl 1235.62035号
[38] Mai,Q.和Zou,H.(2013),“高维二进制分类中用于变量筛选的Kolmogorov过滤器”,《生物特征》,100229-234。内政部:·Zbl 1452.62456号
[39] Mai,Q.和Zou,H.(2015a),“融合Kolmogorov滤波器:一种非参数无模型筛选方法”,《统计学年鉴》,第43期,第1471-1497页·Zbl 1431.62216号
[40] Mai,Q.和Zou,H.(2015b),“充分降维中的非参数变量变换”,《技术计量学》,57,1-10。
[41] Mai,Q.和Zou,H.(2015c),“稀疏半参数判别分析”,《多变量分析杂志》,135175-188·Zbl 1307.62166号
[42] Mai,Q.、Zou,H.和Yuan,M.(2012),“超高维稀疏判别分析的直接方法”,《生物统计学》,99,29-42。内政部:·Zbl 1437.62550号
[43] McDiarmid,C.(1989),“关于有界差异的方法”,摘自《组合数学调查》(Norwich,1989),伦敦数学学会讲义系列第141卷,第148-188页,剑桥:剑桥大学出版社·Zbl 0712.05012号
[44] Meier,L.、Van de Geer,S.和Bühlmann,P.(2009),“高维加性建模”,《统计年鉴》,第37期,第3779-3821页。内政部:·Zbl 1360.62186号
[45] Meinshausen,N.和Bühlmann,P.(2006),“高维图和拉索变量选择”,《统计年鉴》,341436-1462·Zbl 1113.62082号
[46] Nansel,T.R.、Laffel,L.M.、Haynie,D.L.、Mehta,S.N.、Lipsky,L.M、Volkening,L.K.、Butler,D.A.、Higgins,L.A.和Liu,A.(2015年),“改善1型糖尿病青年的饮食质量:基于家庭的行为干预的随机临床试验”,《行为营养和体力活动国际杂志》,第12期, 1-11. 内政部:。
[47] Ockenhouse,C.F.、Hu,W.C.、Kester,K.E.、Cummings,J.F.、Stewart,A.、Heppner,D.G.、Jedlicka,A.E.、Scott,A.L.、Wolfe,N.D.、Vahey,M.和Burke,D.S.(2006),“在症状前和临床上明显的疟疾的外周血单核细胞基因表达模式中发现的常见和不同的免疫反应信号通路”,《感染与免疫》,745551-5573。内政部:。
[48] Peng,B.、Robert,K.Y.、DeHoff,K.L.和Amos,C.I.(2007),“使用经验正态分位数变换规范化大量数量性状”,BMC论文集,1,S156。DOI:。
[49] Peng,J.、Wang,P.、Zhou,N.和Zhu,J.(2009),“联合稀疏回归模型的偏相关估计”,美国统计协会杂志,104735-746。内政部:·Zbl 1388.62046号
[50] Ravikumar,P.、Wainwright,M.J.、Raskutti,G.和Yu,B.(2011),“通过最小化l1对数决定散度进行高维协方差估计”,《电子统计学杂志》,第5935-980页。内政部:·兹比尔1274.62190
[51] Scuteri,A.,Sanna,S.,Chen,W.-M.,Uda,M.,Albai,G.,Strait,J.,Najjar,“全基因组关联扫描显示FTOGene中的遗传变异与肥胖相关性状相关”,《公共科学图书馆·遗传学》,3,e115。内政部:。
[52] Serfling,R.J.(2009),《数理统计近似定理》(第162卷),纽约:威利出版社·Zbl 1001.62005号
[53] Sklar,M.(1959年),“重新划分维度和Leurs Marges的功能”,巴黎大学统计研究所出版物,第8229-231页·Zbl 0100.14202号
[54] Székely,G.J.和Rizzo,M.L.(2009),“布朗距离协方差”,《应用统计学年鉴》,第31236-1265页·Zbl 1196.62077号
[55] Székely,G.J.、Rizzo,M.L.和Bakirov,N.K.(2007),“通过距离相关性测量和测试依赖性”,《统计年鉴》,第35期,第2769-2794页。内政部:·Zbl 1129.62059号
[56] Tibshirani,R.、Hastie,T.、Narasimhan,B.和Chu,G.(2002),“通过基因表达的收缩质心诊断多种癌症类型”,《国家科学院学报》,99,6567-6572。内政部:。
[57] Tibshirani,R.、Hastie,T.、Narasimhan,B.和Chu,G.(2003),“最近收缩质心的类别预测及其在DNA中的应用”,《统计科学》,第18期,第104-117页。内政部:·Zbl 1048.62109号
[58] Tukey,J.W.(1962),“数据分析的未来”,《数理统计年鉴》,33,1-67。内政部:·Zbl 0107.36401号
[59] Van der Waerden,B.(1952),“两样本问题的顺序检验及其幂”,《数学学报》(第55卷),第453-458页,爱思唯尔。内政部:·Zbl 0048.11802号
[60] Wang,Y.,Liu,A.,Mills,J.L.,Boehnke,M.,Wilson,A.F.,Bailey-Wilson,J.E.,Xiong,M.、Wu,C.O.和Fan,R.(2015),“利用多元功能线性模型在基因水平上对数量性状进行多效性分析”,遗传流行病学,39,259-275。内政部:。
[61] Wu,X.、Cooper,R.S.、Borecki,I.、Hanis,C.、Bray,M.、Lewis,C.E.、Zhu,X.,Kan,D.、Luke,A.和Curb,D.(2002年),“来自国家心脏、肺和血液研究所家庭血压计划的体重指数全基因组连锁扫描的联合分析”,《美国人类遗传学杂志》,701247-1256。内政部:。
[62] Xue,L.和Zou,H.(2012),“高维非超常图形模型的基于正则秩的估计”,《统计学年鉴》,40,2541-2571。内政部:·Zbl 1373.62138号
[63] Yuan,M.(2010),“基于线性规划的高维逆协方差矩阵估计”,《机器学习研究杂志》,第11期,第2261-2286页·Zbl 1242.62043号
[64] Zhang,T.和Zou,H.(2014),“通过拉索惩罚d-Trace损失进行稀疏精度矩阵估计”,《生物特征》,101,103-120。内政部:·兹比尔1285.62063
[65] Zhong,W.,Zhu,L.,Li,R.,and Cui,H.(2016),“单指数模型的正则分位数回归和稳健特征筛选”,《统计学》,26,69-95。内政部:·兹比尔1419.62096
[66] 朱,L.-P.,李,L.,李,R.和朱,L.-X.(2011),“超高维数据的无模型特征筛选”,美国统计协会杂志,1061464-1475。内政部:·Zbl 1233.62195号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。