×

同时估计具有副信息的正态均值。 (英语) Zbl 1476.62027号

摘要:对多个数据集进行综合分析是数据分析中的一个重要策略。它在基因组学中越来越受欢迎,基因组学拥有大量公开可用的数据集,可以进行比较、对比和组合,以提取新的科学见解。这项研究考察了一个典型统计问题的数据整合的程式化示例:利用侧面信息估计正态均值向量。我们将此任务描述为一个复合决策问题,导出了一个预言综合决策规则,并基于最小化其风险的无偏估计,提出了此规则的数据驱动估计。结果表明,在所有可分离决策规则中,数据驱动规则能够渐近地实现最小可能风险,并且在数值特性方面优于现有方法。所提出的程序自然导致了一个综合的高维分类程序,这是通过结合两个独立的基因表达谱研究的数据来说明的。

MSC公司:

62C25型 统计决策理论中的复合决策问题
62G05型 非参数估计
62页第10页 统计学在生物学和医学中的应用;元分析
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 班纳吉,T.、穆克吉,G.和孙,W.(2018)。带边信息的自适应稀疏估计。技术报告。南加州大学。
[2] Brown,L.D.和Greenshtein,E.(2009年)。估计高维正态均值向量的非参数经验贝叶斯和复合决策方法。《统计年鉴》37,1685-1704·Zbl 1166.62005年
[3] Cai,T.T.(2012)。非参数函数估计中的极大极小和自适应推理。统计科学27,31-50·兹比尔1330.62059
[4] Castillo,I.和van der Vaart,A.(2012年)。干草堆中的针和稻草:可能稀疏序列的后部集中。《统计年鉴》40,2069-2101·Zbl 1257.62025号
[5] Cohen,N.、Greenshtein,E.和Ritov,Y.(2013)。存在解释变量的经验贝叶斯。中国统计局23,333-357·Zbl 06142331号
[6] Dicker,L.H.和Zhao,S.D.(2016)。基于非参数经验贝叶斯和最大似然推理的高维分类。生物特征103,21-34·Zbl 1452.62440号
[7] Donoho,D.L.和Johnstone,J.M.(1994年)。通过小波收缩实现理想的空间自适应。生物特征81,425-455·Zbl 0815.62019号
[8] Donoho,D.L.和Johnstone,I.M.(1995)。通过小波收缩适应未知平滑度。美国统计协会杂志90,1200-1224·Zbl 0869.62024号
[9] Edgar,R.、Domrachev,M.和Lash,A.E.(2002年)。基因表达总括:Ncbi基因表达和杂交阵列数据仓库。核酸研究30,207-210。
[10] Efron,B.(2014)。经验贝叶斯估计的两种建模策略。统计科学29,285-301·Zbl 1332.62031号
[11] Efron,B.(2019年)。贝叶斯、甲骨文贝叶斯和经验贝叶斯。统计科学34,177-201·Zbl 1420.62023号
[12] Efron,B.和Morris,C.(1973年)。Stein的估计规则及其竞争对手——一种经验贝叶斯方法。《美国统计协会杂志》68,117-130·Zbl 0275.62005号
[13] Fan,J.、Feng,Y.和Tong,X.(2012)。高维空间中的分类之路:正则化最优仿射鉴别算子。英国皇家统计学会杂志:B辑(统计方法)74,745-771·Zbl 1411.62167号
[14] Feng,L.和Dicker,L.H.(2018)。混合模型的近似非参数最大似然:用于拟合任意多元混合分布的凸优化方法。计算统计与数据分析·Zbl 1469.62061号
[15] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型通过坐标下降的正则化路径。《统计软件杂志》33,1-22。
[16] Fu,L.、Sun,W.和James,G.M.(2019)。非参数经验Bayes估计在异质数据上的应用。技术报告。南加州大学。
[17] Genovese,C.R.、Roeder,K.和Wasserman,L.(2006年)。具有p值权重的错误发现控制。生物特征93,509-524·兹比尔1108.62070
[18] Greenshtein,E.和Park,J.(2009年)。非参数经验贝叶斯估计在高维分类中的应用。机器学习研究杂志10,1687-1704·Zbl 1235.62010号
[19] Greenshtein,E.和Ritov,Y.(2009年)。复合决策问题的简单决策的渐近效率。《最佳化:第三届埃里希·莱曼研讨会》(J.Rojo编辑),266-275。数理统计研究所·Zbl 1271.62022号
[20] Gu,J.和Koenker,R.(2017)。经验贝叶斯球混合:纵向数据的经验贝叶斯法。应用计量经济学杂志32,575-599。
[21] Hu,Y.,Lu,Q.,Liu,W.,Zhang,Y.、Li,M.和Zhao,H.(2017)。基因相关疾病和功能注释的联合建模提高了多基因风险预测的准确性。《公共科学图书馆·遗传学》13,e1006836。
[22] James,W.和Stein,C.M.(1961年)。二次损失估算。第四届伯克利数理统计与概率研讨会论文集,367-379。加利福尼亚大学出版社,伯克利和洛杉矶·Zbl 1281.62026号
[23] Jiang,W.和Zhang,C.-H.(2009)。正态均值的一般最大似然经验Bayes估计。《统计年鉴》37,1647-1684·Zbl 1168.62005号
[24] Jiang,W.和Zhang,C.-H.(2010)。棒球平均打击率的经验贝叶斯季内预测。《借力:理论驱动应用——劳伦斯·D·布朗的节日》(J.O.Berger、T.T.Cai和I.M.Johnstone编辑),263-273。数理统计研究所。
[25] Jing,B.-Y.、Li,Z.、Pan,G.和Zhou,W.(2016)。关于确定型双收缩估计。《美国统计协会杂志》111,1696-1704。
[26] Johnstone,I.M.(2017)。高斯估计:序列和小波模型。技术报告。斯坦福大学,斯坦福。
[27] Kiefer,J.和Wolfowitz,J.(1956年)。存在无穷多个伴随参数时最大似然估计的相合性。《数理统计年鉴》27,887-906·兹伯利0073.14701
[28] Koenker,R.(2014)。高斯复合决策烘焙。统计数据3,12-16。
[29] Koenker,R.和Mizera,I.(2014)。凸优化、形状约束、复合决策和经验贝叶斯规则。《美国统计协会杂志》109,674-685·Zbl 1367.62020号
[30] Kou,S.和Yang,J.J.(2017)。异方差层次线性模型中的最优收缩估计。《大数据和复杂数据分析》(S.E.Ahmed编辑),249-284。斯普林格·Zbl 06815963号
[31] Koudstaal,M.和Yao,F.(2018年)。从多高斯序列到函数数据及其他:stein估计方法。英国皇家统计学会杂志:B辑(统计方法)80,319-342·Zbl 1383.62116号
[32] Martin,R.和Walker,S.G.(2014)。稀疏正态均值向量的渐近极小极大经验Bayes估计。《电子统计杂志》8,2188-2206·Zbl 1302.62015年
[33] Pan,Y.,Mai,Q.和Zhang,X.(2019)。郁金香:带惩罚的线性判别分析工具箱。arXiv预打印arXiv:1904.03469。
[34] Pickrell,J.K.、Berisa,T.、Liu,J.Z.、Ségurel,L.、Tung,J.Y.和Hinds,D.A.(2016)。对42个人类特征的共同遗传影响的检测和解释。《自然遗传学》48,709-717。
[35] Ramdas,A.、Barber,R.F.、Wainwright,M.J.和Jordan,M.I.(2017年)。用先验知识统一处理多项测试。arXiv预打印arXiv:1703.06222。
[36] Richardson,S.、Tseng,G.C.和Sun,W.(2016)。综合基因组学中的统计方法。统计及其应用年鉴3181-209。
[37] Ritchie,M.D.、Holzinger,E.R.、Li,R.、Pendergrass,S.A.和Kim,D.(2015)。整合数据以揭示基因型-表型相互作用的方法。《自然评论遗传学》16,85-97。
[38] 罗宾斯,H.(1951年)。复合决策问题的渐近次极小解。第二届伯克利数理统计与概率研讨会论文集,131-148。加州大学出版社,伯克利·Zbl 0044.14803号
[39] Robbins,H.(1964年)。统计决策问题的经验贝叶斯方法。《数理统计年鉴》35,1-20·Zbl 0138.12304号
[40] Saha,S.和Guntuboyina,A.(2017年)。高斯混合密度的非参数极大似然估计及其在高斯去噪中的应用。arXiv预打印arXiv:1712.02009·Zbl 1454.62120号
[41] Shi,L.,Campbell,G.,Jones,W.D.,Campagne,F.,Wen,Z.,Walker,S.J.等人(2010年)。微阵列质量控制(maqc)-ii基于微阵列预测模型开发和验证的通用实践研究。《自然生物技术》28,827-838。
[42] Shpigler,H.Y.、Saul,M.C.、Corona,F.、Block,L.、Ahmed,A.C.、Zhao,S.D.等人(2017)。自闭症相关基因的深层进化保护。《美国国家科学院院刊》1149653-9658。
[43] Smyth,G.K.(2005)。Limma:微阵列数据的线性模型。《使用R和生物导体的生物信息学和复合生物解决方案》(R.Gentleman、V.Carev、W.Huber、R.Irizarry和S.Dudoit编辑),第397-420页。斯普林格。
[44] Stein,C.(1956年)。多元正态分布均值的常用估计的不可接受性。第三届伯克利数理统计与概率研讨会论文集,197-206年。加利福尼亚大学出版社,伯克利和洛杉矶·Zbl 0073.35602号
[45] Stein,C.M.(1981)。多元正态分布平均值的估计。《统计年鉴》9,1135-1151·Zbl 0476.62035号
[46] Stigler,S.M.(1990)。1988年内曼纪念讲座:关于收缩估计器的高尔顿观点。统计科学5,147-155·Zbl 0955.62610号
[47] Tan,Z.(2016)。异方差数据的斯坦化经验贝叶斯估计。《中国统计》第26期,第1219-1248页·Zbl 1356.62011年
[48] Tseng,G.C.、Ghosh,D.和Zhou,X.J.(2015)。集成Omics数据。剑桥大学出版社·Zbl 1320.92008年
[49] Wang,Y.、Klijn,J.G.、Zhang,Y.、Sieuwerts,A.M.、Look,M.P.、Yang,F.等人(2005)。基因表达谱预测淋巴结阴性原发性乳腺癌的远处转移。《柳叶刀》365671-679。
[50] Weinstein,A.、Ma,Z.、Brown,L.D.和Zhang,C.-H(2018)。异方差正态均值的组线性经验贝叶斯时间。《美国统计协会杂志》113,698-710·兹比尔1398.62067
[51] Wright,M.N.和Ziegler,A.(2017年)。ranger:c++和r.《统计软件杂志》77,1-17,高维数据的随机森林的快速实现。
[52] Xie,Kou,S.和Brown,L.D.(2012)。异方差层次模型的SURE估计。美国统计协会杂志107,1465-1479·Zbl 1284.62450号
[53] Xie,Kou,S.C.和Brown,L.(2016)。二次方差分布族中平均参数的最优收缩估计。《统计年鉴》44,564-597·Zbl 1347.60017号
[54] Zaykin,D.V.和Kozbur,D.O.(2010年)。全基因组关联研究中基于P值的共享控制设计分析。遗传流行病学34,725-738。
[55] Zhang,C.-H.(1997)。正态均值的经验贝叶斯和复合估计。中国统计7,181-193·Zbl 0904.62008
[56] 张春华(2003)。复合决策理论和经验贝叶斯方法。《统计年鉴》31,379-390·Zbl 1039.62005号
[57] Zhang,C.-H.(2009)。正态混合密度的广义最大似然估计。《中国统计》第19卷,第1297-1318页·Zbl 1166.62013年
[58] Zhang,X.和Bhattacharya,A.(2017)。经验贝叶斯、确定和稀疏正态均值模型。arXiv预打印arXiv:1702.05195。
[59] Zhao,S.D.(2017)。使用非参数经验贝叶斯分类进行综合遗传风险预测。生物统计学73,582-592·兹比尔1372.62090
[60] Sihai Dave Zhao伊利诺伊大学香槟分校统计系,伊利诺伊州香槟市,邮编61820,美国。电子邮件:sdzhao@illinois.edu(2019年2月收到;2019年11月接受)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。