×

在多响应回归中检测热点的全局-局部方法。 (英语) Zbl 1446.62288号

小结:我们处理回归问题中变量选择的建模和推理,其中有许多预测因素和许多响应。我们专注于检测热点,也就是说,与几个反应相关的预测因素。这项任务在统计遗传学中至关重要,因为热点遗传变异通过控制许多基因的表达来塑造基因组的结构,并可能启动疾病终点的决定性功能机制。现有的用于对热点进行建模的分层回归方法有两个局限性:它们对热点的区分对预测因子成为热点的倾向的顶层尺度参数的选择很敏感,并且它们不适应大的预测因子和响应向量,例如,维度为\(10^3\)-\(10^5\)在基因应用中。我们通过引入一个灵活的层次回归框架来解决这些缺点,该框架专门用于检测热点并可扩展到上述维度。我们的建议基于马蹄形收缩先验实现了热点的完全贝叶斯模型。它的全局-局部公式在全局范围内缩小了噪声,因此,在对单个信号鲁棒的同时,适应了遗传分析的高度稀疏性,从而使热点的影响不受干扰。推理是使用快速变分算法和一种新的模拟退火程序进行的,该程序可以有效地探索多峰分布。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62F07型 统计排名和选择程序
62J15型 配对和多重比较;多次测试
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alquier,P.和Ridgway,J.(2017年)。回火后验及其变分近似的集中。预印。可从arXiv:1706.09293获取。
[2] Alquier,P.、Ridgway,J.和Chopin,N.(2016)。关于Gibbs后验函数的变分逼近的性质。J.马赫。学习。第17号决议第239条·Zbl 1437.62129号
[3] Barbieri,M.M.和Berger,J.O.(2004)。最优预测模型选择。安。统计师。32 870-897. ·Zbl 1092.62033号 ·doi:10.1214/009053604000000238
[4] Bardenet,R.、Doucet,A.和Holmes,C.(2014)。向上扩展马尔可夫链蒙特卡罗:一种自适应子采样方法。在国际机器学习会议(ICML)405-413上。
[5] Berger,J.(1980)。多元正态均值的稳健广义Bayes估计和置信域。安。统计师。8 716-761. ·Zbl 0464.62026号 ·doi:10.1214操作系统/11763456068
[6] Bhadra,A.和Mallick,B.K.(2013年)。联合高维贝叶斯变量和协方差选择及其在eQTL分析中的应用。生物统计学69 447-457·Zbl 1274.62722号 ·doi:10.1111/biom.12021
[7] Bhadra,A.、Datta,J.、Polson,N.G.和Willard,B.(2016)。具有全局-局部收缩先验的默认贝叶斯分析。生物特征103 955-969·Zbl 1506.62343号 ·doi:10.1093/biomet/asw041
[8] Bhattacharya,A.和Dunson,D.B.(2010年)。流形上的非参数贝叶斯密度估计及其在平面形状上的应用。生物特征97 851-865·Zbl 1204.62053号 ·doi:10.1093/biomet/asq044
[9] Blei,D.M.、Kucukelbir,A.和McAuliffe,J.D.(2017)。变分推理:统计学家评论。J.Amer。统计师。协会112 859-877。
[10] Bottolo,L.、Petretto,E.、Blankenberg,S.、Cambien,F.、Cook,S.A.、Tiret,L.和Richardson,S.(2011)。表达量性状位点的贝叶斯检测热点。遗传学189 1449-1459。
[11] Brynedal,B.、Choi,J.、Raj,T.、Bjornson,R.、Stranger,B.E.、Neale,B.M.、Voight,B.F.和Cotsapas,C.(2017)。大规模的反式eQTL影响数百个转录物并调节转录共调控模式。Am.J.Hum.遗传学。100 581-591.
[12] Carbonetto,P.和Stephens,M.(2012年)。回归中贝叶斯变量选择的可缩放变分推理及其在遗传关联研究中的准确性。贝叶斯分析。7 73-107. ·Zbl 1330.62089号 ·doi:10.1214/12-BA703
[13] Carvalho,C.M.、Polson,N.G.和Scott,J.G.(2010年)。稀疏信号的马蹄形估计器。生物特征97 465-480·Zbl 1406.62021号 ·doi:10.1093/biomet/asq017
[14] Datta,J.和Ghosh,J.K.(2013)。马蹄形先验贝叶斯风险的渐近性质。贝叶斯分析。8 111-131. ·Zbl 1329.62122号 ·doi:10.1214/13-BA805
[15] Fairfax,B.P.、Makino,S.、Radhakrishnan,J.、Plant,K.、Leslie,S.,Dilthe,A.、Ellis,P.、Langford,C.、Vannberg,F.O.等人(2012年)。原代免疫细胞中基因表达的遗传学鉴定了细胞类型特异性主调节因子和HLA等位基因的作用。自然遗传学。44 502-510之间。
[16] 费尔法克斯,B.P.,亨堡,P.,Makino,S.,纳兰拜,V.,Wong,D.,Lau,E.,Jostins,L.,Plant,K.,Andrews,R.等人(2014)。天生的免疫活性决定了调节性变体对单核细胞基因表达的影响。科学343艺术ID 1246949。
[17] Gelman,A.(2006年)。层次模型中方差参数的先验分布(Browne和Draper的文章评论)。贝叶斯分析。1 515-533. ·Zbl 1331.62139号 ·doi:10.1214/06-BA117A
[18] Gelman,A.、Jakulin,A.、Pittau,M.G.和Su,Y.-S.(2008)。logistic和其他回归模型的弱信息默认先验分布。附录申请。统计2 1360-1383·兹比尔1156.62017 ·doi:10.1214/08-AOAS191
[19] George,E.I.(2000)。变量选择问题。J.Amer。统计师。协会95 1304-1308·Zbl 1018.62050号 ·doi:10.1080/01621459.2000.10474336
[20] Ghosh,P.、Tang,X.、Ghosh,M.和Chakrabarti,A.(2016)。稀疏性下多假设检验中一般收缩先验的Bayes风险的渐近性质。贝叶斯分析。11 753-796. ·Zbl 1359.62309号 ·doi:10.1214/15-BA973
[21] Gilad,Y.、Rifkin,S.A.和Pritchard,J.K.(2008)。揭示基因调控的结构:eQTL研究的前景。趋势Genet。24 408-415.
[22] Gramacy,R.、Samworth,R.和King,R.(2010年)。重要性回火。统计计算。20 1-7.
[23] Guhaniyogi,R.、Qamar,S.和Dunson,D.B.(2018年)。贝叶斯条件密度滤波。计算杂志。图表。统计师。27 657-672. ·Zbl 07498941号
[24] Jia,Z.和Xu,S.(2007)。绘制数量性状基因座的表达丰度。遗传学176 611-623。
[25] Katahira,K.、Watanabe,K.和Okada,M.(2008年)。变分贝叶斯方法的确定性退火变体。物理学杂志。,Conf.序列号。95艺术ID 012015。
[26] Kim,S.、Becker,J.、Bechheim,M.、Kaiser,V.、Noursadeghi,M.和Fricker,N.、Beier,E.、Klaschik,S.和Boor,P.等人(2014年)。描述TLR4激活的人类单核细胞先天免疫反应的遗传基础。国家公社。5艺术ID 5236。
[27] Kirkpatrick,S.、Gelatt,C.D.Jr.和Vecchi,M.P.(1983年)。通过模拟退火进行优化。科学220 671-680·Zbl 1225.90162号 ·doi:10.1126/science.220.4598.671
[28] Lee,M.N.,Ye,C.,Villani,A.-C.,Raj,T.,Li,W.,Eisenhaure,T.M.,Imboywa,S.H.,Chipendo,P.I.,Ran,F.A.等人(2014)。常见的基因变体调节人类树突状细胞中的病原感应反应。科学343艺术ID 1246980。
[29] Lewin,A.、Saadi,H.、Peters,J.E.、Moreno-Moral,A.、Lee,J.C.、Smith,K.G.C.、Petretto,E.、Bottolo,L.和Richardson,S.(2015)。MT-HESS:一种有效的贝叶斯方法,用于OMICS数据集中的同时关联检测,并应用于多组织中的eQTL定位。生物信息学32 523-532。
[30] Li,H.和Pati,D.(2017)。使用收缩先验选择变量。计算。统计师。数据分析。107 107-119. ·Zbl 1466.62135号 ·doi:10.1016/j.csda.2016.10.008
[31] Mackay,T.F.C.、Stone,E.A.和Ayroles,J.F.(2009)。数量性状遗传学:挑战与展望。Nat.Rev.基因。10 565-577.
[32] Mandt,S.、McInerney,J.、Abrol,F.、Ranganath,R.和Blei,D.(2016)。《变量回火》,第19届国际人工智能与统计会议论文集。机器学习研究论文集(PMLR)51 704-712。
[33] Metropolis,N.、Rosenbluth,A.W.、Rosenbruth,M.N.、Teller,A.H.和Teller等人(1953年)。快速计算机器的状态方程计算。化学杂志。物理学。21 1087-1092. ·Zbl 1431.65006号 ·数字对象标识代码:10.1063/1.1699114
[34] Mitchell,T.J.和Beauchamp,J.J.(1988)。线性回归中的贝叶斯变量选择。J.Amer。统计师。协会83 1023-1036·Zbl 0673.62051号 ·doi:10.1080/016214519988.10478694
[35] Neville,S.E.、Ormerod,J.T.和Wand,M.P.(2014)。连续稀疏信号收缩的平均场变分贝叶斯:缺陷和补救措施。电子。《美国联邦法律大全》第8卷第1113-1151页·Zbl 1298.62050号 ·doi:10.1214/14-EJS910
[36] Nica,A.C.和Dermitzakis,E.T.(2013年)。表达数量性状基因座:现在和未来。菲洛斯。事务处理。R.Soc.B 368艺术标识20120362。
[37] O'Brien,S.M.和Dunson,D.B.(2004年)。贝叶斯多元逻辑回归。生物统计学60 739-746·Zbl 1274.62375号 ·doi:10.1111/j.0006-341X.2004.00224.x
[38] Opper,M.和Saad,D.编辑(2001年)。高级平均场方法:理论与实践。神经信息处理系列。麻省理工学院出版社,马萨诸塞州剑桥·Zbl 0994.68172号
[39] Park,J.-H.,Gail,M.H.,Weinberg,C.R.,Carroll,R.J.,Chung,C.C.,Wang,Z.,Chanock,S.J.,Fraumeni,J.F.和Chatterjee,N.(2011年)。常见遗传易感性变异的等位基因频率和效应大小的分布及其相互关系。程序。国家。阿卡德。科学。美国108 18026-18031。
[40] Peterson,C.B.、Bogomolov,M.、Benjamini,Y.和Sabatti,C.(2016)。TreeQTL:eQTL结果的分层错误控制。生物信息学32 2556-2558。
[41] Petretto,E.、Bottolo,L.、Langley,S.R.、Heinig,M.、McDermott-Roe,C.、Sarwar,R.、Pravenec,M.,Hübner,N.、Aitman,T.J.等人(2010年)。使用贝叶斯多组织方法对基因表达的遗传控制的新见解。公共科学图书馆计算。生物制品6 Art.ID e1000737。
[42] Piironen,J.和Vehtari,A.(2017年)。马蹄铁和其他收缩前的稀疏信息和规则化。电子。《美国法律总汇》第11卷第5018-5051页·Zbl 1459.62141号 ·doi:10.1214/17-EJS1337SI
[43] Polson,N.G.和Scott,J.G.(2011年)。全球收缩,局部行动:稀疏贝叶斯正则化和预测。贝叶斯统计9(J.M.Bernardo、M.J.Bayarri、J.O.Berger、A.P.Dawid、D.Heckerman、A.F.M.Smith和M.West编辑)501-538。牛津大学出版社,牛津。
[44] Richardson,S.、Bottolo,L.和Rosenthal,J.S.(2011年)。高维数据稀疏回归分析的贝叶斯模型。贝叶斯统计9(J.M.Bernardo、M.J.Bayarri、J.O.Berger、A.P.Dawid、D.Heckerman、A.F.M.Smith和M.West编辑)539-568。牛津大学出版社,牛津。
[45] Ročková,V.和George,E.I.(2014)。EMVS:贝叶斯变量选择的EM方法。J.Amer。统计师。协会109 828-846·Zbl 1367.62049号 ·doi:10.1080/01621459.2013.869223
[46] Rose,K.、Gurewitz,E.和Fox,G.(1990年)。聚类的确定性退火方法。模式识别。莱特。11 589-594. ·兹比尔0800.68817 ·doi:10.1016/0167-8655(90)90010-Y
[47] Rotival,M.、Zeller,T.、Wild,P.S.、Maouche,S.、Szymczak,S.、Schillert,A.、Castagné,R.、Deiseroth,A.、Proust,C.等人(2011年)。整合全基因组遗传变异和单核细胞表达数据揭示了人类中的转基因基因模块。公共科学图书馆-遗传学。7货号e1002367。
[48] Ruffieux,H.、Davison,A.C.、Hager,J.和Irincheeva,I.(2017年)。多结果遗传关联研究的有效推断。生物统计学18 618-636。
[49] Ruffieux,H.、Davison,A.C.、Hager,J.、Inshaw,J.,Fairfax,B.、Richardson,S.和Bottolo,L.(2020年)。补充“在多响应回归中检测热点的全局-局部方法”。https://doi.org/10.1214/20-AOAS1332SUPA网站, https://doi.org/10.1214/20-AOAS1332SUPB网站
[50] Scott,J.G.和Berger,J.O.(2010年)。变量选择问题中的贝叶斯和经验贝叶斯多重性调整。安。统计师。38 2587-2619. ·Zbl 1200.62020年 ·doi:10.1214/10-AOS792
[51] Shabalin,A.A.(2012)。矩阵eQTL:通过大型矩阵运算进行超快速eQTLs分析。生物信息学28 1353-1358。
[52] Solovieff,N.、Cotsapas,C.、Lee,P.H.、Purcell,S.M.和Smoller,J.W.(2013)。复杂性状的多效性:挑战和策略。Nat.Rev.基因。14 483-495.
[53] 斯特劳德曼,W.E.(1971)。多元正态均值的适当Bayes极小极大估计。安。数学。统计数字42 385-388·Zbl 0222.62006号 ·doi:10.1214/aoms/1177693528
[54] Tak,Y.G.和Farnham,P.J.(2015)。理解GWAS:使用表观基因组学和基因组工程来理解人类基因组非编码区SNP的功能相关性。表观遗传学。染色质8 Art.ID 57。
[55] Ueda,N.和Nakano,R.(1998年)。确定性退火EM算法。神经网络。11 271-282.
[56] van de Wiel,M.A.、Te Beest,D.E.和Münch,M.M.(2019年)。学习很多:基于高维模型预测的经验贝叶斯。扫描。《美国联邦法律大全》第46卷第2-25页·Zbl 1417.62018年 ·doi:10.1111/jos.12335
[57] van der Pas,S.L.、Kleijn,B.J.K.和van der Vaart,A.W.(2014)。马蹄形估计器:近黑色向量周围的后验浓度。电子。《美国联邦法律大全》第8卷第2585-2618页·Zbl 1309.62060号 ·doi:10.1214/14-EJS962
[58] van der Pas,S.L.、Salomond,J.-B.和Schmidt Hieber,J.(2016)。稀疏正态均值问题中的后收缩条件。电子。《美国联邦法律大全》第10卷第976-1000页·兹比尔1343.62012 ·doi:10.1214/16-EJS1130
[59] van der Pas,S.、Szabó,B.和van der Vaart,A.(2017年)。马蹄铁的自适应后收缩率。电子。《美国联邦法律大全》第11卷第3196-3225页·Zbl 1373.62140号 ·doi:10.1214/17-EJS1316
[60] van der Pas,S.、Szabó,B.和van der Vaart,A.(2016)。干草堆里有多少针?马蹄铁的自适应推理和不确定性量化。预印本。可在arXiv:1607.01892购买·Zbl 1384.62155号
[61] Wainwright,M.J.和Jordan,M.I.(2008)。图形模型、指数族和变分推理。已找到。趋势马赫数。学习。1 1-305. ·Zbl 1193.62107号 ·数字对象标识代码:10.1561/220000001
[62] Wang,X.和Dunson,D.B.(2013)。通过Weierstrass采样器并联MCMC。预印。可从arXiv:1312.4605获取。
[63] Ward,L.D.和Kellis,M.(2012年)。解释复杂性状和人类疾病中的非编码遗传变异。自然生物技术。30 1095-1106.
[64] 韦斯特拉,H.-J.,彼得斯,M.J.,埃斯科,T.,雅古托卡尔,H.,舒曼,C.,凯特南,J.,克里斯蒂安森,M.W.,费尔法克斯,B.P.,施拉姆,K.等人(2013)。系统识别反式eQTL作为已知疾病关联的假定驱动因素。自然遗传学。45 1238-1243.
[65] Yang,Y.、Pati,D.和Bhattacharya,A.(2017)。具有统计保证的α-变量推理。预印。可从arXiv:1710.03266获得。
[66] Yao,C.、Joehanes,R.、Johnson,A.D.、Huan,T.、Liu,C.、Freedman,J.E.、Munson,P.J.、Hill,D.E.、Vidal,M.等人(2017年)。与复杂性状相关的基因表达反调节的动态作用。Am.J.Hum.遗传学。100 571-580.
[67] 尹,J·兹比尔1234.62151 ·doi:10.1214/11-AOAS494
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。