×

非线性黑箱方法中的变量优先级:一项遗传关联案例研究。 (英语) Zbl 1423.62062号

摘要:本文的中心目的是解决非线性和非参数回归中的变量选择问题。受统计遗传学的启发,非线性相互作用特别有趣,我们引入了一种新颖且可解释的方法来总结预测变量的相对重要性。在方法学上,我们开发了“相关性cEntrality”(RATE)度量,以优先考虑候选遗传变异,这些候选遗传变异不仅是次要的,而且其关联性也源于与数据中其他变异的显著共价关系。我们通过贝叶斯-高斯过程回归来说明RATE,但方法创新适用于其他“黑箱”方法。众所周知,非线性模型通常比线性模型表现出更高的预测准确性,特别是对于复杂遗传结构产生的表型。通过详细的模拟和两个实际数据关联映射研究,我们表明应用RATE可以解释这种改进的性能。

MSC公司:

62J02型 一般非线性回归
62页第10页 统计学在生物学和医学中的应用;元分析
60G15年 高斯过程
92D10型 遗传学和表观遗传学
62H20个 关联度量(相关性、典型相关性等)
62G08号 非参数回归和分位数回归
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alaa,A.M.和van der Schaar,M.(2017年)。贝叶斯非参数因果推理:信息率和学习算法。ArXiv:1712.08914提供。
[2] Ankra-Badu,G.A.、Pomp,D.、Shriner,D.、Allison,D.B.和Yi,N.(2009年)。基因对小鼠生长和身体组成的影响:多焦点相互作用。《国际法院判例汇编》第33卷第89-95页。DOI:10.1038/ijo.2008.215。
[3] Barbieri,M.M.和Berger,J.O.(2004)。最优预测模型选择。统计年鉴32 870-897·Zbl 1092.62033号
[4] Brockmann,G.A.、Haley,C.S.、Renne,U.、Knott,S.A.和Schwerin,M.(1998年)。影响体重和脂肪的数量性状基因座来自一个选择用于超高生长的小鼠系。遗传学150 369-381。
[5] Bross,C.D.、Howes,T.R.、Abolhassani Rad,S.、Kljakic,O.和Kohalmi,S.E.(2017年)。拟南芥卤代脱水酶的亚细胞定位表明其具有新颖的非酶作用。《联邦公报》第68卷第1425-1440页。
[6] Carvalho,C.M.、Polson,N.G.和Scott,J.G.(2010年)。稀疏信号的马蹄形估计器。生物特征97 465-480·Zbl 1406.62021号
[7] Carvalho,C.M.和West,M.(2007年)。动态矩阵变量图形模型。贝叶斯分析。2 69-97·Zbl 1331.62040号
[8] Chaudhuri,A.、Kakde,D.、Sadek,C.、Gonzalez,L.和Kong,S.(2017年)。支持向量数据描述中自动选择核带宽的平均值和中值准则。可在arXiv:1708.05106购买。
[9] Chen,X.、McClusky,R.、Chen,J.、Beaven,S.W.、Tontonoz,P.、Arnold,A.P.和Reue,K.(2012)。X染色体的数量导致小鼠肥胖的性别差异。公共科学图书馆Genet.8 e1002709。
[10] Chen,X.、McClusky,R.、Itoh,Y.、Reue,K.和Arnold,A.P.(2013)。X和Y染色体补体影响小鼠的肥胖和代谢。内分泌154 1092-1104。内政部:10.1210/en.2012-2098。
[11] Chipman,H.A.、George,E.I.和McCulloch,R.E.(2010年)。BART:贝叶斯加性回归树。附录申请。统计数据4 266-298·Zbl 1189.62066号
[12] Cotter,A.、Keshet,J.和Srebro,N.(2011年)。高斯核的显式近似。可从arXiv:1109.4603获取。
[13] Cox,K.H.、Bonthuis,P.J.和Rissman,E.F.(2014)。研究性染色体基因和行为的小鼠模型系统:与人类的相关性。前面。神经内分泌35 405-419。DOI:10.1016/j.yfrne.2013.12.004。
[14] Crawford,L.和Zhou,X.(2018)。病例对照研究中的全基因组边缘上位关联作图。生物研究所374983。
[15] Crawford,L.、Zeng,P.、Mukherjee,S.和Zhou,X.(2017)。在数量性状的遗传作图研究中,用边缘上位性检验检测上位性。公共科学图书馆Genet.13 e1006869。
[16] 克劳福德,L.、伍德,K.C.、周,X.和穆克吉,S.(2018)。带变量选择的贝叶斯近似核回归。J.Amer。统计师。协会113 1710-1721·兹比尔1409.62132
[17] Crawford,L.、Flaxman,S.R.、Runcie,D.E.和West,M.(2019年)。补充“非线性黑盒方法中的变量优先顺序:遗传关联案例研究”·Zbl 1423.62062号
[18] Cuevas,J.、Crossa,J.,Montesinos-López,O.A.、BurgueñO,J.和Pérez-Rodríguez,P.以及de Los Campos,G.(2017年)。基因型-环境交互核模型的贝叶斯基因组预测。G3(贝塞斯达)7 41-53。
[19] Demetrashvili,N.、den Heuvel,E.R.V.和Wit,E.C.(2013)。QTL鉴定的概率基因型插补方法和综合加权套索。BMC基因14 125。
[20] de los Campos,G.、Naya,H.、Gianola,D.、Crossa,J.、Legarra,A.、Manfredi,E.、Weigel,K.和Cotes,J.(2009)。用密度分子标记和系谱回归模型预测数量性状。遗传学182 375-385。
[21] de los Campos,G.、Gianola,D.、Rosa,G.J.M.、Weigel,K.A.和Crossa,J.(2010年)。使用再生核Hilbert空间方法进行遗传值的半参数基因组支持预测。遗传学。第92 295-308号决议。
[22] Diament,A.L.和Warden,C.H.(2003)。多个连锁小鼠7号染色体位点影响体脂质量。国际期刊Obes.28 199 EP。
[23] Drineas,P.和Mahoney,M.W.(2005)。关于Nyström逼近Gram矩阵以改进基于核的学习的方法。J.马赫。学习。决议6 2153-2175·Zbl 1222.68186号
[24] Fasshauer,G.和McCourt,M.(2016)。使用MATLAB的基于核的近似方法。新泽西州哈肯萨克,世界科学·兹比尔1318.00001
[25] Gelman,A.、Hwang,J.和Vehtari,A.(2014)。了解贝叶斯模型的预测信息标准。统计计算24 997-1016·Zbl 1332.62090号
[26] Goutis,C.和Robert,C.P.(1998年)。广义线性模型中的模型选择:基于Kullback-Leibler投影的贝叶斯方法。生物特征85 29-37·Zbl 0903.62061号
[27] Gruber,L.和West,M.(2016)。GPU加速了同步图形动态线性模型中的贝叶斯学习和预测。贝叶斯分析11 125-149·Zbl 1359.62367号
[28] Gruber,L.F.和West,M.(2017)。同步图形动态线性模型中的贝叶斯在线变量选择和可扩展多元波动率预测。经济。统计3 3-22。
[29] Guan,Y.和Stephens,M.(2011)。用于全基因组关联研究和其他大规模问题的贝叶斯变量选择回归。附录申请。统计数字5 1780-1815·Zbl 1229.62145号
[30] Hemani,G.、Knott,S.和Haley,C.(2013年)。上位性和缺失遗传力的进化观点。公共科学图书馆Genet.9 e1003295。
[31] Hemani,G.、Shakhbazov,K.、Westra,H.-J.、Esko,T.、Henders,A.K.、McRae,A.F.、Yang,J.、Gibson,G.,Martin,N.G.、Metspalu,A.、Franke,L.、Montgomery,G.W.、Visscher,P.M.和Powell,J.E.(2014)。检测和复制影响人类转录的上位性。自然508 249-253。
[32] Hill,W.G.、Goddard,M.E.和Visscher,P.M.(2008年)。数据和理论表明,复杂性状的遗传方差主要是加性的。《公共科学图书馆·遗传学》4 e1000008。
[33] Horn,T.、Sandmann,T.,Fischer,B.、Axelsson,E.、Huber,W.和Boutros,M.(2011)。通过RNAi合成遗传相互作用分析绘制信号网络。自然方法8 341-346。
[34] Hou,Q.和Bartels,D.(2015)。糖生植物拟南芥和盐生优屈菜醛脱氢酶(ALDH)基因超家族的比较研究。年鉴115 465-479。
[35] Howard,R.、Carriquiry,A.L.和Beavis,W.D.(2014)。具有加性和上位性遗传结构的性状基因组选择的参数和非参数统计方法。G3(贝塞斯达)4 1027-1046。
[36] Jiang,Y.和Reif,J.C.(2015)。基因组选择中上位性的建模。遗传学201 759-768。
[37] Kang,H.M.、Sul,J.H.、Service,S.K.、Zaitlen,N.A.、Kong,S.-y.、Freimer,N.B.、Sabatti,C.和Eskin,E.(2010)。用于解释全基因组关联研究中样本结构的方差分量模型。《自然遗传学》42 348-354。
[38] Kim,S.V.、Mehal,W.Z.、Dong,X.、Heinrich,V.、Pypart,M.、Mellman,I.、Dembo,M.,Mooseker,M.S.、Wu,D.和Flavell,R.A.(2006)。Myo1f对免疫系统中细胞粘附和运动的调节。科学314 136-139。
[39] Kirch,H.-H.、Bartels,D.、Wei,Y.、Schnable,P.S.和Wood,A.J.(2004)。拟南芥ALDH基因超家族。《植物科学趋势》9 371-377。
[40] Kleyn,P.W.,Fan,W.,Kovats,S.G.,Lee,J.J.,Pulido,J.C.,Wu,Y.,Berkemeier,L.R.,Misumi,D.J.,Holmgren,L.等人(1996年)。小鼠肥胖基因tubby的鉴定和表征:一个新基因家族的成员。手机85 281-290。
[41] Kolmogorov,A.N.和Rozanov,Ju。A.(1960年)。平稳高斯过程的强混合条件。理论问题。申请5 222-227·Zbl 0091.30001号
[42] Liang,F.、Paulo,R.、Molina,G.、Clyde,M.A.和Berger,J.O.(2008年)。贝叶斯变量选择的(g)先验混合。J.Amer。统计师。协会103 410-423·Zbl 1335.62026号
[43] Lim,C.和Yu,B.(2016)。具有交叉验证的估计稳定性(ESCV)。J.计算。图表。统计数字25 464-492。
[44] Lin,L.,Chan,C.和West,M.(2016)。混合模型贝叶斯分类中的判别变量子集,在流式细胞术研究中的应用。生物统计17 40-53。
[45] Lippert,C.、Listgarten,J.、Liu,Y.、Kadie,C.M.、Davidson,R.I.和Heckerman,D.(2011)。全基因组关联研究的FaST线性混合模型。自然方法8 833-835。
[46] Loudet,O.、Chaillou,S.、Camilleri,C.、Bouchez,D.和Daniel-Vedele,F.(2002)。Bay-\(0\次\)Shahdara重组自交系群体:拟南芥复杂性状遗传解剖的有力工具。西奥。申请。遗传学104 1173-1184。
[47] Mackay,T.F.C.(2014)。表观和数量性状:利用模式生物研究基因-基因相互作用。Nat.Rev.Genet.15 22-33.《自然评论》。
[48] Mathai,A.M.和Provost,S.B.(1992年)。随机变量中的二次型。理论与应用。统计:教科书和专题论文126。德克尔,纽约·Zbl 0792.62045号
[49] Mercer,J.(1909)。正负型函数及其与积分方程理论的联系。菲洛斯。事务处理。R.Soc.伦敦。序列号。A209 415-446·JFM 40.0408.02号文件
[50] Paigen,B.、Mitchell,D.、Reue,K.、Morrow,A.、Lusis,A.J.和LeBoeuf,R.C.(1987年)。Ath-1是一个决定小鼠动脉粥样硬化易感性和高密度脂蛋白水平的基因。程序。国家。阿卡德。科学。美国84 3763-3767。
[51] Phillips,P.C.(2008)。癫痫——基因相互作用在遗传系统结构和进化中的重要作用。Nat.Rev.Genet.9 855-867。DOI:10.1038/nrg2452。
[52] Piironen,J.和Vehtari,A.(2016)。高斯过程的投影预测模型选择。IEEE信号处理机器学习国际研讨会1-6。IEEE,纽约·兹比尔1505.62321
[53] Piironen,J.和Vehtari,A.(2017年)。贝叶斯预测方法在模型选择中的比较。统计计算27 711-735·兹比尔1505.62321
[54] Pillai,N.S.、Wu,Q.、Liang,F.、Mukherjee,S.和Wolpert,R.L.(2007年)。描述贝叶斯核模型的函数空间。J.马赫。学习。1769-1797年第8号决议·Zbl 1222.62039号
[55] Prabhu,S.和Peer,I.(2012年)。常见复杂疾病中SNP-SNP相互作用的超快速全基因组扫描。基因组研究22 2230-2240。
[56] Purcell,S.、Neale,B.、Todd Brown,K.、Thomas,L.、Ferreira,M.A.R.、Bender,D.、Maller,J.、Sklar,P.、de Bakker,P.I.W.、Daly,M.J.和Sham,P.C.(2007年)。PLINK:用于全基因组关联和基于人群的连锁分析的工具集。Am.J.Hum.遗传学81 559-575。内政部:10.1086/519795。
[57] Rahimi,A.和Recht,B.(2007年)。大型内核机的随机特性。高级神经信息处理。系统3.5。
[58] Rance,K.A.、Hill,W.G.和Keightley,P.D.(1997年)。在小鼠X染色体上定位体重的数量性状基因座。一、倒数F2群体的分析。遗传学。第70 117-124号决议。
[59] Rasmussen,C.E.和Williams,C.K.I.(2006)。机器学习的高斯过程。自适应计算和机器学习。麻省理工学院出版社,马萨诸塞州剑桥·兹比尔1177.68165
[60] Richard,M.D.和Lippmann,R.P.(1991年)。神经网络分类器估计贝叶斯后验概率。神经计算。3 461-483。
[61] Schölkopf,B.、Herbrich,R.和Smola,A.J.(2001)。广义表示定理。计算学习理论(阿姆斯特丹,2001)。计算机科学课堂讲稿2111 416-426。柏林施普林格·Zbl 0992.68088号
[62] Shi,J.Q.,Wang,B.,Will,E.J.和West,R.M.(2012)。混合效应高斯过程函数回归模型及其在剂量-反应曲线预测中的应用。统计医学31 3165-3177。
[63] Smith,A.、Naik,P.A.和Tsai,C.-L.(2006)。使用Kullback-Leibler散度的Markov开关模型选择。计量经济学杂志134 553-577·Zbl 1418.62537号
[64] Stephens,M.和Balding,D.J.(2009年)。遗传关联研究的贝叶斯统计方法。自然版本Genet.10 681-690。
[65] Sudlow,C.、Gallacher,J.、Allen,N.、Beral,V.、Burton,P.、Danesh,J.和Downey,P.,Elliott,P.和Green,J.等人(2015年)。英国生物银行:一种开放获取的资源,用于确定多种中老年复杂疾病的病因。《公共科学图书馆·医学》第12卷第1001779页。
[66] Tan,S.、Caruana,R.、Hooker,G.和Lou,Y.(2017年)。使用透明模型蒸馏检测黑盒模型中的偏差。可从arXiv:1710.06169获取。
[67] 1000基因组项目联盟(2010年)。人群规模测序的人类基因组变异图。自然467 1061-1073。
[68] 威康信托案例控制联盟(2007年)。对7种常见疾病的14000例病例和3000例共享对照进行全基因组关联研究。自然447 661-678。
[69] Valdar,W.、Solberg,L.C.、Gauguier,D.、Burnett,S.、Klenerman,P.、Cookson,W.O.、Taylor,M.S.、Rawlins,J.N.P.、Mott,R.和Flint,J.(2006)。异质种系小鼠复杂性状的全基因组遗传关联。《自然遗传学》38 879-887。
[70] Wahba,G.(1990年)。观测数据的样条模型。CBMS-NSF应用数学区域会议系列59。宾夕法尼亚州费城SIAM·Zbl 0813.62001号
[71] Waldmann,P.、Mészáros,G.、Gredler,B.、Fürst,C.和Sölkner,J.(2013)。全基因组关联研究中套索和弹性网的评估。前面。基因4 270。
[72] 万,X,杨,C,杨,Q,薛,H,樊,X,唐,N.L.和于伟(2010)。BOOST:全基因组病例对照研究中检测基因-基因相互作用的快速方法。Am.J.Hum.遗传学87 325-340。
[73] Wang,X.、Elston,R.C.和Zhu,X.(2011年a)。人类遗传学中的统计交互作用:如果我们正在寻找生物交互作用,我们应该如何建模?Nat.Rev.Genet.12 74。
[74] Wang,X.、Elston,R.C.和Zhu,X.(2011年b)。互动的意义。嗯,这里70 269-277。
[75] Weissbrod,O.、Geiger,D.和Rosset,S.(2016)。复杂表型预测的多核线性混合模型。基因组研究26 969-979。
[76] Wentzell,A.M.、Rowe,H.C.、Hansen,B.G.、Ticconi,C.、Halkier,B.A.和Kliebenstein,D.J.(2007年)。将代谢QTL与控制生物合成途径的网络和顺-eQTL联系起来。《公共科学图书馆·遗传学》第3版第162页。
[77] Woo,J.H.、Shimoni,Y.、Yang,W.S.、Subramaniam,P.、Iyer,A.、Nicoletti,P.,Rodríguez Martínez,M.、López,G.、Mattioli,M.等人(2015)。通过网络摄动分析阐明复合作用机理。牢房162 441-451。
[78] Wood,A.R.、Tuke,M.A.、Nalls,M.A、Hernandez,D.G.、Bandinelli,S.、Singleton,A.B.、Melzer,D.、Ferrucci,L.、Frayling,T.M.和Weedon,M.N.(2014)。明显上位性的另一种解释。自然514 E3-E5。
[79] Wu,M.C.、Lee,S.、Cai,T.、Li,Y.、Boehnke,M.和Lin,X.(2011)。利用序列核关联测试对测序数据进行Rare-variant关联测试。Am.J.Hum.遗传学89 82-93。
[80] Wu,J.、Zhao,Q.、Yang,Q.、Liu,H.、Li,Q.,Yi,X.、Cheng,Y.、Guo,L.、Fan,C.和Zhou,Y.(2016)。比较转录组分析揭示了甘蓝型油菜对核盘病抗性的复杂遗传网络。科学。报告6 19007 EP。
[81] Yalcin,B.、Nicod,J.、Bhomra,A.、Davidson,S.、Cleak,J.、Farinelli,L.、ÖsteråS,M.、Whitley,A.、Yuan,W.等人(2010年)。用于全基因组关联研究的商业化远交小鼠。公共科学图书馆Genet.6 e1001085。
[82] Yandell,B.S.、Mehta,T.、Banerjee,S.、Shriner,D.、Venkataraman,R.、Moon,J.Y.、Neely,W.W.、W.H.、von Smith,R.和Yi,N.(2007年)。R/qtlbim:QTL与实验杂交中的贝叶斯区间作图。生物信息学23 641-643。DOI:10.1093/bioinformatics/btm011。
[83] Yang,J.、Zaitlen,N.A.、Goddard,M.E.、Visscher,P.M.和Price,A.L.(2014)。混合模型关联方法应用中的优点和缺点。《自然遗传学》46 100-106。
[84] Zeng,P.和Zhou,X.(2017)。利用潜在Dirichlet过程回归模型对复杂性状进行非参数遗传预测。国家公社,8 456。
[85] Zhang,Dai,G.和Jordan,M.I.(2011年)。贝叶斯广义核混合模型。J.马赫。学习。第12号决议111-139·Zbl 1280.68221号
[86] Zhang,Y.和Liu,J.S.(2007)。病例对照研究中上位交互作用的贝叶斯推断。《自然遗传学》39 1167-1173。
[87] Zhang,X.、Huang,S.、Zou,F.和Wang,W.(2010)。团队:人类全基因组关联研究中的高效双焦点上位性测试。生物信息学26 i217-227。DOI:10.1093/bioinformatics/btq186。
[88] Zhou,X.(2017)。全基因组关联研究中方差分量估计与汇总统计的统一框架。附录申请。统计11 2027-2051·Zbl 1383.62305号
[89] Zhou,X.和Stephens,M.(2012)。关联研究的全基因组高效混合模型分析。《自然遗传学》第44卷第821-825页。
[90] Zhou,X.和Stephens,M.(2014)。全基因组关联研究的高效多元线性混合模型算法。自然方法11 407-409。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。