×

利用系统发育多变量概率模型对混合型生物性状之间的相关性进行大规模推断。 (英语) Zbl 1475.62273号

总结:推断生物特征在进化史上的协同变化仍然是一个重要但具有挑战性的问题。除了调整共享历史引起的虚假相关性外,该任务还需要足够的灵活性和计算效率,以便随着数据大小的增加,将多个连续和离散特征合并在一起。为了实现这一点,我们通过假设由分子序列通知的未知树顶端的二元结果维度的潜在参数来联合建模混合型性状。这就产生了一个系统发育的多元probit模型。由于样本量较大,该模型下的后验计算存在问题,因为它需要从高维截断正态分布中重复采样。当前的最佳实践采用了多次拒绝抽样,这种抽样速度慢,计算成本按样本大小二次缩放。我们开发了一种新的推理方法:(1)基于分段确定马尔可夫过程的弹性粒子采样器(BPS)同时对所有截断的法向维数进行采样,以及(2)新的动态规划,它将BPS的似然和梯度评估成本降低到样本大小的线性。在一个含有535个HIV病毒和24个特征的应用中,需要从12840维截断正常值中取样,我们的方法可以估计纵横相关性,并检测影响病原体致病能力的因素。这种推理框架也适用于比较生物学以外的更广泛的协方差结构。

MSC公司:

第62页第10页 统计学在生物学和医学中的应用;元分析
62H20个 关联度量(相关性、典型相关性等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Andrieu,C.和Livingstone,S.(2019年)。马尔可夫链和过程蒙特卡罗的Peskun-Tierney排序:超越可逆场景。预印本。arXiv:1906.06197。
[2] Andrieu,C.和Thoms,J.(2008)。自适应MCMC教程。统计计算。18 343-373. ·doi:10.1007/s11222-008-9110-y
[3] Barbu,C.M.,Hong,A.,Manne,J.M.,Small,D.S.,Calderón,J.E.Q.,Sethuraman,K.,Quispe-Machaca,V.,Ancca-Juárez,J.,del Carpio,J.G.C.等人(2013年)。城市街道对城市病媒的影响。PLoS计算机。生物。9 e1002801。
[4] Bhattacharya,A.和Dunson,D.B.(2011年)。稀疏贝叶斯无限因子模型。生物特征98 291-306. ·Zbl 1215.62025号 ·doi:10.1093/biomet/asr013
[5] Bierkens,J.和Duncan,A.(2017年)。Z字形过程的极限定理。申请中的预付款。普罗巴伯。49 791-825·Zbl 1433.65008号 ·doi:10.1017/apr.2017.22
[6] Bierkens,J.、Bouchard-Cóté,A.、Doucet,A.、Duncan,A.B.、Fearnhead,P.、Lienart,t.、Roberts,G.和Vollmer,S.J.(2018年)。限制域上可伸缩蒙特卡罗的分段确定性马尔可夫过程。统计师。普罗巴伯。莱特。136 148-154. ·Zbl 1463.62215号 ·doi:10.1016/j.spl.2018.02.021
[7] Bouchard-Cóté,A.、Vollmer,S.J.和Doucet,A.(2018年)。弹性粒子采样器:一种不可逆无排斥马尔可夫链蒙特卡罗方法。J.艾默。统计师。协会。113 855-867. ·Zbl 1398.60084号 ·doi:10.1080/01621459.2017.1294075
[8] Chib,S.和Greenberg,E.(1998年)。多元概率模型分析。生物特征85 347-361. ·Zbl 0938.62020号
[9] Clark,J.S.、Nemergut,D.、Seyednasrollah,B.、Turner,P.J.和Zhang,S.(2017)。生物多样性分析的广义联合属性建模:中位零,多元,多种数据。经济。单声道。87 34-56.
[10] Crawford,H.、Prado,J.G.、Leslie,A.、Hué,S.、Honeyborne,I.、Reddy,S.,van der Stok,M.、Mncube,Z.、Brander,C.等人(2007年)。在慢性人类免疫缺陷病毒1型感染中,补偿性突变可部分恢复免疫显性HLA-B*5703限制性Gag表位内的适应度并延迟逃逸突变的逆转。J.维罗尔。81 8346-51. ·doi:10.1128/JVI.00465-07
[11] Cybis,G.B.、Sinsheimer,J.S.、Bedford,T.、Mather,A.E.、Lemey,P.和Suchard,M.A.(2015)。通过多元系统发育潜在责任模型评估表型相关性。Ann.应用。斯达。9 969-991·Zbl 1454.62324号 ·doi:10.1214/15-AOAS821
[12] Datta,A.、Banerjee,S.、Finley,A.O.和Gelfand,A.E.(2016)。大型地质统计数据集的层次最近邻高斯过程模型。J.艾默。统计师。协会。111 800-812. ·doi:10.1080/01621459.2015.1044091
[13] Draenert,R.、Le Gall,S.、Pfafferott,K.J.、Leslie,A.J.、Chetty,P.、Brander,C.、Holmes,E.C.、Chang,S.-C、Feeney,M.E.等人(2004年)。在慢性HIV-1感染中,针对改变抗原处理的免疫选择导致细胞毒性T淋巴细胞逃逸。实验医学学报199 905-915. ·doi:10.1084/jem.20031982
[14] Dunson,D.B.(2000年)。集群混合结果的贝叶斯潜在变量模型。J.R.统计社会服务。B.统计方法。62 355-366. ·doi:10.111/1467-9868.00236
[15] Fedorov,V.、Wu,Y.和Zhang,R.(2012)。具有相关连续和离散反应的最佳剂量确定设计。统计医学。31 217-234. ·doi:10.1002/sim.4388
[16] Felsenstein,J.(1985)。系统发育和比较方法。阿默尔。国家。125 1-15.
[17] Felsenstein,J.(2005)。使用定量遗传阈值模型进行物种间和物种内的推断。菲洛斯。事务处理。R.Soc.伦敦。B、 生物。科学。360 1427-1434.
[18] Felsenstein,J.(2011)。使用阈值模型对离散和连续字符进行比较的方法。阿默尔。国家。179 145-156.
[19] Gelman,A.(2006年)。多级(层次)建模:它能做什么和不能做什么。技术计量学48 432-435. ·doi:10.1198/004017005000000661
[20] Gelman,A.、Rubin,D.B.等人(1992年)。使用多序列的迭代模拟推断。统计师。科学。7 457-472. ·Zbl 1386.65060号
[21] Gelman,A.、Carlin,J.B.、Stern,H.S.、Dunson,D.B.、Vehtari,A.和Rubin,D.B.(2014)。贝叶斯数据分析,第3版。统计科学系列教材CRC出版社,佛罗里达州博卡拉顿·Zbl 1279.62004号
[22] Goulder,P.J.和Walker,B.D.(2012年)。HIV和HLA I类:一种不断发展的关系。免疫37 426-440.
[23] Grafen,A.(1989)。系统发育回归。菲洛斯。事务处理。R.Soc.伦敦。B、 生物。科学。326 119-157.
[24] Heaton,M.J.、Datta,A.、Finley,A.O.等人(2019年)。一个案例研究大型空间数据分析方法之间的竞争。农业杂志。生物与环境。斯达。24 398-425·Zbl 1426.62345号 ·doi:10.1007/s13253-018-00348-w
[25] Hemelaar,J.(2012)。HIV-1大流行的起源和多样性。趋势分子医学。18 182-192. ·doi:10.1016/j.molmed.2011.12.001
[26] Hoffman,M.D.和Gelman,A.(2014)。无转取样器:在哈密顿蒙特卡罗中自适应设置路径长度。J.马赫。学习。物件。15 1593-1623. ·Zbl 1319.60150号
[27] Huang,A.和Wand,M.P.(2013)。协方差矩阵的简单边缘非信息先验分布。贝叶斯分析。8 439-451. ·Zbl 1329.62135号 ·doi:10.1214/13-BA815
[28] Huang,K.-H.G.、Goedhals,D.、Carlson,J.M.、Brockman,M.A.、Mishra,S.、Brumme,Z.L.、Hickling,S.,Tang,C.S.、Miura,T.等人(2011年)。南非艾滋病的进展与病毒突变的恢复和代偿有关。公共科学图书馆6 e19018。
[29] Irvine,K.M.、Rodhouse,T.J.和Keren,I.N.(2016)。用潜在的零增强β分布扩展序数回归。农业杂志。生物与环境。斯达。21 619-640. ·Zbl 1367.62306号 ·doi:10.1007/s13253-016-0265-2
[30] Ives,A.R.和Garland,T.(2010年)。二元因变量的系统发育逻辑回归。系统。生物。59 9-26. ·doi:10.1093/sysbio/syp074
[31] Katzfuss,M.(2017年)。海量空间数据集的多分辨率近似。J.艾默。统计师。协会。112 201-214. ·doi:10.1080/016214592015.1123632
[32] Kingman,J.F.C.(1982年)。融合。随机过程。申请。13 235-248. ·Zbl 0491.60076号 ·doi:10.1016/0304-4149(82)90011-4
[33] Lewandowski,D.、Kurowicka,D.和Joe,H.(2009)。基于藤蔓和扩展洋葱方法生成随机相关矩阵。《多元分析杂志》。100 1989-2001. ·Zbl 1170.62042号 ·doi:10.1016/j.jmva.2009.04.008
[34] Lewis,P.O.(2001)。从离散形态特征数据估计系统发育的似然方法。系统。生物。50 913-925.
[35] Liu,J.S.、Wong,W.H.和Kong,A.(1995年)。不同扫描下吉布斯采样器的协方差结构和收敛速度。J.罗伊。统计师。Soc.序列号。B类57 157-169. ·Zbl 0811.60056号
[36] Martinez-Picado,J.、Prado,J·G、Fry,E.E.、Pfafferott,K.、Leslie,A.、Chetty,S.、Thobakgale,C.、Honeyborne,I.、Crawford,H.等人(2006年)。p24逃逸突变的适应度代价堵住与人类免疫缺陷病毒1型的控制有关。J.维罗尔。80 3617-3623.
[37] Metropolis,N.、Rosenbluth,A.W.、Rosenbruth,M.N.、Teller,A.H.和Teller等人(1953年)。快速计算机器的状态方程计算。化学杂志。物理。21 1087-1092. ·Zbl 1431.65006号
[38] Mrode,R.A.(2014)。动物育种值预测的线性模型.驾驶室。
[39] Murray,J.S.、Dunson,D.B.、Carin,L.和Lucas,J.E.(2013)。混合数据的贝叶斯-高斯copula因子模型。J.艾默。统计师。协会。108 656-665. ·Zbl 06195968号 ·doi:10.1080/01621459.2012.762328
[40] Neal,R.M.(2011)。MCMC使用哈密顿动力学。马尔可夫链蒙特卡罗手册.查普曼和霍尔/CRC Handb。国防部。统计方法113-162. 佛罗里达州博卡拉顿CRC出版社·Zbl 1229.65018号
[41] 野村证券(Nomura,S.)、细野证券(Hosoya,N.)、布鲁姆证券(Brumme,Z.L.)、布罗克曼证券(Brockman,M.A.)、菊池证券(Kikuchi,T.)、柯加证券(Koga,M.)、中村证券(Nakamura,H。在日本疫情期间,Gag-蛋白酶介导的HIV-1复制能力显著下降。J.维罗尔。87 1465-1476.
[42] Pagel,M.(1994年)。系统发育相关进化检测:离散性状比较分析的通用方法。程序。R.Soc.伦敦。,生物科学B。255 37-45.
[43] Payne,R.、Muenchhoff,M.、Mann,J.、Roberts,H.E.、Matthews,P.、Adland,E.、Hempestall,A.、Huang,K.-H.、Brockman,M.等人(2014年)。HLA驱动的HIV适应对HIV高血清流行人群毒力的影响。程序。国家。阿卡德。科学。美国111 E5393-E5400。
[44] Peters,E.A.J.F.和de With,G.(2012年)。一般电位的无排斥蒙特卡罗采样。物理。版本E85 026703.
[45] Pourmohamad,T.和Lee,H.K.H.(2016)。混合型相关响应的多元随机过程模型。贝叶斯分析。11 797-820. ·Zbl 1359.62402号 ·doi:10.1214/15-BA976
[46] Prince,J.L.、Claiborne,D.T.、Carlson,J.M.、Schaefer,M.、Yu,T.、Lahki,S.、Prentice,H.A.、Yue,L.、Vishwanathan,S.A.等人(2012年)。传输的角色堵住CTL多态性定义复制能力和HIV-1早期发病机制。《公共科学图书馆·病理学》。8 e1003041。
[47] Pybus,O.G.,Suchard,M.A.,Lemey,P.,Bernardin,F.J.,Rambaut,A.,Crawford,F.W.,Gray,R.R.,Arinaminpathy,N.,Stramer,S.L.等人(2012年)。统一新兴流行病的空间流行病学和分子进化。程序。国家。阿卡德。科学。美国109 15066-15071.
[48] Rue,H.、Martino,S.和Chopin,N.(2009年)。利用集成嵌套拉普拉斯近似对潜在高斯模型进行近似贝叶斯推断。J.R.统计社会服务。B.统计方法。71 319-392. ·Zbl 1248.62156号 ·doi:10.1111/j.1467-9868.2008.00700.x
[49] Schliep,E.M.和Hoeting,J.A.(2013)。混合离散和连续多变量响应数据的多级潜在高斯过程模型。农业杂志。生物与环境。斯达。18 492-513. ·Zbl 1303.62095号 ·doi:10.1007/s13253-013-0136-z
[50] Song,H.、Pavlicek,J.W.、Cai,F.、Bhattacharya,T.、Li,H.,Iyer,S.S.、Bar,K.J.、Decker,J.M.、Goonetilleke,N.等人(2012年)。免疫逃逸突变对同源传播/创始者基因组背景下HIV-1适应度的影响。逆转录病毒学9 89.
[51] Stan开发团队(2018年)。Stan建模语言用户指南和参考手册,版本2.18.0。
[52] Suchard,M.A.、Weiss,R.E.和Sinsheimer,J.S.(2001年)。连续时间马尔可夫链进化模型的贝叶斯选择。分子生物学。进化。18 1001-1013.
[53] Suchard,M.A.、Lemey,P.、Baele,G.、Ayres,D.L.、Drummond,A.J.和Rambaut,A.(2018)。使用BEAST 1.10.进行贝叶斯系统发育和系统动力学数据整合。病毒进化。2016年4月·doi:10.1093/ve/vey016
[54] Tokuda,T.、Goodrich,B.、Van Mechelen,I.、Gelman,A.和Tuerlinckx,F.(2011年)。可视化协方差矩阵的分布。技术代表,18-18,美国纽约哥伦比亚大学。
[55] Troyer,R.M.、McNevin,J.、Liu,Y.、Zhang,S.C.、Krizan,R.W.、Abraha,A.、Tebit,D.M.、Zhao,H.、Avila,S.等人(2009年)。HIV-1逃逸突变对细胞毒性T淋巴细胞(CTL)反应的可变适应度影响。《公共科学图书馆·病理学》。5 e1000365·doi:10.1371/journal.ppat.1000365
[56] Dong Ho,L.S.和Ané,C.(2014)。高斯和非高斯性状进化模型的线性时间算法。系统。生物。63 397-408.
[57] Vitezica,Z.G.、Varona,L.和Legarra,A.(2013)。关于基因组选择范围内个体的加性和显性方差及协方差。遗传学195 1223-1230.
[58] Wang,H.(2012)。贝叶斯图形套索模型和有效的后验计算。贝叶斯分析。7 867-886. ·Zbl 1330.62041号 ·doi:10.1214/12-BA729
[59] Wright,S.(1934年)。豚鼠近交系手指数变异性分析。遗传学19 506.
[60] Wright,J.K.,Brumme,Z.L.,Carlson,J.M.,Heckerman,D.,Kadie,C.M.,Brumme,C.J.,Wang,B.,Losina,E.,Miura,T.等人(2010年)。HIV-1 C亚型慢性感染中Gag-蛋白酶介导的复制能力:与HLA类型和临床参数的相关性。J.维罗尔。84 10820-10831.
[61] Wright,J.K.、Naidoo,V.L.、Brumme,Z.L.、Prince,J.L.,Claiborne,D.T.、Goulder,P.J.、Brockman,M.A.、Hunter,E.和Ndung'u,T.(2012)。HLA-B*81相关突变对HIV-1的影响堵住病毒复制能力。J.维罗尔。86 3193-3199.
[62] Zhang,Nishimura,A.,Bastide,P.,Ji,X.,Payne,R.P.,Goulder,P.、Lemey,P.和Suchard,M.A.(2021年)。补充“利用系统发育多变量probit模型对混合型生物性状之间相关性的大规模推断”https://doi.org/10网址 ·Zbl 1475.62273号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。