×

用二项回归法模拟微生物丰度和失调。 (英语) Zbl 1439.62223号

摘要:使用人口样本估计具有特定类别标签的人口比例是一个广泛重要的问题。在微生物组研究的背景下,当研究人员希望使用微生物种群的样本来估计特定分类单元(称为分类单元的)的种群比例时,就会出现这个问题相对丰度在本文中,我们提出了一个用于此任务的贝塔-二项式模型。与现有模型一样,我们的模型允许分类单元的相对丰度与感兴趣的协变量相关联。然而,与现有模型不同,我们的建议还允许分类单元计数的过度分散与感兴趣的协变量相关联。我们利用该模型不仅对差异相对丰度进行测试,还对差异变异性进行测试。考虑到以下推测,后者特别有价值生物失调在某些疾病条件下,正常微生物群的扰动可能表现为与每个分类单元相关的计数的稳定性丧失或变异性增加。我们通过模拟研究和对土壤微生物数据的应用证明了我们提出的模型的性能。

理学硕士:

62页第10页 统计学在生物学和医学中的应用;元分析
62页第12页 统计在环境和相关主题中的应用
62H20个 关联度量(相关性、规范相关性等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aerts,M.、Molenberghs,G.、Geys,H.和Ryan,L.M.(2002年)。聚类数据建模主题。佛罗里达州博卡拉顿CRC出版社/CRC·兹比尔1084.62513
[2] Aitchison,J.(1986)。成分数据的统计分析。统计学和应用概率专著。CRC出版社,伦敦·Zbl 0688.62004号
[3] Albert,A.和Anderson,J.A.(1984年)。关于逻辑回归模型中最大似然估计的存在性。生物特征71 1-10·Zbl 0543.62020号 ·doi:10.1093/biomet/71.1.1
[4] Bastedo,M.N.和Jaquette,O.(2011年)。运行到位:低收入学生和高等教育分层的动态。教育。评估。政策分析。33 318-339.
[5] Benjamini,Y.和Hochberg,Y.(1995年)。控制错误发现率:一种实用且强大的多重测试方法。J.罗伊。统计师。Soc.系列。乙57 289-300·Zbl 0809.62014号 ·doi:10.1111/j.2517-6161.1995.tb02031.x
[6] Callahan,B.J.、DiGiulio,D.B.、Goltsman,D.S.A.、Sun,C.L.、Costello,E.K.、Jeganathan,P.、Biggio,J.R.、Wong,R.J.、Druzin,M.L.等人(2017)。在两个不同种族的美国女性队列中复制和完善早产的阴道微生物特征。程序。国家。阿卡德。科学。美国114 9966-9971。
[7] Cao,Y.、Zhang,A.和Li,H.(2017)。根据稀疏计数数据估算微生物成分。预印。可从arXiv:1706.02380获取。
[8] Chai,H.、Jiang,H.,Lin,L.和Liu,L.(2018)。微生物组分数据的边缘化两部分Beta回归模型。公共科学图书馆计算。生物学14 e1006329。
[9] Chen,J.和Li,H.(2013)。稀疏Dirichlet多项式回归的变量选择及其在微生物组数据分析中的应用。附录申请。统计数字7 418-442·Zbl 1454.62317号 ·doi:10.1214/12-AOAS592
[10] Chen,E.Z.和Li,H.(2016)。用于分析纵向微生物组分数据的两部分混合效应模型。生物信息学32 2611-2617。
[11] Chen,L.、Reeve,J.、Zhang,L.,Huang,S.、Wang,X.和Chen,J.(2018)。GMPR:一种稳健的零膨胀计数数据归一化方法,应用于微生物组测序数据。同行J 6 e4600。
[12] Dethlefsen,L.和Relman,D.A.(2011年)。人类远端肠道微生物群对反复抗生素干扰的不完全恢复和个体化反应。程序。国家。阿卡德。科学。美国108 4554-4561。
[13] DiGiulio,D.B.、Callahan,B.J.、McMurdie,P.J.、Costello,E.K.、Lyell,D.J.、Robaczewska,A.、Sun,C.L.、Goltsman,D.S.A.、Wong,R.J.等人(2015)。怀孕期间人类微生物群的时间和空间变化。程序。国家。阿卡德。科学。美国112 11060-11065。
[14] Dolzhenko,E.和Smith,A.D.(2014)。在多因素亚硫酸氢钠全基因组测序实验中使用β-二项回归进行高精度差异甲基化分析。BMC生物信息。15 215.
[15] Edgar,R.C.(2013)。UPARSE:微生物扩增子读取的高精度OTU序列。自然方法10 996-998。
[16] Fang,R.、Wagner,B.D.、Harris,J.K.和Fillon,S.A.(2016)。零膨胀负二项混合模型:对食道炎中两种重要微生物的应用。流行病。感染。144 2447-2455.
[17] Faust,K.、Lahti,L.、Gonze,D.、de Vos,W.M.和Raes,J.(2015)。宏基因组学符合时间序列分析:揭示微生物群落动态。货币。操作。微生物。25 56-66.
[18] Fiacco,A.V.和McCormick,G.P.(1968年)。非线性规划:顺序无约束最小化技术。纽约威利·Zbl 0193.18805号
[19] Fletcher,R.(1987年)。《实用优化方法》,第二版,Wiley,Chichester·Zbl 0905.65002号
[20] Gerber,G.K.(2014)。动态微生物组。FEBS信函。588 4131-4139.
[21] Gevers,D.,Kugathasan,S.,Denson,L.A.,Vázquez-Baeza,Y.,Van Treuren,W.,Ren,B.,Schwager,E.,Knights,D.,Song,S.J.等人(2014年)。新发克罗恩病的治疗用微生物组。细胞宿主微生物15 382-392。
[22] Geyer,C.J.(2015)。信任:信任区域优化。R软件包版本0.1-7。
[23] Grice,E.A.(2014)。皮肤微生物组:皮肤疾病新诊断和治疗方法的潜力。塞明。库坦。医学外科33 98。NIH公共访问。
[24] Halfvarson,J.、Brislawn,C.J.、Lamendela,R.、Vázquez-Baeza,Y.、Walters,W.A.、Bramer,L.M.、D'Amato,M.、Bonfiglio,F.、McDonald,D.等人(2017年)。炎症性肠病中人体肠道微生物组的动力学。自然微生物。2 17004.
[25] Heinze,G.(2006)。用分离或近似分离数据进行逻辑回归方法的比较研究。统计医学25 4216-4226。
[26] Heinze,G.和Schemper,M.(2002年)。逻辑回归中分离问题的解决方案。Stat.Med.21 2409-2419。
[27] Hill-Burns,E.M.、Debelius,J.W.、Morton,J.T.、Wissemann,W.T.、Lewis,M.R.、Wallen,Z.D.、Peddada,S.D.、Factor,S.A.、Molho,E.等人(2017)。帕金森病和帕金森病药物具有明显的肠道微生物群特征。压敏电阻。迪索德。32 739-749.
[28] Holmes,I.、Harris,K.和Quince,C.(2012)。Dirichlet多项式混合物:微生物宏基因组学的生成模型。公共科学图书馆ONE 7 e30126。
[29] Hooks,K.B.和O'Malley,M.A.(2017年)。失调及其不满。mBio 8 e01492-17。
[30] Kleinman,J.C.(1973)。具有外来方差的比例:单个和独立样本。J.Amer。统计师。协会68 46-54。
[31] Kosmidis,I.(2018年)。brglm2:广义线性模型中的偏差减少。R包版本0.1.8。
[32] Kurtz,Z.D.、Müller,C.L.、Miraldi,E.R.、Littman,D.R.、Blaser,M.J.和Bonneau,R.A.(2015)。微生物生态网络的稀疏和组成稳健推断。公共科学图书馆计算。生物11 e1004226。
[33] Law,C.W.、Chen,Y.、Shi,W.和Smyth,G.K.(2014)。voom:精确权重解锁用于RNA-seq读取计数的线性模型分析工具。基因组生物学。15 R29。
[34] La Rosa,P.S.、Brooks,J.P.、Deych,E.、Boone,E.L.、Edwards,D.J.、Wang,Q.、Sodergren,E.、Weinstock,G.和Shannon,W.D.(2012)。基于分类的人类微生物组数据的假设检验和功率计算。公共科学图书馆ONE 7 e52078。
[35] Li,Z.,Lee,K.,Karagas,M.R.,Madan,J.C.,Hoen,A.G.,O'Malley,A.J.和Li,H.(2018)。基于微生物相对丰度数据的多元零膨胀逻辑正态模型的条件回归。《生物统计》。10 587-608.
[36] Love,M.I.、Huber,W.和Anders,S.(2014)。利用DESeq2对RNA-seq数据的折叠变化和离散度进行适度估计。基因组生物学。15 550.
[37] Mandal,S.、Van Treuren,W.、White,R.A.、Eggesbo,M.、Knight,R.和Peddada,S.D.(2015)。微生物组分分析:一种研究微生物组分的新方法。微量。经济。健康疾病。26 27663.
[38] Martin,B.D.、Witten,D.和Willis,A.D.(2020a)。补充A“用β-二项回归建模微生物丰度和失调”https://doi.org/10.1214/19-AOAAS1283SUPPA。 ·Zbl 1439.62223号
[39] Martin,B.D.、Witten,D.和Willis,A.D.(2020b)。补充B“用β-二项回归建模微生物丰度和失调”https://doi.org/10.1214/19-AOAAS1283SUPPB。 ·Zbl 1439.62223号
[40] McCullagh,P.和Nelder,J.A.(1989)。广义线性模型。统计学和应用概率专著。CRC出版社,伦敦·Zbl 0744.62098号
[41] McMurdie,P.J.和Holmes,S.(2013)。phyloseq:用于微生物种群普查数据的可重复交互分析和图形的R包。公共科学图书馆ONE 8 e61217。
[42] McMurdie,P.J.和Holmes,S.(2014)。不浪费,不匮乏:为什么稀有的微生物组数据是不可接受的。公共科学图书馆计算。生物10 e1003531。
[43] Mercer,L.D.、Wakefield,J.、Pantazis,A.、Lutambi,A.M.、Masanja,H.和Clark,S.(2015)。复杂调查数据的时空平滑:儿童死亡率的小面积估计。附录申请。《美国联邦法律大全》第9卷第1889-1905页·Zbl 1397.62461号 ·doi:10.1214/15-AOAS872
[44] Morgan,X.C.,Tickle,T.L.,Sokol,H.,Gevers,D.,Devaney,K.L.,Ward,D.V.,Reyes,J.A.,Shah,S.A.,LeLeiko,N.等人(2012年)。炎症性肠病中肠道微生物组的功能失调及其治疗。基因组生物学。13 R79。
[45] Morgan,X.C.,Kabakhiev,B.,Waldron,L.,Tyler,A.D.,Tickle,T.L.,Milgrom,R.,Stempak,J.M.,Gevers,D.,Xavier,R.J.等人(2015年)。炎症性肠病患者盆腔袋中宿主基因表达、粘膜微生物组和临床结局之间的关系。基因组生物学。16 67.
[46] Nocedal,J.和Wright,S.J.(1999)。数值优化。Springer运筹学系列。施普林格,纽约·Zbl 0930.65067号
[47] Parker,I.M.、Saunders,M.、Bontrager,M.,Weitz,A.P.、Hendricks,R.、Magarey,R.,Suiter,K.和Gilbert,G.S.(2015)。系统发育结构和寄主丰度驱动了群落中的疾病压力。《自然》520 542-544。
[48] Paulson,J.N.、Stine,O.C.、Bravo,H.C.和Pop,M.(2013)。微生物标记基因调查的差异丰度分析。自然方法10 1200-1202。
[49] Peng,X.,Li,G.和Liu,Z.(2016)。利用宏基因组数据进行差异丰度分析的零膨胀β回归。J.计算。生物学23 102-110。
[50] Petersen,C.和Round,J.L.(2014)。定义失调及其对宿主免疫和疾病的影响。单元格。微生物。16 1024-1033.
[51] Poussin,C.、Sierro,N.、Boué,S.、Battey,J.、Scotti,E.、Belcastro,V.、Peitsch,M.C.、Ivanov,N.V.和Hoeng,J.(2018年)。询问微生物组:支持研究再现性的实验和计算考虑。药物研发。今天23 1644-1657。
[52] Prentice,R.L.(1986年)。使用扩展的β-二项分布进行二元回归,并讨论由协变量测量误差引起的相关性。J.Amer。统计师。协会81 321-327·Zbl 0608.62086号 ·doi:10.1080/01621459.1986.10478275
[53] 秦,N.,杨,F.,李,A.,Prifti,E.,陈,Y.,邵,L.,Guo,J.,Le Chatelier,E.,姚,J.等人(2014)。肝硬化患者肠道微生物组的变化。自然513 59。
[54] R核心团队(2018年)。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳。
[55] Robinson,M.D.、McCarthy,D.J.和Smyth,G.K.(2010年)。edgeR:用于数字基因表达数据差异表达分析的生物导体包。生物信息学26 139-140。
[56] Robinson,M.D.和Oshlack,A.(2010年)。RNA-seq数据差异表达分析的标度归一化方法。基因组生物学。11 R25。
[57] Ryan,D.M.(1974年)。惩罚和屏障功能。《约束优化的数值方法》(Proc.Sympos,国家物理实验室,Teddington,1974)175-190。
[58] Sankaran,K.和Holmes,S.P.(2017年)。微生物组的潜在变量建模。预印。可从arXiv:1706.04969获取。
[59] Segata,N.、Izard,J.、Waldron,L.、Gevers,D.、Miropolsky,L.,Garrett,W.S.和Huttenhower,C.(2011)。元基因组生物标志物的发现和解释。基因组生物学。12 R60。
[60] Sender,R.、Fuchs,S.和Milo,R.(2016)。对人体内人体和细菌细胞数量的修正估计。《公共科学图书馆·生物》。14 e1002533。
[61] Shi,B.,Chang,M.,Martin,J.,Mitreva,M.、Lux,R.、Klokkevold,P.、Sodergren,E.、Weinstock,G.M.、Haake,S.K.等人(2015年)。龈下微生物群的动态变化及其在牙周炎诊断和预后中的潜力。mBio 6 e01926-14。
[62] Skellam,J.G.(1948年)。通过将成功概率视为试验组之间的变量,从二项式分布导出的概率分布。J.R.统计社会服务。B.统计方法。10 257-261. ·Zbl 0032.41903号 ·doi:10.1111/j.2517-6161.1948.tb00014.x
[63] Sogin,M.L.、Morrison,H.G.、Huber,J.A.、Welch,D.M.、Huse,S.M.、Neal,P.R.、Arrieta,J.M.和Herndl,G.J.(2006)。深海和未开发的“稀有生物圈”中的微生物多样性。国家。阿卡德。科学。美国103 12115-12120。
[64] Sohn,M.B.、Du,R.和An,L.(2015)。用于识别宏基因组样本中差异丰富特征的稳健方法。生物信息学31 2269-2275。
[65] Tamboli,C.P.、Neut,C.、Desreumaux,P.和Colombel,J.F.(2004)。炎症性肠病的代谢障碍。肠道53 1-4。
[66] Tromas,N.、Taranu,Z.E.、Martin,B.D.、Willis,A.、Fortin,N.,Greer,C.W.和Shapiro,B.J.(2018年)。水华蓝藻之间的生态位分离随着遗传距离的增加而增加。微生物。9 438.
[67] Wagner,B.、Riggs,P.和Mikulich Gilbertson,S.(2015)。物质使用数据建模中分配选择的重要性:负二项式、β二项式和零膨胀分布的比较。美国《药物酒精滥用杂志》41 489-497。
[68] Wahba,G.、Wang,Y.、Gu,C.、Klein,R.和Klein(1995)。指数族的平滑样条方差分析,应用于威斯康星州糖尿病视网膜病变流行病学研究。安。统计师。23 1865-1895. ·Zbl 0854.62042号 ·doi:10.1214/aos/1034713638
[69] Welch,J.L.M.、Rossetti,B.J.、Rieken,C.W.、Dewhirst,F.E.和Borisy,G.G.(2016)。微米级人类口腔微生物组的生物地理学。程序。国家。阿卡德。科学。美国113 E791-E800。
[70] White,J.R.、Nagarajan,N.和Pop,M.(2009年)。检测临床宏基因组样本中差异丰富特征的统计方法。公共科学图书馆计算。生物5 e1000352。
[71] Whitman,T.、Pepe-Ranney,C.、Enders,A.、Koechli,C.、Campbell,A.、Buckley,D.H.和Lehmann,J.(2016)。添加热解有机物和新鲜有机物后土壤中微生物群落组成和土壤有机碳矿化的动态。ISME期刊10 2918-2930。
[72] Wickham,H.(2016)。ggplot2:用于数据分析的优雅图形。施普林格,纽约·Zbl 1397.62006年
[73] Williams,D.A.(1975年)。394:分析涉及生殖和致畸性的毒理学实验的二元反应。生物统计学31 949-952·Zbl 0333.62069号 ·doi:10.2307/2529820
[74] Willis,A.D.和Martin,B.D.(2018年)。DivNet:评估网络社区的多样性。生物Rxiv 305045。
[75] Xia,F.、Chen,J.、Fung,W.K.和Li,H.(2013)。微生物组分数据分析的logistic正态多项式回归模型。生物统计学69 1053-1063·兹比尔1288.62171 ·doi:10.1111/biom.12079
[76] Yee,T.W.(2010)。用于分类数据分析的VGAM包。J.统计软件。32 1-34.
[77] Zhang,X.、Mallick,H.、Tang,Z.、Zhang、L.、Cui,X.,Benson,A.K.和Yi,N.(2017)。用于分析微生物数量数据的负二项混合模型。BMC生物信息。18 4.
[78] Zhou,Y.、Shan,G.、Sodergren,E.、Weinstock,G.、Walker,W.A.和Gregory,K.E.(2015)。坏死性小肠结肠炎前早产儿肠道微生物组的纵向分析:一项病例对照研究。公共科学图书馆ONE 10 e0118632。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。