×

树上Wasserstein距离的最佳估计及其在微生物研究中的应用。 (英语) Zbl 1510.62459号

摘要:加权UniFrac距离是树上读取计数的Wasserstein距离的插件估计值,已被广泛用于衡量微生物组研究中的微生物群落差异。然而,我们的调查表明,这种插件估计器虽然直观且在实践中常用,但存在潜在的偏差。基于这一发现,我们研究了在高维环境下从采样数据中最优估计树上两个分布之间的Wasserstein距离的问题。建立了最小最大收敛速度。为了克服偏差问题,我们引入了一种新的估计器,称为树上的矩屏蔽估计器(MET),通过使用包含树结构的隐式最佳多项式近似。新的估计器具有计算效率,并且被证明是最小最大速率最优的。使用模拟和真实生物数据集进行的数值研究证明了MET的实际优点,包括减少了非活动性克罗恩病患者和正常对照组之间的偏差,并在统计上存在更显著的微生物群差异。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
92B15号机组 普通生物统计学
68单位05 计算机图形;计算几何(数字和算法方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Acharya,J.,《剖面最大似然是估算KL发散的最佳方法》,2018年IEEE信息理论国际研讨会(ISIT),1400-1404(2018)·doi:10.1109/ISIT.2018.8437461
[2] Acharya,J。;Das,H。;奥利茨基,A。;Suresh,A.T.,估计离散分布对称性的统一最大似然方法,机器学习国际会议,11-21(2017)
[3] Acharya,J。;奥利茨基,A。;苏雷什,A.T。;Tyagi,H.,估计雷尼熵的复杂性,1855-1869(2014)·Zbl 1373.62029号 ·doi:10.1137/1.9781611973730.124
[4] 安昌,B。;哈特·T·D。;南卡罗来纳州本德尔。;邱,P。;比约恩森,Z。;Linderman,M。;诺兰,G.P。;Plevritis,S.K.,“使用SPADE对单细胞数据进行可视化和细胞层次推断,自然协议,11264-1279(2016)·doi:10.1038/nprot.2016.066
[5] 阿尔乔夫斯基,M。;钦塔拉,S。;Bottou,L.,“Wasserstein gan”,arXiv预印本arXiv,1701,07875(2017)
[6] 布,Y。;邹,S。;梁,Y。;Veeravalli,V.V.,“KL发散度的估计:最优最小最大速率”,IEEE信息理论汇刊,64,2648-2674(2018)·Zbl 1390.94614号 ·doi:10.1109/TIT.2018.2805844
[7] Cai,T.T。;Low,M.,“检验复合假设、厄米多项式和非光滑泛函的最优估计”,《统计年鉴》,39,1012-1041(2011)·Zbl 1277.62101号 ·doi:10.1214/10-AOS849
[8] 卡拉汉,B.J。;Sankaran,K。;福山,J.A。;P.J.麦克默迪。;Holmes,S.P.,“微生物组数据分析的生物导体工作流程:从原始读取到社区分析”,F1000Research,5(2016)·doi:10.12688/f1000研究.8986.2
[9] Chang,Q。;Luan,Y。;Sun,F.,“方差调整加权UniFrac:基于系统发育的社区比较的强大β多样性测量”,BMC生物信息学,12,118(2011)·doi:10.1186/1471-2105-12-118
[10] 查尔森,E.S。;陈,J。;Custers-Allen,R。;Bittinger,K。;李,H。;辛哈,R。;黄,J。;F.D.布什曼。;Collman,R.G.,“吸烟者上呼吸道的微生物群落紊乱,公共科学图书馆,5,e15216(2010)·doi:10.1371/journal.pone.0015216
[11] 陈,H。;Friedman,J.H.,“一种新的基于图形的多元和目标数据双样本检验,美国统计协会杂志,112397-409(2017)·doi:10.1080/01621459.2016.1147356
[12] Chen,W.S。;Zivanovic,N。;van Dijk,D。;沃尔夫,G。;博登米勒,B。;Krishnaswamy,S.,嵌入单细胞实验可变状态空间以揭示乳腺癌中药物扰动效应的多种结构,bioRxiv(2018)
[13] Daskalakis,C。;迪亚科尼科拉斯,I。;Servedio,R.A.,通过测试学习k模态分布(2012)·兹比尔1421.68091 ·doi:10.1137/1.9781611973099.108
[14] DeSantis,T.Z。;Hugenholtz,P。;拉森,N。;罗哈斯,M。;布罗迪,E.L。;Keller,K。;Huber,T。;Dalevi,D。;胡,P。;Andersen,G.L.,Greengenes,与ARB兼容的嵌合体16S rRNA基因数据库和工作台,应用与环境微生物学,72,5069-5072(2006)·doi:10.1128/AEM.03006-05
[15] Do Ba,K。;Nguyen,H.L。;Nguyen,H.N。;Rubinfeld,R.,“地球移动距离的次线性时间算法,计算系统理论,48,428-442(2011)·Zbl 1209.62001号 ·doi:10.1007/s00224-010-9265-8
[16] 埃文斯,S。;Matsen,F.,“环境序列样本的系统发育Kantorovich-Rubinstein度量,皇家统计学会期刊,B辑,74569-592(2012)·Zbl 1411.62317号 ·文件编号:10.1111/j.1467-9868.2011.01018.x
[17] 费勒,N。;哈马迪,M。;Lauber,C.L。;Knight,R.,“性、惯用手和洗手对手表面细菌多样性的影响,国家科学院学报,17994-17999(2008)·doi:10.1073/pnas.0807920105
[18] 弗里德曼,J.H。;Rafsky,L.C.,“Wald-Wolfowitz和Smirnov双样本检验的多元推广,统计年鉴,697-717(1979)·Zbl 0423.62034号 ·doi:10.1214/aos/1176344722
[19] 福山,J。;P.J.麦克默迪。;Dethlefsen,L。;Relman,D.A。;Holmes,S.,《微生物组研究中结合协变量和丰度的距离方法比较》,太平洋生物计算研讨会。太平洋生物计算研讨会,213-224(2012)
[20] 古拉贾尼,I。;艾哈迈德·F。;阿尔乔夫斯基,M。;杜穆林,V。;科尔维尔,A.C。;Guyon,我。;美国卢克斯堡。;Bengio,S。;瓦拉赫,H。;弗格斯,R。;Vishwanathan,S。;Garnett,R.,《神经信息处理系统的进展》,30,《Wasserstein Gans的改进训练》,5767-5777(2017),Curran Associates,Inc
[21] 韩,Y。;焦,J。;Weissman,T.,“离散分布之间发散的最小最大比率最优估计”,arXiv预印本arXiv,1605,09124(2016)
[22] 韩,Y。;焦,J。;Weissman,T.,局部矩匹配:Wasserstein距离下对称函数估计和分布估计的统一方法,arXiv预印本arXiv,1802,08405(2018)
[23] 杨森,S。;麦克唐纳。;冈萨雷斯,A。;纳瓦斯·莫利纳,J.A。;江,L。;徐,Z。;Winker,K。;卡多·D·M。;Orwoll,E。;马纳里,M。;米拉拉布,S。;Knight,R.,“精确扩增子序列的系统发育定位改善了与临床信息的关联,MS系统,3,e00021-18(2018)·doi:10.1128/mSystems.00021-18
[24] 焦,J。;韩,Y。;Weissman,T.,“L1距离的最小极大估计,IEEE信息理论汇刊,64,6672-6706(2018)·Zbl 1401.94040号 ·doi:10.1109/TIT.2018.2846245
[25] 焦,J。;英国文卡特。;韩,Y。;Weissman,T.,“离散分布函数的最小极大估计,IEEE信息理论汇刊,612835-2885(2015)·Zbl 1359.62104号 ·doi:10.1109/TIT.2015.241245
[26] Kamath,S。;奥利茨基,A。;Pichapati,D。;Suresh,A.T.,《从样本中学习分布》,学习理论会议,1066-1100(2015)
[27] Kantorovitch,L.,“论质量的转移,管理科学,5,1-4(1958)·Zbl 0995.90585号 ·doi:10.1287/mnsc.5.1.1
[28] Klatt,M.、Tameling,C.和Munk,A.(2018),“经验正则化最优运输:统计理论和应用”,arXiv预印本arXiv:1810.09880。
[29] Le Cam,L.,《统计决策理论中的渐近方法》(1986),法国巴黎:施普林格出版社,法国巴黎·Zbl 0605.62002号
[30] Lepski,O。;内米洛夫斯基,A。;Spokoiny,V.,“关于回归函数L r范数的估计,概率论和相关领域,113,221-253(1999)·兹比尔0921.62103 ·doi:10.1007/s004409970006
[31] 刘,Q。;海岭,C.A。;Sheng,Q。;平,J。;Simmons,A.J。;陈,B。;Banerjee,A。;李伟(Li,W.)。;顾,G。;科菲·R·J。;于斯。;Ken,L.S.,“单细胞景观中细胞种群多样性的定量评估,公共科学图书馆生物学,16,e2006687(2018)·doi:10.1371/journal.pbio.2006687
[32] Lozupone,C。;哈马迪,M。;凯利,S。;Knight,R.,“定量和定性β多样性测量导致对微生物群落结构因素、应用和环境微生物学的不同见解,73,1576-1585(2007)·doi:10.1128/AEM.01996-06
[33] Lozupone,C。;Knight,R.,“UniFrac:一种比较微生物群落、应用和环境微生物学的新系统发育方法,71,8228-8235(2005)·doi:10.1128/AEM.71.12.8228-8235.2005年
[34] 毛,Q。;Wang,L。;Tsang,I.W。;Sun,Y.,“基于反向图嵌入的主图和结构学习,IEEE模式分析和机器智能汇刊,39,2227-2241(2017)·doi:10.1109/TPAMI.2016.2635657
[35] 米拉拉布,S。;Nguyen,N。;Warnow,T.,生物计算2012,“SEPP:支持SATé的系统发育定位,247-258(2012),世界科学
[36] Monge,G.,《巴黎科学史》(1781年)
[37] Ni,K。;布列松,X。;Chan,T。;Esedoglu,S.,“使用Wasserstein距离的基于局部直方图的分割”,国际计算机视觉杂志,8497-111(2009)·doi:10.1007/s11263-009-0234-0
[38] 奥尔金,I。;Sobel,M.,“多项式分布和k独立二项分布的可容许和最小极大估计”,《统计年鉴》,284-290(1979)·Zbl 0407.62005年 ·doi:10.1214/aos/1176344613
[39] 奥尔洛娃,D.Y。;Zimmerman,N。;Meehan,S。;Meehan,C。;沃特斯,J。;戈恩,E.E。;Filatenkov,A。;Kolyagin,G.A.(美国佐治亚州科利亚金)。;Gernez,Y。;津田,S。;摩尔,W。;莫斯·R·B。;洛杉矶Herzenberg。;Walther,G.,“地球运动距离(EMD):比较细胞群体中生物标记物表达水平的真正指标,PloS-one,11,e0151859(2016)·doi:10.1371/journal.pone.0151859
[40] Paninski,L.,“熵和互信息的估计,神经计算,151191-1253(2003)·Zbl 1052.62003年 ·doi:10.1162/089976603321780272
[41] Pavlichin,D.S。;焦,J。;Weissman,T.,“近似剖面最大似然”,arXiv预印本arXiv,1712,07177(2017)
[42] Pavoine,S。;杜福尔,A。;Chessel,D.,“从物种间的差异到群落间的差异:双主坐标分析”,《理论生物学杂志》,228523-537(2004)·Zbl 1439.92198号 ·doi:10.1016/j.jtbi.2004.02.014
[43] Schilling,M.F.,“基于最近邻的多元双样本检验”,《美国统计协会杂志》,81,799-806(1986)·Zbl 0612.62081号 ·doi:10.1080/01621459.1986.10478337
[44] 辛格,S。;Póczos,B.,“Wasserstein距离的最小极大分布估计”,arXiv预印本arXiv,1802,08855(2018)
[45] 所罗门,J。;德戈斯,F。;佩雷,G。;库图里,M。;布彻,A。;Nguyen,A。;杜,T。;Guibas,L.,“卷积Wasserstein距离:几何域上的高效最优运输,ACM图形交易(TOG),34,66(2015)·Zbl 1334.68267号 ·数字对象标识代码:10.1145/2766963
[46] Sommerfeld,M。;Munk,A.,“有限空间上经验Wasserstein距离的推断”,《皇家统计学会杂志》,B辑,80,219-238(2018)·Zbl 1380.62121号 ·doi:10.1111/rssb.12236
[47] Tameling,C。;Sommerfeld,M。;Munk,A.,可数度量空间上的经验最优传输:分布极限和统计应用,arXiv预印本arXiv,1707,00973(2017)
[48] Trybula,S.,“同时极小极大估计的一些问题,数理统计年鉴,29245-253(1958)·Zbl 0087.14201号 ·doi:10.1214/aoms/1177706722
[49] Valiant,G。;Valiant,P.,《估计未知:n/log(n)-样本熵和支持度估计量》,《通过新CLT显示最优》,685-694(2011)·Zbl 1288.68186号 ·doi:10.1145/1993636.1993727
[50] Valiant,P。;Valiant,G.,“估计未知:熵和其他特性的改进估计”,摘自《神经信息处理系统的进展》,2157-2165(2013)
[51] 维拉尼,C.,《最佳交通:新旧》,338(2008),斯普林格·弗拉格:斯普林格尔·弗拉格,柏林-海德堡·Zbl 1158.53036号
[52] 韦德,J。;Bach,F.,“Wasserstein距离中经验测度的夏普渐近和有限样本收敛速度”,arXiv预印本arXiv,1707,00087(2017)
[53] Weiss,S。;徐,Z。;佩达达,S。;Amir,A。;Bittinger,K。;冈萨雷斯,A。;Lozupone,C。;Zaneveld,J.R。;Vázquez-Baeza,Y。;A.伯明翰。;Hyde,E.R.,“归一化和微生物差异丰度策略取决于数据特征,微生物学,5,27(2017)·doi:10.1186/s40168-017-0237-y
[54] Wong,R.G。;吴,J.R。;Gloor,G.B.,“扩展UniFrac工具箱,公共科学图书馆,11,e016196(2016)·doi:10.1371/journal.pone.0161196
[55] Wu,Y。;Yang,P.,“通过最佳多项式逼近对大字母表进行熵估计的最小最大速率,IEEE信息理论汇刊,623702-3720(2016)·Zbl 1359.94375号 ·doi:10.1109/TIT.2016.2548468
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。