×

热带地区持续同源性的足够统计数据。 (英语) Zbl 1443.62018年

摘要:我们证明了基于热带几何学的欧几里德空间嵌入可以为条形码生成稳定的足够统计信息。在拓扑数据分析中,条形码是代数拓扑特征的多尺度摘要,用于捕获数据的“形状”;然而,在实践中,它们具有复杂的结构,因此很难在统计设置中使用。本文给出的充分性结果允许在条形码的热带几何表示上假设经典概率分布。这使得条形码可以使用各种参数统计推断方法,同时保持其初始解释。更具体地说,我们表明可以假设指数家族分布,并且可以构建持久同源性的似然函数。我们从概念上证明了其充分性,并说明了其在持久同源维0和1中的实用性,以及对人类免疫缺陷病毒和禽流感数据的具体参数应用。

MSC公司:

62B05型 足够的统计数据和字段
62R40型 拓扑数据分析
55N31号 持久同源性及其应用,拓扑数据分析
14T90型 热带几何学的应用
62页第10页 统计学在生物学和医学中的应用;元分析
92天30分 流行病学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] I.Abraham、Y.Bartal和O.Neiman,将度量嵌入到超度量中,并将图嵌入到具有恒定平均失真的生成树中,《第十八届ACM-SIAM离散算法研讨会论文集》,工业和应用数学学会,费城,第502-511页·Zbl 1302.68271号
[2] H.Adams和G.Carlsson,移动传感器网络中的规避路径《国际机器人研究杂志》,34(2015),第90-104页。
[3] H.Adams、T.Emerson、M.Kirby、R.Neville、C.Peterson、P.Shipman、S.Chepushtanova、E.Hanson、F.Motta和L.Ziegelmeier,持久性图像:持久性同源性的稳定向量表示,J.马赫。学习。决议,18(2017),第218-252页,http://dl.acm.org/citation.cfm?id=3122009.3122017。 ·Zbl 1431.68105号
[4] A.Adcock、E.Carlsson和G.Carlsson,持久性条码上的代数函数环,同调同伦应用。,18(2016),第381-402页·Zbl 1420.55017号
[5] A.Adcock、D.Rubin和G.Carlsson,使用匹配度量对肝脏病变进行分类,计算。视觉图像理解,121(2014),第36-42页,http://www.sciencedirect.com/science/article/pii/S1077314213002221。
[6] R.Adler和J.Taylor,光滑随机函数的拓扑复杂性:Ecole d'Eкteкde Probabiliteкs de Saint-Flour XXXIX-\(2009)《数学课堂讲稿》,施普林格,柏林,2011年·Zbl 1230.60001号
[7] R.J.Adler、S.Agami和P.Pranav,CMB非同质性的统计拓扑和证据建模和复制,程序。国家。阿卡德。科学。,(2017), http://www.pnas.org/content/early/2017/10/23/1706885114。 ·Zbl 1407.55004号
[8] S.Anders和W.Huber,序列计数数据的差异表达分析,基因组生物学。,11(2010),R106,https://doi.org/10.1186/gb-2010-11-10-r106。
[9] M.S.Bartlett,充分性和统计检验的性质,程序。罗伊。Soc.伦敦Ser。数学。物理学。科学。,160(1937年),第268-282页·Zbl 0016.41201号
[10] U.Bauer,裂土器, 2015, https://github.com/Ripser/Ripser。
[11] P.Bendich、S.P.Chin、J.Clark、J.Desena、J.Harer、E.Munch、A.Newman、D.Porter、D.Rouse、N.Strawn和A.Watkins,用于跟踪应用程序的拓扑和统计行为分类器,IEEE传输。航空航天电子系统。,52(2016),第2644-2661页,https://doi.org/10.109/TAES.2016.160405。
[12] L.J.Billera、S.P.Holmes和K.Vogtmann,系统发生树空间的几何学,高级申请。数学。,27(2001),第733-767页,http://www.sciencedirect.com/science/article/pii/S0196885801907596。 ·Zbl 0995.92035号
[13] P.比林斯利,概率与测度约翰·威利父子公司,纽约,1979年·Zbl 0411.60001号
[14] A.J.Blumberg、I.Gal、M.A.Mandell和M.Pancia,度量测度空间上持久同源性的稳健统计、假设检验和置信区间,找到。计算。数学。,14(2014),第745-789页·Zbl 1364.55016号
[15] P.Bubenik等人,使用持久性环境的统计拓扑数据分析,J.马赫。学习。第16号决议(2015年),第77-102页·Zbl 1337.68221号
[16] S.Capella-Gutieárrez、J.M.Silla-Martiánez和T.Gabaldoán,trimAl:大规模系统发育分析中自动校准的工具《生物信息学》,25(2009),第1972-1973页,http://dx.doi.org/10.1093/bioinformatics/btp348。
[17] G.卡尔森,点云数据的拓扑模式识别《数字学报》,第23期(2014年),第289-368页·Zbl 1398.68615号
[18] G.Carlsson和S.Kališnik VerovsṸek,对称和(r)对称热带多项式与有理函数J.Pure应用。《代数》,220(2016),第3610-3627页,http://www.sciencedirect.com/science/article/pii/S0022404916300251。 ·Zbl 1375.14211号
[19] M.Carrière、S.Y.Oudot和M.Ovsjanikov,三维形状上点的稳定拓扑特征,《2015年欧洲制图几何处理研讨会论文集》,34(2015),第77-102页。
[20] J.M.Chan、G.Carlsson和R.Rabadaín,病毒进化的拓扑结构,《美国国家科学院院刊》,110(2013),第18566-18571页,http://www.pnas.org/content/110/46/18566.abstract。 ·Zbl 1292.92014年
[21] F.Chazal、B.T.Fasy、F.Lecci、A.Rinaldo和L.Wasserman,持久性景观和轮廓的随机收敛,载于《第三十届计算几何年度研讨会论文集》,SOCG’14,纽约,2014,美国计算机学会,第474:474-474:483页,http://doi.acm.org/10.1145/2582112.2582128。 ·Zbl 1395.62187号
[22] Y.C.Chen、D.Wang、A.Rinaldo和L.Wasserman,持久性强度函数的统计分析,预印本,arXiv,(2015)。
[23] M.K.Chung、P.Bubenik和P.T.Kim,皮层表面数据的持久性图《医学成像信息处理》,J.L.Prince、D.L.Pham和K.J.Myers主编,柏林施普林格出版社,2009年,第386-397页。
[24] D.Cohen Steiner、H.Edelsbrunner和J.Harer,持久性图的稳定性,离散计算。《几何学》,37(2007),第103-120页,https://doi.org/10.1007/s00454-006-1276-5。 ·Zbl 1117.54027号
[25] L.Crawford、A.Monod、A.X.Chen、S.Mukherjee和R.Rabadaán,基于拓扑汇总统计的函数数据分析:平滑欧拉特征变换,预印本,arXiv,(2016)。
[26] L.Crawford、K.C.Wood、X.Zhou和S.Mukherjee,带变量选择的贝叶斯近似核回归,J.Amer。Stat.Assoc.,(2018),第1-12页,https://doi.org/10.1080/01621459.2017.1361830。
[27] C.Curto、V.Itskov、A.Veliz-Cuba和N.Youngs,神经环:分析神经代码内在结构的代数工具,公牛。数学。《生物学》,75(2013),第1571-1611页·Zbl 1311.92043号
[28] G.达莫伊斯,Sur les lois de probability∧s à估计详尽,加拿大皇家科学院。科学。巴黎(法语),200(1935),第1265-1266页·JFM 61.1308.05号
[29] P.迪亚科尼,作为统计对称的充分性,《AMS百年研讨会论文集》,1988年,第15-26页·Zbl 0928.62006号
[30] P.唐纳利和S.塔瓦雷,中立下的联合体与谱系结构,Ann.Rev.遗传学,29(1995),第401-421页,https://doi.org/10.1146/annurev.ge.29.120195.002153。PMID:8825481。
[31] J.Duchi,线性代数的导数与优化,技术报告,加州伯克利,2007,https://web.stanford.edu/jduchi/projects/general_notes.pdf。
[32] H.Edelsbrunner、D.Letscher和A.J.Zomordian,拓扑持久性和简化,离散计算。《几何学》,28(2002),第511-533页·Zbl 1011.68152号
[33] K·埃米特、D·罗森布鲁姆、P·卡马拉和R·拉巴达·n,基于持久图的参数推断:群体遗传学的一个案例研究,预印本,arXiv,(2014)。
[34] B.T.Fasy、F.Lecci、A.Rinaldo、L.Wasserman、S.Balakrishnan和A.Singh,持久性图的置信集《Ann.Stat.》,42(2014),第2301-2339页,https://doi.org/10.1214/14-AOS1252。 ·Zbl 1310.62059号
[35] M.Ferri和C.Landi,用复多项式表示尺寸函数,程序。数学。遇见。模式识别,9(1999),第16-19页。
[36] M.Ferri和I.Stanganelli,黑素细胞病变形态学分析的尺寸函数《生物医学成像杂志》,2010(2010),第5:1-5:5页,https://doi.org/10.1155/2010/621357。
[37] R.A.Fisher,论理论统计学的数学基础,哲学家。事务处理。罗伊。伦敦大学数学系。物理学。工程科学。,222(1922),第309-368页·JFM 48.1280.02型
[38] W.M.Fitch和E.Margoliash,系统发育树的构建《科学》,纽约,155(1967),第279-284页,http://www.jstor.org/stable/1720651。
[39] P.Frosini和C.Landi,尺寸理论作为计算机视觉的拓扑工具,模式识别图像分析。,9(1999),第596-603页。
[40] R.Ghrist,条形码:数据的持久拓扑,公牛。阿默尔。数学。Soc.(N.S.),45(2008),第61-75页,https://doi.org/10.1090/S0273-0979-07-01191-3。 ·兹比尔1391.55005
[41] R.Ghrist和V.de Silva,基于同源性的可控边界传感器网络无坐标覆盖《国际机器人研究杂志》,25(2006),第1205-1222页·Zbl 1202.94174号
[42] C.Giusti、E.Pastalkova、C.Curto和V.Itskov,团拓扑揭示了神经关联的内在几何结构,程序。国家。阿卡德。科学。,112(2015),第13455-13460页,http://www.pnas.org/content/12/44/13455。 ·Zbl 1355.92015年
[43] S.Guindon、J.-F.Dufayard、V.Lefort、M.Anisimova、W.Hordijk和O.Gascuel,估计最大似然系统发育的新算法和方法:评估phyml的性能3.0,系统。《生物学》,59(2010),第307-321页,https://doi.org/10.1093/sysbio/syq010。
[44] P.R.Halmos和L.J.Savage,Radon-Nikodym定理在充分统计理论中的应用,安。数学。Stat.,20(1949),第225-241页,https://doi.org/10.1214/aoms/117730032。 ·兹比尔0034.07502
[45] A.S.Hassan、O.G.Pybus、E.J.Sanders、J.Albert和J.Esbjornsson,基于序列数据定义HIV-1传播簇《艾滋病》,31(2017),第1211-1222页。
[46] A.海彻,代数拓扑《代数拓扑》,剑桥大学出版社,剑桥,2002年·Zbl 1044.55001号
[47] E.Hellinger,Neue Begru¨ndung der Theorye quadraischer Formen von unendlichvielen Vera¨nderlichen。,J.Reine Angew。数学。,136(1909),第210-271页·JFM 40.0393.01号
[48] C.Hofer、R.Kwitt、M.Niethammer和A.Uhl,利用拓扑签名进行深度学习,《神经信息处理系统进展》30,I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett编辑,Curran Associates,2017年,第1634-1644页,http://papers.nips.cc/paper/6761-deep-learning-with-topological-signatures.pdf。
[49] Y.Huang、B.Niu、Y.Gao、L.Fu和W.Li,CD-HIT Suite:用于聚类和比较生物序列的web服务器,生物信息学,26(2010),第680-682页。
[50] S.Hueí、D.Pillay、J.P.Clewley和O.G.Pybus,遗传分析揭示了HIV-1在特定风险群体中传播的复杂结构,程序。国家。阿卡德。科学。,102(2005),第4425-4429页,http://www.pnas.org/content/102/12/4425。
[51] S.Kališnik,持久性条码空间的热带坐标,找到。计算。数学。,(2018),第1-29页。
[52] K.Katoh和D.M.Standley,MAFFT多序列比对软件第7版:性能和可用性的改进《分子生物学》。《进化》,30(2013),第772-780页,https://doi.org/10.1093/molbev/mst010。
[53] M.Kerber、D.Morozov和A.Nigmetov,几何图形有助于比较持久性图《实验算法》,22(2017),第1-20页,https://doi.org/10.1145/3064175。 ·Zbl 1414.68129号
[54] A.M.Kilpatrick、A.A.Chmura、D.W.Gibbons、R.C.Fleischer、P.P.Marra和P.Daszak,预测\(H5 N1)禽流感的全球传播,程序。国家。阿卡德。科学。,103(2006),第19368-19373页,https://doi.org/10.1073/pnas.0609227103。
[55] B.O.Koopman,关于允许充分统计量的分布,事务处理。阿默尔。数学。《社会学杂志》,39(1936),第399-409页·JFM 62.0611.03号
[56] S.Kullback和R.A.Leibler,关于信息和充分性,安。数学。《统计》,22(1951),第79-86页,https://projecteuclid.org:443/euclid.aoms/1177729694。 ·Zbl 0042.38403号
[57] R.Kwitt、S.Huber、M.Niethammer、W.Lin和U.Bauer,统计拓扑数据分析——核心观点《神经信息处理系统进展》28,C.Cortes、N.D.Lawrence、D.D.Lee、M.Sugiyama和R.Garnett编辑,Curran Associates,2015年,第3070-3078页。
[58] L.Le Cam,充分性和近似充分性,安。数学。Stat.,35(1964),第1419-1455页,http://www.jstor.org/stable/2238284。 ·Zbl 0129.11202号
[59] B.Lin、A.Monod和R.Yoshida,系统发生树空间概率统计的热带基础,预印本,arXiv,(2018)。
[60] M.I.Love、J.B.Hogenesch和R.A.Irizarry,RNA-seq片段序列偏差建模减少转录物丰度估计中的系统误差《自然生物技术》,34(2016),第1287-1291页,http://dx.doi.org/10.1038/nbt.3682。
[61] I.Maljkovic Berry、M.C.Melendrez、T.Li、A.W.Hawksworth、G.T.Brice、P.J.Blair、E.S.Halsey、M.Williams、S.Fernandez、I.-K.Yoon、L.D.Edwards、R.Kuschner、X.Lin、S.J.Thomas和R.G.Jarman,H3N2型流感亚型内重组的频率:重组传播的属性和意义《BMC生物学》,14(2016),第117页,https://doi.org/10.1186/s12915-016-0337-3。
[62] N.Marshall、L.Priyamvada、Z.Ende、J.Steel和A.C.Lowen,在没有片段错配的情况下,流感病毒重组发生频率很高《公共科学图书馆·病理学》。,9(2013),e1003421。
[63] Y.Mileyko、S.Mukherjee和J.Harer,持久图空间上的概率测度《反问题》,27(2011),第124007页·Zbl 1247.68310号
[64] J.内曼,Su un teorema concernente le cosiddete statistic充分《Giornale Dell’Instituto Italiano degli Attuari》,第6页(1935年),第320-334页·JFM 61.1310.01号
[65] T.H.Nguyen、V.T.Than、H.D.Thanh、V.-K.Hung、D.T.Nguien和W.Kim,从鹌鹑中分离的H5N1高致病性禽流感病毒的亚型间重新分类《公共科学图书馆·综合》,11(2016),第1-15页,https://doi.org/10.1371/journal.pone.0149608。
[66] N.Otter、M.A.Porter、U.Tillmann、P.Grindrod和H.A.Harrington,计算持久同源性的路线图《EPJ数据科学》,6(2017),第17页,https://doi.org/10.1140/epjds/s13688-017-0109-5。
[67] L.Pachter和B.Sturmfels,计算生物学的代数统计,第13卷,剑桥大学出版社,剑桥,2005年·Zbl 1108.62118号
[68] E.Paradis、J.Claude和K.Strimmer,APE:R语言的系统发育和进化分析《生物信息学》,20(2004),第289-290页,https://doi.org/10.1093/bioinformatics/btg412。
[69] K.Parthasarathy,概率论和数理统计:一系列专著和教科书,《度量空间上的概率测度、概率与数理统计:一系列专著和教科书》,学术出版社,1967年,ii p,https://doi.org/10.1016/B978-1-4832-0022-4.50001-6。 ·Zbl 0153.19101号
[70] J·A·。Patin͂o-Galindo、M.Torres-Puente、M.A.Bracho、I.Alastrueí、A.Juan、D.Navarro、M.J.Galindo、C.Gimeno、E.Ortega和F.Gonzañlez-Candelas,西班牙巴伦西亚男男性接触者中大规模快速扩张的HIV-1 B亚型传播簇的鉴定《公共科学图书馆·综合》,12(2017),e0171062。
[71] J·A·。Patin͂o-Galindo、M.Torres-Puente、M.A.Bracho、I.Alastrueí、A.Juan、D.Navarro、M.J.Galindo、D.Ocete、E.Ortega、C.Gimeno、J.Belda、V.Domiínguez、R.Moreno和F.Gonzaílez-Candelas,西班牙瓦伦西亚社区HIV-1的分子流行病学:传播集群分析《科学报告》,第7期(2017年),第11584页,https://doi.org/10.1038/s41598-017-10286-1。
[72] J.A.Perea和G.Carlsson,基于Klein-Bottle的纹理表示词典《国际计算杂志》。《愿景》,107(2014),第75-97页,https://doi.org/10.1007/s11263-013-0676-2。 ·Zbl 1328.68279号
[73] M.Pe⁄rez-Losada、M.Arenas、J.C.Gala⁄n、F.Palero和F.Gonza⁄lez-Candelas,病毒重组:机制、研究方法和进化后果《感染、遗传学与进化》,30(2015),第296-307页,http://www.sciencedirect.com/science/article/pii/S156713481400478X。
[74] E.J.G.皮特曼,足够的统计数据和固有的准确性,数学。程序。剑桥大学哲学。《社会学杂志》,32(1936),第567-579页·Zbl 0015.36201号
[75] J.Reininghaus、S.Huber、U.Bauer和R.Kwitt,用于拓扑机器学习的稳定多尺度核,《IEEE计算机视觉和模式识别会议论文集》,2015年,第4741-4748页。
[76] A.Robinson和K.Turner,拓扑数据分析的假设检验,J.应用。计算。拓扑,1(2017),第241-261页,https://doi.org/10.1007/s41468-017-0008-7。 ·Zbl 1396.62085号
[77] F.Ronquist、M.Teslenko、P.van der Mark、D.L.Ayres、A.Darling、S.Hoöhna、B.Larget、L.Liu、M.A.Suchard和J.P.Huelsenbeck,MrBayes 3.2:大型模型空间中的高效Bayes系统发育推断和模型选择,系统。生物学,61(2012),第539-542页,https://doi.org/10.1093/sysbio/sys029。
[78] N.Saitou和M.Nei,邻接法:一种重建系统发育树的新方法《分子生物学》。《进化》,4(1987),第406-425页,https://doi.org/10.1093/oxfordjournals.molbev.a040454。
[79] D.L.Swofford,PAUP*:使用简约(和其他方法)进行系统发育分析4.0.b5, 2001.
[80] 威康信托案例控制联盟,对14000例七种常见疾病和3000例共享对照的全基因组关联研究,《自然》杂志,447(2007),第661-6678页,http://dx.doi.org/10.1038/nature05911。
[81] H.Tian、S.Zhou、L.Dong、T.P.Van Boeckel、Y.Cui、S.H.Newman、J.Y.Takekawa、D.J.Prosser、X.Xiao、Y.Wu、B.Cazelles、S.Huang、R.Yang、B.T.Grenfell和B.Xu,亚洲禽流感H5N1病毒和鸟类迁徙网络,程序。国家。阿卡德。科学。,112(2015),第172-177页,http://www.pnas.org/content/12/1/172.abstract。
[82] M.C.Turchin、C.W.Chiang、C.D.Palmer、S.Sankararaman、D.Reich、J.N.Hirschorn和非计量性状(GIANT)联盟G.I,欧洲高度相关SNP站姿变异的广泛选择证据《自然遗传学》,44(2012),1015。
[83] K.Turner、Y.Mileyko、S.Mukherjee和J.Harer,持久性图分布的Frechet均值,离散计算。《几何学》,52(2014),第44-70页·Zbl 1296.68182号
[84] K.Turner、S.Mukherjee和D.M.Boyer,造型形状和曲面的持久同源变换,通知。推断,3(2014),第310-344页·兹伯利06840289
[85] A.W.Van der Vaart,渐近统计,第3卷,剑桥大学出版社,剑桥,2000年。
[86] C.J.Willer、E.K.Speliotes、R.J.Loos、S.Li、C.M.Lindgren、I.M.Heid、S.I.Berndt、A.L.Elliott、A.U.Jackson和C.Lamina,六个与体重指数相关的新基因座强调了神经元对体重调节的影响《自然遗传学》,41(2009),第25页。
[87] M.Worobey、T.D.Watts、R.A.McKay、M.A.Suchard、T.Granade、D.E.Teuwen、B.A.Koblin、W.Heneine、P.Lemey和H.W.Jaffe,20世纪70年代和“患者0”HIV-1基因组揭示了北美早期HIV/AIDS史《自然》,539(2016),第98-101页。
[88] S.Yan和G.Wu,甲型流感病毒聚合酶碱性蛋白2跨种和跨亚型重组的可能原因《蛋白质和肽快报》,18(2011),第434-439页。
[89] J.Yang、T.Ferreira、A.P.Morris、S.E.Medland、P.A.Madden、A.C.Heath、N.G.Martin、G.W.Montgomery、M.N.Weedon和R.J.Loos,GWAS汇总统计的条件和联合多重SNP分析确定了影响复杂性状的其他变体《自然遗传学》,44(2012),第369页。
[90] 杨振中,DNA序列进化的时空过程模型《遗传学》,第139页(1995年),第993-1005页。
[91] A.J.Zomordian和G.Carlsson,计算持久同源性,离散计算。《几何学》,33(2005),第249-274页·Zbl 1069.55003号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。