×

拓扑数据分析中环面模式的重要性。 (英语) Zbl 07858759号

摘要:本文讨论了在医学、生物和物理等领域具有多种应用的多元角度或圆形数据中识别模式或密度凹凸的问题。我们将重点放在拓扑数据分析和持久同源性的使用上。具体来说,我们在圆环样本空间中扩展了不确定性量化方法,其中包含循环数据。为了实现这一点,我们使用了两种类型的密度估计量,即von Mises核密度估计量和von Misses混合模型来计算持久同源性,并提出了一种用于搜索密度中显著凹凸的尺度空间视图。凹凸搜索的结果通过比例空间图进行总结和可视化。与传统方法相比,我们使用持久同源性的混合模型的方法具有优势,允许组件的树状图可视化和模式位置的识别。为了测试检测到的模式是否真的存在,我们提出了几种基于bootstrap重采样和浓度不等式的推理工具,建立了它们的理论适用性。SARS-CoV-2棘突糖蛋白扭转角数据的实验结果证明了我们提出的方法在实践中的有效性。
©2023 John Wiley&Sons有限公司。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arthur,D.和Vassilvitskii,S.(2012年)。k‐means:细心播种的优点。第十八届ACM‐SIAM离散算法年会论文集(第396-401页)。工业与应用数学学会。
[2] Carlsson,G.(2009)。拓扑和数据。美国数学学会公报(新系列),46(2),255-308·Zbl 1172.62002号
[3] Chazal,F.、Fasy,B.、Lecci,F.,Michel,B.、Rinaldo,A.和Wasserman,L.(2018年)。稳健的拓扑推理:到测度的距离和核距离。机器学习研究杂志,18(159),1-40·Zbl 1435.62452号
[4] Cohen‐Steiner,D.、Edelsbrunner,H.和Harer,J.(2007)。持久性图的稳定性。离散与计算几何,37(1),103-120·Zbl 1117.54027号
[5] Do Carmo,M.P.(2016)。曲线和曲面的微分几何:多佛出版公司。
[6] Edelsbrunner,H.和Harer,J.(2010)。计算拓扑:美国数学学会·Zbl 1193.55001号
[7] Fasy,B.T.、Lecci,F.、Rinaldo,A.、Wasserman,L.、Balakrishnan,S.和Singh,A.(2014)。持久性图的置信集。《统计年鉴》,42(6),2301-2339·Zbl 1310.62059号
[8] Gilitschenski,I.和Hanebeck,U.D.(2012年)。卡尔曼滤波器故障检测中两个任意维椭球重叠的稳健计算测试。第15届信息融合国际会议,IEEE,第396-401页。
[9] Good,I.J.和Gaskins,R.A.(1980年)。以散射和陨石数据为例,采用惩罚似然法进行密度估计和碰撞搜索。《美国统计协会杂志》,75(369),42-56·Zbl 0432.62024号
[10] Hong,S.和Jung,S..(2022年)。ClusTorus:一个R包,用于通过保角预测在环面上进行预测和聚类。《R杂志》,第14(2)期,186-207年。
[11] Jung,S.、Park,K.和Kim,B.(2021年)。通过保角预测在圆环上聚类。应用统计年鉴,15(4),1583-1603·Zbl 1498.62229号
[12] Kim,J.、Chen,Y.‐C。,Balakrishnan,S.、Rinaldo,A.和Wasserman,L.(2017年)。聚类树的统计推断。arXiv预打印arXiv:1605.06416。
[13] Kosorok,M.R.(2008年)。经验过程和半参数推理导论:Springer·Zbl 1180.62137号
[14] Ley,C.和Verdebout,T.(2017年)。现代方向统计:CRC出版社·Zbl 1448.62005号
[15] Mardia,K.V.、Hughes,G.、Taylor,C.C.和Singh,H.(2008)。多元von Mises分布及其在生物信息学中的应用。加拿大统计杂志,36(1),99-109·兹比尔1143.62031
[16] Mardia,K.V.和Jupp,P.E.(2000年)。定向统计:J.Wiley·Zbl 0935.62065号
[17] Mardia,K.V.、Kent,J.T.、Zhang,C.C.泰勒和Hamelryck,T.(2012)。集中多元正弦分布的混合及其在生物信息学中的应用。应用统计学杂志,39(11),2475-2492·Zbl 1514.62248号
[18] Marron,J.S.和Dryden,I.L.(2021)。面向对象的数据分析:查普曼和霍尔·Zbl 1476.62008年
[19] Munkres,J.R.(2014)。拓扑(第二版):皮尔逊。
[20] Rao,P.B.L.S.(1983年)。非参数函数估计:学术出版社·Zbl 0542.62025号
[21] Shin,J.、Rinaldo,A.和Wasserman,L.(2019年)。预测聚类。arXiv预印本arXiv:1903.08125。
[22] Sommerfeld,M.、Heo,G.、Kim,P.、Rush,S.T.和Marron,J.S.(2017年)。通过拓扑数据分析进行凹凸搜索。统计,6(1),462-471。
[23] Taylor,C.C.(2008)。用于圆形密度估计的自动带宽选择。计算统计与数据分析,52(7),3493-3500·Zbl 1452.62269号
[24] 范德法特,A.W.(1998)。渐近统计:剑桥大学出版社·兹比尔0910.62001
[25] Vershynin,R.(2018)。高维概率:剑桥大学出版社·兹比尔1430.60005
[26] Wagner,H.、Chen,C.和Vuçini,E.(2011年)。立体数据持久同源性的有效计算,数据分析和可视化中的拓扑方法II:理论、算法和应用:Springer Berlin Heidelberg,第91-106页·Zbl 1246.68245号
[27] Walls,A.C.,Park,Y.‐J。,Tortorici,M.A.、Wall,A.、McGuire,A.T.和Veesler,D.(2020年)。SARS‐CoV‐2棘突糖蛋白的结构、功能和抗原性。细胞,183(6),1735。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。