×

通过保角预测在圆环上聚类。 (英语) Zbl 1498.62229号

摘要:受蛋白质骨架中扭转(二面角)角度分析的启发,我们研究了圆环上双变量角度数据的聚类\([-\pi,\pi)\倍[-\pi,\pi)\)。我们证明了针对向量值数据设计的聚类方法对环面的朴素适应性并不令人满意,并提出了一种基于保角预测框架的新聚类方法。基于核密度估计和二元von Mises混合模型,我们为环形数据构造了几个具有有限样本有效性的预测集。根据二元von Mises混合的高斯近似建立的预测集,我们提出了一种数据驱动的簇数选择,并提出了自动簇识别和簇成员分配的算法。将所提出的预测集和聚类方法应用于从三株冠状病毒棘突糖蛋白(包括SARS-CoV-2,人类传染性)中提取的扭转角。该分析揭示了SARS-CoV-2扭转角簇与两种不同的动物感染冠状病毒株扭转角簇的潜在差异。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H11型 定向数据;空间统计学
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arthur,D.和Vassilvitskii,S.(2007)。k-means++:仔细播种的优点。第十八届ACM-SIAM离散算法年度研讨会论文集1027-1035. 纽约ACM·Zbl 1302.68273号
[2] Berg,J.M.、Tymoczko,J.L.和Stryer,L.(2002)。生物化学第5版,W.H.Freeman&Company,纽约。
[3] Blum,H.(1967年)。一种用于提取新的形状描述符的变换。言语感知模型与视觉形式(W.Wathen-Dunn编辑)362-380。麻省理工学院出版社,剑桥。
[4] Chakraborty,S.和Wong,S.W.(2017年)。BAMBI:用于拟合二元角混合模型的R包。arXiv预打印arXiv:1708.07804。
[5] Chan,J.F.-W.,Yuan,S.,Kok,K.-H.,To,K.K.-W.、Chu,H.、Yang,J.、Xing,F.、Liu,J.,Yip,C.C.-Y.等人(2020年)。与2019年新型冠状病毒相关的肺炎家族簇群表明人对人传播:一项家族簇群研究。柳叶刀395 514-523.
[6] Cheng,Y.(1995)。均值偏移、模式搜索和聚类。IEEE传输。模式分析。马赫。智力。17 790-799.
[7] Di Marzio,M.,Panzera,A.和Taylor,C.(2011)。环面上的核密度估计。J.统计学家。计划。推断141 2156-2173. ·Zbl 1208.62065号 ·doi:10.1016/j.jspi.2011.01.002
[8] Dill,K.A.和MacCallum,J.L.(2012)。蛋白质折叠问题,50年过去了。科学类338 1042-1046.
[9] Eltzner,B.、Huckemann,S.和Mardia,K.V.(2018年)。圆环主成分分析及其在RNA结构中的应用。附录申请。斯达。12 1332-1359. ·Zbl 1405.62173号 ·doi:10.1214/17-AOAS1115
[10] Gao,Y.,Wang,S.,Deng,M.和Xu,J.(2018)。RaptorX角:通过聚类和深度学习的混合方法预测蛋白质骨架二面角的实际值。BMC生物信息。19 100.
[11] 龚,L.,李,J.,周,Q.,徐,Z.,陈,L.、张,Y.,薛,C.,温,Z.和曹,Y.(2017)。2017年,中国猪体内一种新的蝙蝠HKU2-样冠状病毒。应急信息。数字化信息系统。23 1607年。
[12] 国际病毒分类委员会Gorbalenya,A.E.、Baker,S.C.、Baric,R.S.和冠状病毒科研究小组(2020年)。严重急性呼吸综合征相关冠状病毒物种:2019-nCoV分类并命名为SARS-CoV-2。自然微生物。5 536.
[13] Grant,B.J.、Rodrigues,A.P.、ElSawy,K.M.、McCamon,J.A.和Caves,L.S.(2006年)。Bio3d:蛋白质结构比较分析的R包。生物信息学22 2695-2696.
[14] Hartigan,J.A.(1975年)。聚类算法.概率与数理统计中的威利级数纽约威利·Zbl 0372.62040号
[15] Hubert,L.和Arabie,P.(1985)。比较分区。J.分类2 193-218. ·Zbl 0587.62128号
[16] Jung,S.、Park,K.和Kim,B.(2021年)。补充“通过保角预测在环面上聚类”https://doi.org/10.1214/21-AOAS1459SUPA网站, https://doi.org/10.1214/21-AOAS1459SUPPB
[17] Kaufman,L.和Rousseeuw,P.J.(2009)。在数据中查找组:聚类分析导论344.约翰·威利父子公司·Zbl 1345.62009号 ·doi:10.1002/9780470316801
[18] Kountouris,P.和Hirst,J.D.(2009年)。使用支持向量机预测骨架二面角和蛋白质二级结构。BMC生物信息。10 437. ·doi:10.1186/1471-2105-10-437
[19] Lei,J.、Rinaldo,A.和Wasserman,L.(2015)。探索功能数据的保角预测方法。安。数学。Artif公司。智力。74 29-43. ·Zbl 1317.62039号 ·doi:10.1007/s10472-013-9366-6
[20] Lei,J.、Robins,J.和Wasserman,L.(2013年)。无分布预测集。J.Amer。统计师。协会。108 278-287. ·Zbl 06158342号 ·doi:10.1080/01621459.2012.751873
[21] Lei,J.、G'Sell,M.、Rinaldo,A.、Tibshirani,R.J.和Wasserman,L.(2018)。回归的无分布预测推断。J.Amer。统计师。协会。113 1094-1111. ·Zbl 1402.62155号 ·doi:10.1080/01621459.2017.1307116
[22] Lennox,K.P.、Dahl,D.B.、Vannucci,M.和Tsai,J.W.(2009年)。使用双变量von Mises分布和贝叶斯非参数估计蛋白质构象角的密度。J.Amer。统计师。协会。104 586-596. ·Zbl 1388.62325号 ·doi:10.1198/jasa.2009.0024
[23] Lovell,S.C.、Davis,I.W.、Arendall III,W.B.、De Bakker,P.I.、Word,J.M.、Prisant,M.G.、Richardson,J.S.和Richardsson,D.C.(2003)。通过\(Cα\)几何结构验证:\(,ψ\)和\(Cβ\)偏差。蛋白质:结构、功能和生物信息学50 437-450.
[24] Mardia,K.V.和Jupp,P.E.(2000年)。方向统计.概率论与统计学中的威利级数奇切斯特·威利。修订重印方向数据统计作者:Mardia[MR0336854(49#1627)]·Zbl 0935.62065号
[25] Mardia,K.V.、Taylor,C.C.和Subramaniam,G.K.(2007年)。角度数据的蛋白质生物信息学和双变量von Mises分布的混合物。生物计量学63 505-512. ·Zbl 1136.62082号 ·文件编号:10.1111/j.1541-0420.2006.00682.x
[26] Mardia,K.V.、Hughes,G.、Taylor,C.C.和Singh,H.(2008)。多元von Mises分布及其在生物信息学中的应用。加拿大。J.统计。36 99-109. ·Zbl 1143.62031号 ·doi:10.1002/cjs.5550360110
[27] Mardia,K.V.、Kent,J.T.、Zhang,C.C.泰勒和Hamelryck,T.(2012)。集中多元正弦分布的混合及其在生物信息学中的应用。J.应用。斯达。39 2475-2492. ·兹比尔1514.62248 ·doi:10.1080/02664763.2012.719221
[28] Murtagh,F.和Contreras,P.(2012年)。层次聚类算法:概述。威利公司(Wiley Interdiscip)。版本数据最小知识。发现。2 86-97。
[29] Murtagh,F.和Contreras,P.(2017年)。层次聚类算法:概述,II。威利公司(Wiley Interdiscip)。版本数据最小知识。发现。7 e1219。
[30] Nodehi,A.、Golalizadeh,M.、Maadooliat,M.和Agostinelli,C.(2021)。环面上数据的多元包装模型中的参数估计。计算。统计师。36 193-215. ·Zbl 1505.62297号 ·doi:10.1007/s00180-020-01006-x
[31] Nouretdinov,I.、Gammerman,J.、Fontana,M.和Rehal,D.(2020年)。多级共形聚类:一种用于聚类和异常检测的无分布技术。神经计算397 279-291.
[32] O'Neill,B.(2006年)。初等微分几何第二版,爱思唯尔/学术出版社,阿姆斯特丹·Zbl 1208.53003号
[33] Polonik,W.(1997)。最小体积集和广义分位数过程。随机过程。申请。69 1-24. ·Zbl 0905.62053号 ·doi:10.1016/S0304-4149(97)00028-8
[34] Sargsyan,K.、Wright,J.和Lim,C.(2012年)。GeoPCA:基于主成分测地线的二面角多元分析的新工具。核酸研究。40 e25-e25。
[35] Scrucca,L.、Fop,M.、Murphy,T.B.和Raftery,A.E.(2016)。mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。R J。8 289-317.
[36] Shapovalov,M.、Vucetic,S.和Dunbark Jr.,R.L.(2019年)。从高分辨率蛋白质结构衍生出一种新的β-转角聚类和命名法。公共科学图书馆计算。生物。15 e1006844。
[37] Shin,J.、Rinaldo,A.和Wasserman,L.(2019年)。预测聚类。arXiv预印本arXiv:1903.08125。
[38] Singh,H.、Hnizdo,V.和Demchuk,E.(2002年)。两个相依循环变量的概率模型。生物特征89 719-723. ·Zbl 1037.62003年 ·doi:10.1093/生物技术/89.3719
[39] van der Laan,M.J.、Pollard,K.S.和Bryan,J.(2003)。一种新的基于medoids的分割算法。J.统计计算。模拟。73 575-584. ·Zbl 1054.62075号 ·doi:10.1080/094965031000136012
[40] Vovk,V.、Gammerman,A.和Shafer,G.(2005)。随机世界中的算法学习纽约州施普林格·Zbl 1105.68052号
[41] Walls,A.C.、Park,Y.-J.、Tortorici,M.A.、Wall,A.、McGuire,A.T.和Veesler,D.(2020)。SARS-CoV-2棘突糖蛋白的结构、功能和抗原性。单元格.
[42] Walther,D.和Cohen,F.E.(1999)。Ramachandran地图上的构象吸引子。晶体学报.,第节。D、 生物。结晶器。55 506-517.
[43] Xu,D.和Tian,Y.(2015)。对聚类算法的全面调查。数据科学年鉴2 165-193.
[44] Yu,J.、Qiao,S.、Guo,R.和Wang,X.(2020)。HKU2和SADS-CoV尖峰糖蛋白的冷冻电镜结构为冠状病毒进化提供了见解。国家通讯社。11 1-12
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。