×

概率\(K\)-表示功能数据中聚类和模体发现的局部对齐。 (英语) 兹标07792045

摘要:我们开发了一种新的方法来局部聚类曲线并发现功能基序,即可能沿曲线和跨曲线重复多次的典型形状,这些形状捕获了重要的局部特征。为了识别这些共享曲线部分,我们的方法利用了功能数据分析(联合聚类和曲线对齐)、生物信息学(通过扩展高相似度种子进行局部对齐)和模糊聚类(如果曲线包含多个典型形状,则属于多个簇)的思想。它可以采用各种不同的测量方法,并在发现过程中引入导数,从而利用形状的复杂方面。我们通过广泛的仿真研究证明了我们的方法的性能,并展示了它如何将其他聚类方法推广到功能数据。最后,我们提供了意大利Covid-19死亡曲线和与诱变相关的Omics数据的实际数据应用。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Altschul,S.F。;Gish,W。;Miller,W。;Myers,E.W。;Lipman,D.J.,“基本局部比对搜索工具”,《分子生物学杂志》,215403-410(1990)·doi:10.1016/S0022-2836(05)80360-2
[2] Bailey,T.L。;威廉姆斯,N。;Misleh,C。;Li,W.W.,“MEME:发现和分析DNA和蛋白质序列模式”,《核酸研究》,34,W369-W373(2006)·doi:10.1093/nar/gkl198
[3] Bezdek,J.C.,《模糊目标函数算法的模式识别》(1981),纽约:斯普林格出版社,纽约·Zbl 0503.68069号
[4] Bezdek,J.C。;埃利希·R。;Full,W.,“FCM:模糊c-均值聚类算法”,计算机与地球科学,191-203年10月(1984)·doi:10.1016/0098-3004(84)90020-7
[5] Boschi,T。;Di Iorio,J。;Testa,L。;克雷莫纳医学硕士。;Chiaromonte,F.,“功能数据分析表征意大利第一次新冠肺炎流行波的形状,科学报告,11(2021)·doi:10.1038/s41598-021-95866-y
[6] 克雷莫纳,硕士。;桑加利,L.M。;Vantini,S。;Dellino,G.I。;佩利奇,P.G。;塞奇,P。;Riva,L.,“峰值形状聚类揭示生物洞察力”,BMC生物信息学,16(2015)·doi:10.1186/s12859-015-0787-6
[7] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,“通过EM算法从不完整数据中获取最大可能性”,《皇家统计学会杂志》,B辑,39,1-38(1977)·Zbl 0364.62022号 ·doi:10.1111/j.2517-6161.1977.tb01600.x
[8] Evans,L.C.,偏微分方程(1998),普罗维登斯,RI:美国数学学会,普罗维登斯,RI·Zbl 0902.35002号
[9] 费拉蒂,F。;Vieu,P.,《非参数函数数据分析:理论与实践》(2006),纽约:Springer出版社,纽约·Zbl 1119.62046号
[10] Floriello,D。;维泰利,V.,“功能数据的稀疏聚类”,《多元分析杂志》,154,1-18(2017)·Zbl 1353.62069号 ·doi:10.1016/j.jmva.2016.10.008
[11] R·弗雷曼。;Gimenez,Y。;Svarc,M.,“功能数据的特征选择”,《多元分析杂志》,146,191-208(2016)·Zbl 1335.62097号 ·doi:10.1016/j.jmva.2015.09.006
[12] 弗里德曼,J.H。;Meulman,J.J.,“属性子集上的聚类对象,皇家统计学会期刊,B辑,66,815-849(2004)·Zbl 1060.62064号 ·文件编号:10.1111/j.1467-9868.2004.02059.x
[13] 哈撒韦,R。;Bezdek,J。;Tucker,W.,“模糊等参聚类算法的改进收敛理论”,《模糊信息分析》,3123-132(1987)
[14] Horváth,L。;Kokoszka,P.,《函数数据推断与应用》,200(2012),纽约:Springer,纽约·Zbl 1279.62017号
[15] 雅克·J。;Preda,C.,“功能数据聚类:一项调查”,《数据分析和分类进展》,8231-255(2014)·Zbl 1414.62018年 ·doi:10.1007/s11634-013-0158-y
[16] Kurupumullage Don,P。;阿南达·G。;奇亚罗蒙特,F。;Makova,K.D.,“基于中性遗传分化状态的人类基因组分割”,《国家科学院学报》,第110期,第14699-14704页(2013年)·doi:10.1073/pnas.1221792110
[17] 林,J。;基奥,E。;Lonardi,S。;Patel,P.,“在时间序列中寻找模式”,第八届ACM SIGKDD知识发现和数据挖掘国际会议(2002年),加拿大艾伯塔省埃德蒙顿
[18] Linardi,M。;Zhu,Y。;Palpanas,T。;Keogh,E.,“矩阵概况X:VALMOD-数据系列中可变长度基元的可扩展发现”,ACM SIGMOD/PODS数据管理/数据库系统原理国际会议(2018),美国德克萨斯州休斯顿
[19] 刘,X。;Yang,M.C.,“函数数据的同时曲线配准和聚类”,计算统计学和数据分析,531361-1376(2009)·Zbl 1452.62993号 ·doi:10.1016/j.csda.2008.11.019
[20] Makova,K.D.,K.博士。;Hardison,R.C.,“染色质组织对基因组突变率变异的影响”,《自然评论遗传学》,16,213-223(2015)·doi:10.1038/nrg3890
[21] Mueen,A。;基奥,E。;朱,Q。;现金,S。;Westover,B.,《时间序列基元的精确发现》,SIAM国际数据挖掘会议(2009年),美国内华达州斯帕克斯·doi:10.1137/1.9781611972795.41
[22] Mugnai,G。;Bilatom,C.,“意大利的新型冠状病毒:从威尼托地区吸取的教训”,《欧洲内科杂志》,77,161-162(2020)·doi:10.1016/j.ejim.2020.05.039
[23] Park,J。;Ahn,J.,“用相位变化聚类多变量功能数据”,《生物统计学》,73,324-333(2017)·Zbl 1366.62238号 ·doi:10.1111/biom.12546
[24] J.O.拉姆齐。;Silverman,B.W.,功能数据分析(2005),纽约:Springer,纽约·Zbl 1079.62006号
[25] Rousseeuw,P.J.,“轮廓:聚类分析解释和验证的图形辅助”,《计算与应用数学杂志》,20,53-65(1987)·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[26] 桑加利,L.M。;塞奇,P。;Vantini,S。;维泰利,V.,“曲线聚类的K-mean对齐”,计算统计与数据分析,541219-1233(2010)·Zbl 1464.62153号 ·doi:10.1016/j.csda.2009.12.008
[27] Tarpey,T。;Kinateder,K.K.,“聚类功能数据”,分类杂志,2093-114(2003)·Zbl 1112.62327号 ·doi:10.1007/s00357-003-0007-3
[28] Vitelli,V.,《联合稀疏聚类和功能数据对齐的新框架》,arXiv,1912.00687(2019)
[29] Witten,D.M。;Tibshirani,R.,“聚类中特征选择的框架”,《美国统计协会杂志》,105,713-726(2010)·Zbl 1392.62194号 ·doi:10.1198/jasa.2010.tm09415
[30] 是的,C.-C.M。;Zhu,Y。;Ulanova,L。;北贝根。;丁,Y。;Dau,H.A。;Zimmerman,Z。;席尔瓦,D.F。;Mueen,A。;Keogh,E.,“时间序列连接、主题、不一致和形状:利用矩阵轮廓的统一视图”,《数据挖掘和知识发现》,32,83-123(2018)·Zbl 1416.62534号 ·doi:10.1007/s10618-017-0519-9
[31] Yeh,C.M.先生。;Zhu,Y。;Ulanova,L。;北贝根。;丁,Y。;Dau,H.A。;席尔瓦,D.F。;Mueen,A。;Keogh,E.,Matrix Profile I:《时间序列的所有配对相似性连接:包含基序、不一致和Shapelet的统一视图》,IEEE第十六届国际数据挖掘会议(2016年),西班牙巴塞罗那
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。