×

一种基于连接函数的相关观测模式发现算法。 (英语) Zbl 1360.62250号

摘要:本文的主要目的是利用copula函数研究依赖于聚类的数据。Copula是流行的多元工具,其在聚类方法中的重要性尚未详细研究。我们提出了一种新的算法(简称CoClust),该算法允许根据生成过程的多元结构对依赖数据进行聚类,而不需要对边缘进行任何假设。此外,该方法不需要选择起始分类或预先设定聚类数;事实上,CoClust通过使用基于copula拟合的对数似然性的标准来选择它们。我们在不同依赖场景的模拟数据上测试了我们的建议,并将其与基于模型的聚类技术进行了比较。最后,我们展示了CoClust在乳腺癌患者真实微阵列数据中的应用。

MSC公司:

62小时05 多元概率分布的表征与结构理论;连接线
62H30型 分类和区分;聚类分析(统计方面)

软件:

CoClust公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] AZALINI,A.和CAPITANIO,A.(1999),“多元偏正态分布的统计应用”,《皇家统计学会杂志》,B(61),579-602·Zbl 0924.62050号
[2] AZALINI,A.和DALLA VALLE,A.(1996),“多元偏态正态分布”,《生物统计学》,第83期,第715-726页·Zbl 0885.62062号 ·doi:10.1093/生物技术/83.4715
[3] CHERUBINI,U.、LUCIANO,E.和VECCHIATO,W.(2004),《金融中的Copula方法》,威利金融系列,奇切斯特:约翰·威利;儿子有限公司·Zbl 1163.62081号
[4] CHIPMAN,H.和TIBSHIRANI,R.(2006),“混合层次聚类与微阵列数据应用”,生物统计,7(2),286–301·Zbl 1169.62368号 ·doi:10.1093/biostatistics/kxj007
[5] DI LASCIO,F.M.L.(2008),“分析微阵列数据的依赖结构:基于Copula的方法”,博士论文,意大利博洛尼亚大学统计学研究生,http://amsdottorao.cib.unibo.it/670/ .
[6] EISEN,M.B.、SPELLMAN,P.T.、BROWN,P.O.和BOTSTEIN,D.(1998),“基因组的聚类分析和显示——广泛表达模式”,《国家科学院学报》,95,14863–14868·doi:10.1073/pnas.95.25.14863
[7] FRALEY,C.和RAFTERY,A.E.(1998),“多少簇?哪种聚类方法?通过基于模型的聚类分析得出的答案”,《计算机杂志》,41(8),578–588·Zbl 0920.68038号 ·doi:10.1093/comjnl/41.8.578
[8] FRALEY,C.和RAFTERY,A.E.(2000)。”基于模型的聚类、判别分析和密度估计”,技术报告,华盛顿大学统计系·Zbl 1073.62545号
[9] FRIEDMAN,N.、LINIAL,M.、NACHMAN,I.和PE'ER,D.(2000),“使用贝叶斯网络分析表达式数据”,计算生物学杂志,7(3),601-620·doi:10.1089/106652700750050961
[10] GODAMBE,V.P.(1960),“正则最大似然估计的最佳性质”,《数理统计年鉴》,第311208–1211页·Zbl 0118.34301号 ·doi:10.1214/aoms/1177705693
[11] HEDENFALK,I.、DUGGAN,D.、CHEN,Y.、RADMACHER,M.、BITTNER,M.,SIMON,R.、MELTZER,P.、GUSTERSON,B.、ESTELLER,M、KALLIONIEMI,O.P.、WILFOND,B.、BORG,A.、DOUGHERTY,E.、KONONEN,J.、BUBENDORF,L.、FEHRLE,W.、PITTALUGA,S.、GRUVBERGER,S.,LOMAN,N.、JOHANNSSON,O.、OLSSON,H.和SAUTER,G.(2001),“遗传性乳腺癌的基因表达谱”,《新英格兰医学杂志》,344(8),539-548·doi:10.1056/NEJM200102223440801
[12] JOE,H.(1997),多元模型和依赖概念,统计学和应用概率专著第73卷,伦敦:查普曼;霍尔·Zbl 0990.62517号
[13] JOE,H.和XU,J.(1996),“多元模型边际推断函数的估计方法”,技术报告,不列颠哥伦比亚大学统计系。
[14] MADEIRA,S.C.和OLIVEIRA,A.L.(2004),“生物数据分析的双聚类算法:综述”,IEEE。计算生物学和生物信息学汇刊,1(1),24-45·doi:10.1109/TCBB.2004.2
[15] MAR,J.和MCLACHLAN,G.J.(2003),“基因表达微阵列中基于模型的聚类:乳腺癌数据的应用”,载于第一届亚太生物信息学会议,信息技术研究与实践,第19期,第139-144页。
[16] MOREAU,Y.、DE SMET,F.和THIJS,G.(2002),“微阵列数据的功能生物信息学:从表达到调控”,《IEEE学报》,90(11),第1722-1743页。
[17] NELSEN,R.B.(2006),《Copulas简介》,纽约:斯普林格出版社·Zbl 1152.62030
[18] PAN,W.、LIN,J.和LE,C.T.(2002),“基于模型的微阵列基因聚类分析-表达数据”,基因组生物学,3(2),研究0009.1–0009.8。
[19] SCHWEIZER,B.和SKLAR,A.(1983),概率度量空间,纽约:北荷兰。SKLAR,A.(1959年),“尺寸和标高划分函数”,巴黎大学统计研究所出版物,第8229–231页。
[20] SØRLIE,T.、PEROU,C.、TIBSHIRANI,R.、AAS,T.,GEISLER,S.、JOHNSEN,H.、HASTIE,T、EISEN,M.、VAN DE RIJN,M..、JEFFREY,S.S.、THORSEN,T.和QUIST,H.,MATESE,J.C.、BRON、P.O.、BOTSTEIN,D.、EYSTEIN LࡶNNING,P.和B \216]RRESEN-DALE,A.L.(2001),“乳腺癌的基因表达模式区分具有临床意义的肿瘤亚类”,美国国家科学院学报,98,10869–10874。
[21] TAVAZOIE,S.、HUGHES,J.D.、CAMPBELL,M.J.、CHO,R.J.和CHURCH,G.M.(2001),《遗传网络结构的系统测定》,《自然遗传学》,22(3),281-285。
[22] YEUNG,K.Y.、FRALEY,C.、MURUA,A.、RAFTERY,A.E.和RUZZO,W.L.(2001),“基因表达数据的基于模型的聚类和数据转换”,生物信息学,17(10),977–987·doi:10.1093/生物信息/17.10.977
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。