×

兹马思-数学第一资源

基于copula的相关观测模式发现算法。(英语) Zbl 1360.62250
本文的主要目的是利用copula函数对依赖于聚类的数据进行研究。copula是一种流行的多变量工具,其在聚类方法中的重要性尚未得到详细的研究。我们提出了一种新的算法(简称CoClust),它可以根据生成过程的多变量结构对相关数据进行聚类,而不需要对边界进行任何假设。此外,该方法不需要选择初始分类,也不需要预先设置聚类数目;实际上,CoClust通过使用基于copula拟合的对数可能性的标准来选择它们。我们在不同依赖场景的模拟数据上测试了我们的方案,并将其与基于模型的聚类技术进行了比较。最后,我们展示了CoClust在乳腺癌患者真实微阵列数据中的应用。

理学硕士:
2005年6月6日 多元概率分布的特征和结构理论;接合部
62小时30分 分类和区分;聚类分析(统计方面)
软件:
共色
PDF格式 BibTeX公司 引用
全文: 内政部
参考文献:
[1] 阿扎里尼,A.和卡皮塔尼奥,A(1999年,“多元偏态正态分布的统计应用”,《皇家统计学会杂志》,B(61),579-602·Zbl 0924.62050
[2] 阿扎里尼,A.和达拉·瓦勒(1996年),“多元偏态正态分布”,生物计量学,83715-726·Zbl 0885.62062
[3] 基鲁比尼,U.,卢西亚诺,E.和维奇亚托,W(2004年),《金融中的Copula方法》,威利金融系列,奇切斯特:约翰·威利;Sons有限公司·Zbl 1163.62081
[4] CHIPMAN,H.和TIBSHIRANI,R(2006年,“混合层次聚类与微阵列数据的应用”,生物统计学,7(2),286–301·Zbl 1169.62368号
[5] DI LASCIO,F.M.L.(2008年),“微阵列数据的依赖结构分析:基于Copula的方法”,博士论文,意大利博洛尼亚大学科学统计部,http://amsdottorato.cib.unibo.it/670/.
[6] 艾森,医学博士,斯佩尔曼,P.T.,布朗,P.O.,和博茨坦,D(1998年,“全基因组表达模式的聚类分析和显示”,《国家科学院学报》,9514863-14868。
[7] FRALEY,C.和RAFTERY,A.E.(1998年),“多少簇?哪种聚类方法?通过基于模型的聚类分析得出答案”,《计算机杂志》,41(8),578–588·Zbl 0920.68038
[8] 弗雷利,C.和拉夫特里,A。E(2000年)。”基于模型的聚类、判别分析和密度估计”,华盛顿大学统计系技术报告·Zbl 1073.62545
[9] 弗里德曼,N.,林尼亚尔,M.,纳克曼,I.和佩尔,D(2000年),“使用贝叶斯网络分析表达数据”,《计算生物学杂志》,7(3),601–620。
[10] GODAMBE,V.P.(1960),“正则极大似然估计的最优性质”,《数理统计年鉴》,31208-1211·Zbl 0118.34301
[11] HEDENFALK,I.,DUGGAN,D.,CHEN,Y.,RADMACHER,M.,BITTNER,M.,SIMON,R.,MELTZER,P.,GUSTERSON,B.,ESTELLER,M.,KALLIONIEMI,O.P.,WILFOND,B.,BORG,A.,DOUGHERTY,E.,KONONEN,J.,BUBENDORF,L.,FEHRLE,W.,PITTALUGA,S.,GRUVBERGER,S.,N.,JOHANNSSON,O.,Olson,H.,和SAUTER,G(2001年),“遗传性乳腺癌的基因表达谱”,《新英格兰医学杂志》,344(8),539-548。
[12] 乔,H(1997年),多元模型和相关概念,统计学和应用概率专著第73卷,伦敦:查普曼;霍尔·Zbl 0990.62517
[13] JOE,H.和XU,J(1996年),“多元模型边缘推理函数的估计方法”,不列颠哥伦比亚大学统计系技术报告。
[14] MADEIRA,S.C.,和OLIVEIRA,A.L.(2004),“生物数据分析的双聚类算法:调查”,IEEE。计算生物学和生物信息学汇刊,1(1),24-45·Zbl 05103330
[15] MAR,J.和MCLACHLAN,G.J.(2003),“基因表达微阵列中基于模型的聚类:对乳腺癌数据的应用”,在第一届亚太生物信息学会议上,信息技术的研究与实践,19,第139-144页。
[16] MOREAU,Y.,DE SMET,F.和THIJS,G(2002年),“微阵列数据的功能性生物信息学:从表达到调控”,发表于《IEEE学报》,90(11),第1722-1743页。
[17] NELSEN,R.B.(2006),《Copulas简介》,纽约:Springer·Zbl 1152.62030
[18] PAN,W.,LIN,J.和LE,C.T.(2002),“微阵列基因表达数据的基于模型的聚类分析”,基因组生物学,3(2),research0009.1–0009.8。
[19] 施维泽,B。还有斯卡拉,A(1983),概率度量空间,纽约:北荷兰。斯卡拉,A(1959年),“划分维度和边际收益基金”,巴黎大学统计研究所出版物,8229-231。
[20] SØRLIE,T.,PEROU,C.,TIBSHIRANI,R.,AAS,T.,GEISLER,S.,JOHNSEN,H.,HASTIE,T.,EISEN,M.,VAN DE RIJN,M.,JEFFREY,S.S.,THORSEN,T.,QUIST,H.,MATESE,J.C.,BROWN,P.O.,BOTSTEIN,D.,EYSTEIN LØNNING,P.,和BØRRESEN-DALE,A。L(2001年,“乳腺癌的基因表达模式与临床意义区分肿瘤亚类”,《美国国家科学院学报》,9810869-10874。
[21] TAVAZOIE,S.,HUGHES,J.D.,CAMPBELL,M.J.,CHO,R.J.,和CHURCH,G.M.(2001),遗传网络结构的系统测定,自然遗传学,22(3),281-285。
[22] 《基于数据的聚类分析》,第7期,《基于数据的数据分析》,2001年,第7期。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。