×

一种新的聚类方法和最佳簇数预测:具有增强定位的全局最优搜索。 (英语) Zbl 1149.90108号

摘要:对来自DNA微阵列杂交研究的全基因组表达数据进行聚类分析是鉴定生物学相关基因分组的有用工具(DeRisi等人,1997;Weiler等人,1997)。因此,重要的是应用严格而直观的聚类算法来揭示这些基因组关系。在本研究中,我们描述了一种基于广义Benders分解变体的新型聚类算法框架,称为全局最优搜索(Floudas等人,1989年;Floudas 1995年),其中包括一个确定要使用的最佳簇数的过程。该方法包括对数据点进行预聚类,以定义初始聚类数,以及线性规划问题(原问题)和混合整数线性规划问题的迭代解(主问题),这两个问题都是从混合整数非线性规划问题公式导出的。删除放置错误的数据点以形成新的簇,从而确保数据点之间的紧密分组,并增加簇的数量,直到达到最佳数量。我们将所提出的聚类算法应用于以酿酒酵母Ras信号通路为中心的实验DNA微阵列数据,并将结果与一些常用聚类算法获得的结果进行比较。我们的算法在簇内相似度和簇间相异度方面优于这些算法,这通常被认为是聚类的两个关键原则。此外,我们的算法可以预测最佳簇数,并通过基因本体分析预测簇的生物相干性。

MSC公司:

90立方厘米 混合整数编程
90C20个 二次规划
91C20个 社会和行为科学中的集群
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Adams W.P.和Sherali H.D.(1990年)。一类零-一混合整数规划问题的线性化策略。运营商。决议38(2):217–226·兹比尔0724.90046 ·doi:10.1287/opre.38.2.217
[2] Aggarwal A.和Floudas C.A.(1990年)。一般分离序列的合成-非陡峭分离。计算。化学。工程师14:631–653·doi:10.1016/0098-1354(90)87033-L
[3] Beer M.和Tavazoie S.(2004年)。从序列预测基因表达。手机117:185–198·doi:10.1016/S0092-8674(04)00304-6
[4] Bezdek J.C.(1981年)。模糊目标函数算法的模式识别。纽约Plenum出版社·Zbl 0503.68069号
[5] Brooke A.、Kendrick D.和Meeraus A.(1988年)。游戏:用户指南。科学出版社,加利福尼亚州旧金山
[6] Carpenter G.和Grossberg S.(1990年)。ART3:在自组织模式识别体系结构中使用化学发射器进行分层搜索。神经网络3:129–152·doi:10.1016/0893-6080(90)90085-Y
[7] Ciric A.R.和Floudas C.A.(1989年)。换热器网络的改造方法。计算。化学。工程13:703–715·doi:10.1016/0098-1354(89)80008-0
[8] Claverie J.(1999)。鉴别差异和协调基因表达的计算方法。人类分子遗传学。8: 1821–1832 ·doi:10.1093/hmg/8.10.1821
[9] Davis D.L.和Bouldin D.W.(1979)。集群分离措施。IEEE传输。模式分析。机器智能。1(4): 224–227 ·doi:10.1109/TPAMI.1979.4766909
[10] Dempster A.P.、Laird N.M.和Rudin D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。J.罗伊。Stat.Soc.B.39(1):1–38·Zbl 0364.62022号
[11] DeRisi J.L.、Iyer V.R.和Brown P.O.(1997年)。在基因组尺度上探索基因表达的代谢和遗传控制。科学278:680-686·doi:10.1126/science.278.5338.680
[12] Dhillon,I.S.,Guan,Y.:稀疏共现数据的信息理论聚类。第三届IEEE国际数据挖掘会议(ICDM)论文集(2003)
[13] Dunn J.C.(1973)。ISODATA过程的模糊关系及其在检测紧密且分离良好的簇中的使用。J.网络。3: 32–57 ·Zbl 0291.68033号 ·网址:10.1080/01969727308546046
[14] 邓恩J.C.(1974)。良好分离的聚类和最佳模糊划分。J.网络。4: 95–104 ·Zbl 0304.68093号 ·网址:10.1080/01969727408546059
[15] Duran M.A.和Odell P.L.(1974年)。聚类分析:一项调查。纽约施普林格-弗拉格·Zbl 0291.62069号
[16] Eisen M.B.、Spellman P.T.、Brown P.O.和Botstein D.(1998年)。全基因组表达模式的聚类分析和显示。程序。美国国家科学院。科学。美国95(25):14863–14868·doi:10.1073/pnas.95.25.14863
[17] Floudas C.A.、Akrotirianakis I.G.、Caratzoulas S.、Meyer C.A.和Kallrath J.(2005年)。21世纪的全球优化:进展与挑战。计算。化学。工程29:1185–2002·doi:10.1016/j.compchemeng.2005.02.006
[18] Floudas,C.A.确定性全局优化:理论、算法和应用。Kluwer学术出版社(2000)
[19] Floudas,C.A.:非线性和混合集成优化:基础和应用。牛津大学出版社(1995)·Zbl 0886.90106号
[20] Floudas C.A.、Aggarwal A.和Ciric A.R.(1989年)。非凸NLP和MINLP问题的全局最优搜索。公司。化学。工程13(10):1117–1132·doi:10.1016/0098-1354(89)87016-4
[21] Floudas C.A.和Anastasiadis S.H.(1988年)。几种多组分进料和产品的一般蒸馏序列的合成。化学。工程科学。43: 2407–2419 ·doi:10.1016/0009-2509(88)85175-3
[22] Floudas C.A.和Grossmann I.E.(1987年)。流量和温度不确定的柔性换热器网络的合成。计算。化学。工程11:319–336·doi:10.1016/0098-1354(87)85014-7
[23] Geoffrion A.M.(1973)。广义benders分解。J.优化。理论应用。10(4): 237 ·Zbl 0229.90024 ·doi:10.1007/BF00934810
[24] Goodman L.和Kruskal W.(1954年)。交叉验证的关联度量。美国统计协会期刊49:732–764·Zbl 0056.12801号 ·doi:10.2307/2281536
[25] Gower J.C.和Ross G.J.S.(1969年)。最小生成树和单连锁聚类分析。申请。统计数字18:54–64·doi:10.2307/2346439
[26] Halkidi M.、Batistakis Y.和Vazirgiannis M.(2002年)。聚类有效性方法:第1部分。SIGMOD记录31(2):40–45·兹伯利05444294 ·doi:10.1145/565117.565124
[27] Hansen P.和Jaumard B.(1997年)。聚类分析和数学规划。数学。程序。79: 191–215 ·Zbl 0887.90182号
[28] Hartigan J.A.(1975年)。聚类算法。John Wiley&Sons,纽约·Zbl 0372.62040号
[29] Hartigan J.A.和Wong M.A.(1979年)。算法AS 136:K均值聚类算法。申请。Stat.J.Roy。圣C.28:100–108·Zbl 0447.62062号
[30] Herrero J.、Valencia A.和Dopazo J.(2001年)。用于聚类基因表达模式的分层无监督生长神经网络。生物信息学17(2):126–136·doi:10.1093/bioinformatics/17.2.126
[31] Heyer L.J.、Kruglyak S.和Yooseph S.(1999年)。探索表达数据:共表达基因的鉴定和分析。基因组研究9:1106–1115·数字对象标识代码:10.1101/gr.9.11.1106
[32] Hubert L.和Schultz J.(1976年)。二次分配作为一般数据分析策略。Br.J.数学。Stat.Psychol公司。29: 190–241 ·Zbl 0356.92027号
[33] 雅卡德·P(1912)。高山区植物区系的分布。新植物醇。11: 37–50 ·文件编号:10.1111/j.1469-8137.1912.tb05611.x
[34] Jain A.K.、Murty M.N.和Flynn P.J.(1999年)。数据聚类:综述。ACM计算。Surv公司。31(3): 264–323 ·数字对象标识代码:10.1145/331499.331504
[35] Jain A.K.和Dubes R.C.(1988年)。聚类数据的算法。Prentice-Hall Advanced Reference Series公司,新泽西州恩格尔伍德克利夫斯·Zbl 0665.62061号
[36] Johnson,R.E.:根据美国转让定价法规,聚类分析在评估可比性方面的作用。《商业经济学》(2001年4月)
[37] Jung Y.、Park H.、Du D.和Drake B.L.(2003年)。分层聚类中最佳簇数的决策准则。J.Global Optimiz。25: 91–111 ·doi:10.1023/A:1021394316112
[38] Kirkpatrick S.、Gelatt C.D.和Vecchi M.P.(1983年)。通过模拟退火进行优化。科学220(4598):671-680·Zbl 1225.90162号 ·doi:10.1126/science.220.4598.671
[39] Kohonen T.(1984)。自组织和联想记忆。Springer信息科学系列,Springer Verlag,柏林,海德堡,纽约·Zbl 0528.68062号
[40] Kohonen T.(1997)。自组织地图。柏林斯普林格·弗拉格·Zbl 0866.68085号
[41] Kokossis A.C.和Floudas C.A.(1994年)。复杂反应器网络的优化-II。非等温操作。。化学。工程科学49:1037–1051·doi:10.1016/0009-2509(94)80010-3
[42] Leisch,F.、Weingessel,A.、Dimitriadou,E.:二进制值数据的竞争学习。载:Niklasson L.,Bod'en M.,Ziemke T.(编辑)《第八届国际人工神经网络会议论文集》(ICANN 98),第二二卷,,这些一期的后,时间时间的的一则可有为(时间时间中的。Sk“ovde,瑞典,斯普林格(1998)
[43] Likas A.、Vlassis N.和Vebeek J.L.(2003年)。全局K-means聚类算法。模式识别。36: 451–461 ·Zbl 01972075号 ·doi:10.1016/S0031-3203(02)00060-2
[44] Lin X.、Floudas C.、Wang Y.和Broach J.R.(2003)。利用全球基因表达数据对酵母中葡萄糖信号通路进行理论和计算研究。生物技术。比昂。84(7): 864–886 ·doi:10.1002/位10844
[45] Lukashin A.V.和Fuchs R.(2001年)。时间基因表达谱分析:通过模拟退火进行聚类并确定最佳聚类数。生物信息学17(5):405–414·doi:10.1093/bioinformatics/17.5.405
[46] McQueen,J.:多元观测分类和分析的一些方法。摘自:《第五届伯克利数理统计与概率研讨会论文集》,第281-297页(1967)
[47] Metropolis N.、Rosenbluth A.、Rosenbluth M.、Teller A.和Teller E.J.(1953年)。通过快速计算机器计算状态方程。化学杂志。物理。21: 1087–1091 ·数字对象标识代码:10.1063/1.1699114
[48] Paules G.E.IV和Floudas C.A.(1989年)。APROS:离散连续优化问题的算法开发方法。操作。研究期刊37:902–915·Zbl 0689.90058号 ·doi:10.1287/opre.37.6.902
[49] Pauwels E.J.和Frederix G.(1999)。寻找图像中的显著区域:用于图像分割和分组的非参数聚类。计算。视觉图像理解。75: 73–85 ·Zbl 05467769号 ·doi:10.1006/cviu.1999.0763
[50] Pipenbacher P.、Schliep A.、Schneckener S.、Schonhuth A.、Schomburg D.和Schrader R.(2002年)。ProClust:使用扩展的基于图形的方法改进蛋白质序列的聚类。生物信息学18(补充2):S182–S191
[51] 兰德·W·M(1971)。评价聚类方法的客观标准。美国统计协会期刊66(336):846–850·doi:10.2307/2284239
[52] Rousseeuw P.J.(1987年)。轮廓:用于解释和验证聚类分析的图形辅助工具。J.公司。应用程序。数学20:53–65·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[53] Ruspini E.H.(1969)。集群的新方法。信息控制15:22–32·Zbl 0192.57101号 ·doi:10.1016/S0019-9958(69)90591-9
[54] Schneper L.、Düvel K.和Broach J.R.(2004)。感官和敏感性:酵母的营养反应和信号整合。货币。操作。微生物。7(6): 624–630 ·doi:10.1016/j.mib.2004.10.002
[55] Sherali H.D.和Desai J.(2005a)。一种基于RLT的全局优化方法,用于解决硬聚类问题。J.全球优化。32(2): 281–306 ·Zbl 1123.62045号 ·doi:10.1007/s10898-004-2706-7
[56] Sherali H.D.和Desai J.(2005年b)。一种基于全局优化RLT的模糊聚类方法。J.全球优化。33(4): 597–615 ·Zbl 1097.90072号 ·doi:10.1007/s10898-004-7390-0
[57] Slonim N.、Atwal G.S.、Tkačik G.和Bialek W.(2005年)。基于信息的聚类。美国国家科学院。科学。美国102(51):18297–18302·Zbl 1135.62054号 ·doi:10.1073/pnas.0507432102
[58] Sokal R.R.和Michener C.D.(1958年)。评估系统关系的统计方法。堪萨斯大学。牛市。38: 1409–1438
[59] Sorlie T.、Tibshirani R.、Parker J.、Hastie T.、Marron J.S.、Nobel A.、Deng S.、Johnsen H.、Pesich R.、Geisler S.、Demeter J.、Perou C.M.、Lonning P.E.、Brown P.O.、Borresen-Dala A.L.和Botstein D.(2003)。在独立基因表达数据集中重复观察乳腺肿瘤亚型。程序。美国国家科学院。科学。美国100:8418–8423·doi:10.1073/pnas.0932692100
[60] Tishby,N.,Pereira,F.,Bialek,W.:信息瓶颈方法;第37届allerton通信年会纪要。控制计算。368–377 (1999)
[61] Troyanskaya O.G.、Dolinski K.、Owen A.B.、Altman R.B.和Botstein D.(2003)。用于组合异质数据源进行基因功能预测的贝叶斯框架(在酿酒酵母中)。程序。美国国家科学院。科学。美国100:8348–8353·doi:10.1073/pnas.0832373100
[62] Wang Y.、Pierce M.、Schneper L.、Guldal C.G.、Zhang X.、Tavazoie S.和Broach J.R.(2004)。Ras和Gpa2介导酵母中冗余葡萄糖信号通路的一个分支。普洛斯生物公司。2(5): 610–622
[63] Weiler J.、Gausepohl H.、Hauser N.、Jensen O.N.和Hoheisel J.D.(1997年)。肽核酸(PNA)寡聚体阵列上基于杂交的DNA筛选。核酸研究25:2792–2799·doi:10.1093/nar/25.14.2792
[64] Wu Z.和Leahy R.(1993)。数据聚类的最优图论方法:理论及其在图像分割中的应用。IEEE传输。模式识别。马赫。智力。15(11): 1101–1113 ·Zbl 05112722号 ·数字对象标识代码:10.1109/34.244673
[65] Xu R.和Wunsch D.(2005)。聚类算法综述。IEEE传输。神经网络16(3):645–678·doi:10.1109/TNN.2005.845141
[66] Zahn C.T.(1971)。检测和描述格式塔系统的图论方法。IEEE传输。计算。C-20:68–86·Zbl 0264.68040号 ·doi:10.1109/T-C.1971.223083
[67] Zhang,B.,Hsu,M.,Dayal,U.:K-Harmonic Means–一种数据聚类算法。Hewlett-Packard研究实验室技术报告(1999年6月)·Zbl 0987.68917号
[68] Zhang,B.:广义K-Harmonic平均数:在无监督学习中提升。Hewlett-Packard研究实验室技术报告(2000年10月)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。