×

聚类:我们需要多少偏差? (英语) Zbl 1404.92011年

概要:医学及其他领域的科学研究越来越需要用更多的特征来描述观察结果,而不是同时可视化。简单地通过投影来降低维度会破坏数据中的基本关系。类似地,传统的聚类算法引入了数据偏差,从而阻止了对一般非线性过程中预期的自然结构的检测。我们研究了如何最好地解决这些问题,特别是我们关注了最近的两种聚类方法,Phenograph和Hebbian学习聚类,它们应用于合成和自然数据示例。我们的结果表明,对于非常基本的问题来说,最小化聚类偏差是至关重要的,但有偏差的后处理可以使结果受益匪浅。

MSC公司:

92B15号机组 普通生物统计学
62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
62华氏35 多元分析中的图像分析
68吨10 模式识别、语音识别

软件:

t-SNE公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Schuffenhauer A、Zimmermann J、Stoop R、van der Vyver JJ、Lecchini S、Jacoby E.(2002)药物配体本体论及其在电子筛选和库设计中的应用。化学杂志。Inf.计算。科学。42, 947-955. (doi:10.1021/ci010385k)·doi:10.1021/ci010385k
[2] Ott T,Kern A,Schuffenhauer A,Popov M,Acklin P,Jacoby E,Stoop R.(2004)高维化学数据无偏分类的顺序超顺磁聚类。化学杂志。Inf.计算。科学。44, 1358-1364. (doi:10.1021/ci049905c)·doi:10.1021/ci049905c
[3] Gomez F、Stoop RL、Stoop R.(2014)通用动力学特征排除了大量生化数据中的标准聚类。生物信息学30,2486-2493。(doi:10.1093/生物信息学/btu332)·doi:10.1093/bioinformatics/btu332
[4] Barnsley MF.(1988)《无处不在的分形》。马萨诸塞州波士顿:学术出版社·Zbl 0691.58001号
[5] Jacquin A.(1989)迭代马尔可夫算子分形理论及其在数字图像编码中的应用。佐治亚州亚特兰大:佐治亚理工大学论文和学位论文。
[6] Cvitanovic P.(1988)关于循环的奇异集的不变性度量。物理学。修订稿。61, 2729-2732. (doi:10.1103/PhysRevLett.61.2729)·doi:10.1103/PhysRevLett.61.2729
[7] Stoop R,Parisi J.(1991)关于耗散动力系统中热力学平均值的收敛性。物理学。莱特。甲16167-70。(doi:10.1016/0375-9601(91)90546-K)·doi:10.1016/0375-9601(91)90546-K
[8] Stoop R,Parisi J.(1992)《语法对耗散动力系统熵谱的影响》。物理D 58,325-328。(doi:10.1016/0167-2789(92)90120-C)·兹比尔1194.37143 ·doi:10.1016/0167-2789(92)90120-C
[9] Stoop R,Joller J.(2011)基于周期轨道的复杂网络的细观比较。混沌21016112。(doi:10.1063/1.3553643)·Zbl 1345.37100号 ·数字对象标识代码:10.1063/1.3553643
[10] Stoop R,Arthur BI。(2008)周期轨道分析表明果蝇求偶行为中的遗传约束、变异和转换。混沌18023123。(doi:10.1063/1.2918912)·doi:10.1063/1.2918912
[11] Bunimovich LAB,Webb B.(2014)等谱变换——分析多维系统和网络的新方法。施普林格数学专著。纽约州纽约:施普林格·Zbl 1314.37004号
[12] Alanis-Lobato G,Cannistraci CV,Eriksson A,Manica A,Ravasi T.(2015),《人口遗传学数据集中的非线性模式》。科学。代表58140。(doi:10.1038/srep08140)·doi:10.1038/srep08140
[13] Stoop R,Stoop N,Bunimovich L.(2004)动力学复杂性作为可预测性的可变性。J.Stat.物理。114, 1127-1137. (doi:10.1023/B:JOSS.0000012519.93677.15)·Zbl 1061.82018年 ·doi:10.1023/B:JOSS.000012519.93677.15
[14] Gödel K.(1931)将《数学原理》和《蒙娜丽莎体系》正式化。数学。物理学。38, 173-198. (doi:10.1007/BF01700692)·JFM 57.0054.02号 ·doi:10.1007/BF01700692
[15] Gödel K.(1931)《数学研究》(Diskussion zur Grundlegung der Mathematik)。埃尔肯特尼斯2,135-151。(doi:10.1007/BF02028146)·JFM 57.0053.03号 ·doi:10.1007/BF02028146
[16] Popper K.(1935)《福尚逻辑》。奥地利维也纳:施普林格·JFM 61.0977.04号
[17] Stoop R,Stoop N.(2004)《自然计算:复杂性的降低》。混乱14675。(doi:10.1063/1.1778051)·doi:10.1063/1.1778051
[18] Peinke J,Parisi J,Rössler OE,Stoop R.(1992)《与混沌的相遇:半导体实验中的自组织层次复杂性》。德国柏林:施普林格。
[19] Roweis ST,Saul LK.(2000)局部线性嵌入的非线性降维。《科学》290,2323-2326。(doi:10.1126/science.290.5500.2323)·doi:10.1126/science.290.5500.2323
[20] Jolliffe IT。(2002)主成分分析。统计学中的斯普林格系列。德国柏林:施普林格·Zbl 1011.62064号
[21] Schölkopf B,Smola A,Müller KR.(1998)作为核特征值问题的非线性分量分析。神经计算。10, 1299-1319. (doi:10.1162/08997669830017467)·doi:10.1162/08997669830017467
[22] Shawe-Taylor JS,Cristianini N.(2004)模式分析的核方法。纽约州纽约市:剑桥大学出版社。
[23] De Silva V,Tenenbaum JB公司。(2003)非线性降维中的全局与局部方法。高级神经信息处理。系统。15, 721-728.
[24] Van der Maaten L,Hinton G.(2008)使用t-SNE可视化数据。J.马赫。学习。第9号决议,2579-2605·Zbl 1225.68219号
[25] Stoop R、Benner P、Uwate Y.(2010)《真实世界的存在和全球螺旋虾组织的起源》。物理学。修订稿。105, 074102. (doi:10.1103/PhysRevLett.105.074102)·doi:10.1103/PhysRevLett.105.074102
[26] Stoop R、Kanders K、Lorimer T、Held J、Albert C.(2016)大数据自然重标。混沌孤子分形。90, 81-90. (doi:10.1016/j.chaos.2016.02.035)·Zbl 1360.62356号 ·doi:10.1016/j.chaos.2016.02.035
[27] Decroly O,Goldbeter A.(1982)多重调节生化系统中的双心律、混沌和其他时间自组织模式。程序。美国国家科学院。科学。美国79,6917-6921。(doi:10.1073/pnas.79.22.6917)·Zbl 0491.92010号 ·doi:10.1073/pnas.79.22.6917
[28] Rulkov NF.(2002)使用二维图对脉冲爆发神经行为进行建模。物理学。修订版E 65041922。(doi:10.1103/PhysRevE.65.041922)·Zbl 1244.34077号 ·doi:10.1103/PhysRevE.65.041922
[29] Levine JH等人(2015)AML的数据驱动表型解剖揭示了与预后相关的祖细胞样细胞。细胞162184-197。(doi:10.1016/j.cell.2015.05.047)·doi:10.1016/j.cell.2015.05.047
[30] Landis F,Ott T,Stoop R.(2010)《用于数据聚类的Hebbian自组织集成和核心网络》。神经计算。22, 273-288. (doi:10.1162/neco.2009.12-08-926)·Zbl 1214.68320号 ·doi:10.1162/neco.2009.12-08-926
[31] Blondel VD、Guillaume JL、Lambiotte R、Lefebvre E.(2008)大型网络中社区的快速发展。《统计力学杂志》。2008年,第10008页。(doi:10.1088/1742-5468/2008/10/P10008)·Zbl 1459.91130号 ·doi:10.1088/1742-5468/2008/10/P10008
[32] Lecun Y,Bottou L,Bengio Y,Haffner P.(1998)基于梯度的学习应用于文档识别。程序。IEEE 86,2278-2324。(doi:10.1109/5.726791)·数字对象标识代码:10.1109/5.726791
[33] Aghaeepour N、Finak G、FlowCAP联盟、DREAM联盟、Hoos H、Mosmann TR、Brinkman R、Gottardo R、Scheuermann RH.2013自动化流式细胞术数据分析技术的关键评估。自然方法10,228-138。(doi:10.1038/nmeth.2365)·doi:10.1038/nmeth.2365
[34] Weber LM,Robinson MD.(2016)高维单细胞流和大规模细胞术数据的聚类方法比较。细胞测定A 89,1084-1096。(doi:10.1002/cyto.a.23030)·doi:10.1002/cyto.a.23030
[35] Newman MEJ,Girvan M.(2004)《发现和评估网络中的社区结构》。物理学。 ·doi:10.1103/PhysRevE.69.026113
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。