统计及其接口

第1卷(2008年)

编号1

功能数据的非参数聚类

页:47 – 62

内政部:https://dx.doi.org/10.4310/SI.2008.v1.n1.a5

作者

Forrest Miller(美国堪萨斯州立大学数学系,曼哈顿)

詹姆斯·尼尔(美国堪萨斯州立大学统计系,曼哈顿)

王海燕(美国堪萨斯州立大学统计系,曼哈顿)

摘要

本文提出了一种有效检测高维函数数据中未知模式或簇的方法。此类数据的示例包括通过微阵列实验、功能磁共振成像(fMRI)、蛋白质组学、脂质组学等的质谱数据随时间测量的基因表达水平。我们通过每条曲线上所有观察结果的未知高维多元分布来定义簇。Kullback-Leibler信息和Mahalanobis广义平方距离无法在这种高维环境中提供分布之间距离的有意义度量。我们提出了一种新的相似性度量和凝聚聚类算法,称为PCLUST,以有效区分高维种群。该算法在数据单调变换下产生不变的结果,不需要用户指定簇数。仿真结果表明,PCLUST在聚类准确度和鲁棒性方面明显优于其他9种流行算法。说明了利用拟南芥响应环境胁迫的时间进程基因表达数据识别生物标记物的应用。

关键词

聚类分析、非参数推断、假设检验、混合模型、高维多元分析、时间进程基因表达微阵列数据、脂质代谢

2010年数学学科分类

初级60H30、62G10、62G35。次要62P10。

2008年1月1日出版