摘要

动机:基因表达微阵列实验可以产生具有多个缺少表达式值的数据集。不幸的是,许多基因表达分析算法需要一个完整的基因阵列值矩阵作为输入。例如,诸如层次聚类和K-means聚类对缺少数据,即使缺少一些数据也可能会失去效力值。因此,需要将缺失数据输入到最小化不完整数据集对分析的影响,并增加这些算法可以使用的数据集的范围应用。在本报告中,我们研究了估计缺失数据。

结果:我们对以下几种方法进行了比较研究基因芯片数据中缺失值的估计。我们实现并评估了三种方法:奇异值基于分解(SVD)的方法(SVDimpute),加权K-最近邻居(KNNimpute)和行平均值。我们评估了这些方法使用各种参数设置和不同的实际数据设置,并评估插补方法对缺失值在1–20%范围内的缺失数据量。我们表明,KNNimpute似乎提供了更强大的比SVDimpute更敏感的缺失值估计方法,以及SVDimpute和KNNimpute都超过了常用的行平均值方法(以及用零填充缺少的值)。我们报告对比实验结果并提供建议以及用于准确估计缺失微阵列数据的工具各种条件。

可用性:该软件位于http://smi-web.stanford.edu/projects/helix/pubs/inpute/

联系人:russ.altman@stanford.edu

*

通信对象演说。

此内容仅以PDF格式提供。