插补

DNA微阵列缺失值估计。动机:基因表达微阵列实验可以产生包含多个缺失表达值的数据集。不幸的是,许多基因表达分析算法需要一个完整的基因阵列值矩阵作为输入。例如,层次聚类和K-均值聚类等方法对缺失的数据不具有鲁棒性,即使有少量缺失值,也可能失去有效性。因此,需要使用填补缺失数据的方法,以尽量减少不完整数据集对分析的影响,并增加这些算法可适用的数据集范围。在本报告中,我们将研究估计缺失数据的自动化方法。结果:我们对基因微阵列数据中缺失值估计的几种方法进行了比较研究。我们实现并评估了三种方法:基于奇异值分解(SVD)的方法(SVDimpute)、加权K-最近邻(kncompute)和行平均。我们使用各种参数设置和不同的实际数据集评估了这些方法,并评估了插补方法对缺失数据量在1-20%缺失值范围内的稳健性。结果表明,kncompute比SVDimpute提供了一种更健壮、更敏感的缺失值估计方法,并且SVDimpute和knincute都优于常用的行平均法(以及用零填充缺失值)。我们报告比较实验的结果,并提供在各种条件下精确估计缺失微阵列数据的建议和工具。可用性:该软件在http://smi-web.stanford.edu/projects/helix/pubs/impute/


zbMATH中的参考文献(参考文献100篇文章)

显示第1到第20个结果,共100个。
按年份排序(引用)
  1. 伦志新;Khattree,Ravindra:偏态数据的插补:多变量Lomax案例(2021年)
  2. 马钱;李,王侠;傅道扬;顾、余;探索自动去噪法(Yu:缺失的数据)
  3. 玛祖德,拉胡尔;萨尔达纳,迭戈;翁浩磊:非凸正则化的矩阵完备化:谱算子和可伸缩算法(2020)
  4. 莫扎罗夫斯基,帕夫洛;约瑟夫,朱莉;Husson,Francisçois:按数据深度的非参数插补(2020年)
  5. 波兰蒂,玛丽娜;Frontoni,Emanuele:多学科模式识别应用:综述(2020)
  6. 卡斯科尼,马科斯H。;Hotta,Luiz K.:存在缺失值时GARCH模型的准最大似然估计(2019年)
  7. 陈晓琳;刘易;王启华:超高维稀疏加性风险模型的稀疏限制伪分数估计联合特征筛选(2019)
  8. 毛晓军;陈松;王雷蒙K.W.:矩阵完成与协变量信息(2019年)
  9. 内西,提丁·阿古斯丁;伯特兰,弗里德里克;莫米·贝特朗,米里亚姆;Meyer,Nicolas:在不完全数据集上确定PLS回归中的成分数量(2019年)
  10. 本·卜拉欣,Afef;Limam,Mohamed:高维数据的集合特征选择:新方法和比较研究(2018)
  11. 贝尔西马斯,迪米特里斯;波洛夫斯基,科林;卓英黛西:从预测方法到缺失数据插补:一种优化方法(2018)
  12. 凯斯尔顿,艾米丽;奥斯图斯,戴夫;van Buren,Kendra:用比较和评估技术对多源数据进行插补(2018年)
  13. 契诃,蒂埃里;Murua,Alejandro:用格子混合模型进行聚类的高维变量选择(2018)
  14. 陈晓琳;陈晓静;Wang,Hong:基于距离相关的超高维右删失数据的鲁棒特征筛选(2018)
  15. 达塔,舒纳克;巴塔查吉,苏普里塔姆;Das,Swagatam:《缺失特征的聚类:基于惩罚的差异性度量方法》(2018)
  16. 伊伯特,艾莉莎;Vialaneix,Nathalie:探索、处理、插补和评估统计分析中的缺失数据:现有方法综述(2018)
  17. 李,杰伦;希卡雷洛,香农;亚喀吉,米顿;Das,Kumer:基因表达数据的降维(2018)
  18. 罗宝玲;Tan,Xin Lu:高维鲁棒精确矩阵估计:污染下的细胞腐败(2018)
  19. 奥布莱恩,乔纳森J。;古纳瓦德纳,哈沙P。;保罗,乔A。;陈贤;易卜拉欣,约瑟夫G。;吉吉,史蒂芬·P。;Qaqish,Bahjat F.:不可忽视的缺失数据对无标记质谱蛋白质组学实验的影响(2018)
  20. 苏门答腊省辛哈市;Shenoy,Prakash P.:基于互补性的自适应启发式特征选择(2018)