×

集成组学数据时用于变量选择的稀疏PLS。 (英语) Zbl 1276.62061号

摘要:最近的生物技术进步允许集成多种组学数据,如转录组学、蛋白质组学或代谢组学数据集。特征选择问题已在分类上下文中多次解决,但在集成数据时需要以特定的方式进行处理。在这项研究中,我们重点研究在相同样本上测量的两个块数据的积分。我们的目标是使用偏最小二乘回归(PLS)变量,将两个数据集的整合和同时变量选择结合在一步程序中,以便于生物学家的解释。为了处理这些新出现的问题,引入了一种称为“稀疏PLS”的新计算方法来进行预测分析。当计算奇异值分解时,我们的方法的稀疏性是通过PLS负载向量的Lasso惩罚来实现的。
稀疏PLS被证明是有效的,具有生物学意义。对模拟数据集和实际数据集进行了与经典PLS的比较。在一个数据集上,对所获得的结果进行了全面的生物学解释。我们表明稀疏PLS为高维数据集提供了一个有价值的变量选择工具。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔