曹金安·莱伊;黛布拉·罗索;罗伯特·格拉尼,基督;菲利普·贝塞 集成组学数据时用于变量选择的稀疏PLS。 (英语) Zbl 1276.62061号 统计应用程序。遗传学。分子生物学。 7,第1号,第35条,第29页(2008年). 摘要:最近的生物技术进步允许集成多种组学数据,如转录组学、蛋白质组学或代谢组学数据集。特征选择问题已在分类上下文中多次解决,但在集成数据时需要以特定的方式进行处理。在这项研究中,我们重点研究在相同样本上测量的两个块数据的积分。我们的目标是使用偏最小二乘回归(PLS)变量,将两个数据集的整合和同时变量选择结合在一步程序中,以便于生物学家的解释。为了处理这些新出现的问题,引入了一种称为“稀疏PLS”的新计算方法来进行预测分析。当计算奇异值分解时,我们的方法的稀疏性是通过PLS负载向量的Lasso惩罚来实现的。稀疏PLS被证明是有效的,具有生物学意义。对模拟数据集和实际数据集进行了与经典PLS的比较。在一个数据集上,对所获得的结果进行了全面的生物学解释。我们表明稀疏PLS为高维数据集提供了一个有价值的变量选择工具。 引用于20文件 MSC公司: 62页第10页 统计学在生物学和医学中的应用;元分析 62H30型 分类和区分;聚类分析(统计方面) 关键词:联合分析;两块数据集;多元回归;尺寸缩减 软件:mixOmics公司;标准普尔;CCA公司;请;成人教育-4 PDF格式BibTeX公司 XML格式引用 \textit{K.-A.L.Cao}等人,Stat.Appl。遗传学。分子生物学。7,第1号,第35条,第29页(2008年;Zbl 1276.62061) 全文: 内政部 哈尔