弗拉特

一种用于多样本aCGH数据分析的融合套索潜在特征模型。基于阵列的比较基因组杂交(aCGH)能够测量基因组中数千个位置的DNA拷贝数。分析aCGH数据的主要目的是识别拷贝数变异的区域,并量化CNV的数量。虽然单样本aCGH数据的分析方法很多,但多样本aCGH数据的分析是一个比较新的研究领域。此外,许多当前用于分析多样本aCGH数据的方法没有适当地利用多个样本中存在的附加信息。我们提出了一个称为融合套索潜在特征模型(FLLat)的程序,它为多样本aCGH数据建模和CNV区域识别提供了一个统计框架。该过程包括将每个aCGH数据样本建模为固定数量特征的加权和。然后通过对每个特征应用融合套索惩罚来识别CNV区域。一些仿真分析表明,当模拟样本共享公共信息时,FLLat的性能优于单样本方法。我们还提出了一种估计错误发现率的方法。对从人类乳腺肿瘤中获得的aCGH数据集的分析表明,FLLat和异常拷贝数的显著性检验(另一种现有方法)识别出与先前研究结果一致的CNV相似区域。然而,通过估计的特征及其相应的权重,FLLat还能够识别样本之间的特定关系,例如,根据17号染色体CNV的模式识别出3组不同的样本。