摘要

动机:对整个基因组中数千个单核苷酸多态性(SNP)的分析对于有效地绘制疾病基因图和了解不同人群和个人的疾病易感性、药物疗效和副作用至关重要。高密度寡核苷酸微阵列以合理的成本为此类分析提供了可能性。这种分析需要准确、可靠的方法来进行特征提取、分类、统计建模和过滤。

结果:我们提出了一种改进的medoids周围分割方法,作为相对等位基因信号的分类方法。我们使用平均轮廓宽度、分离度和其他数量作为基因分型分类的质量度量。我们根据分类结果形成稳健的统计模型,并使用这些模型进行基因型调用和计算调用的质量度量。我们将我们的算法应用于几种不同的基因分型微阵列。我们使用参考类型、家族中信息丰富的孟德尔关系以及离群交叉验证来验证我们的结果。常染色体上的SNP与单碱基延伸参考类型的一致率为99.36%,性染色体上的单核苷酸多态性为99.64%。脱落试验的一致性超过99.5%,AA、AB和BB细胞的一致性高99.9%。我们还提供了一种基于X染色体上SNP杂合呼叫率确定样本性别的方法。请参见http://www.affmetrix.com了解更多信息。微阵列数据也可从Affymetrix网站获得。

可利用性:这些算法将在Affymetrix软件包中提供。

*

收件人:美国印第安纳州印第安纳波利斯市密歇根西街723号印第安纳大学普渡大学印第安纳波利斯分校计算机信息科学系,邮编:46202-5132。

作者注释

Affymetrix,Inc.,美国加利福尼亚州圣克拉拉中央高速公路3380号,邮编:95051