摘要

动机:提出了一种基于多芯片、多SNP方法的Affymetrix SNP阵列分类算法。目前在SNP阵列上调用基因型的程序一次处理与一个芯片和一个SNP相关的所有特征。使用已知基因型标签的大样本训练样本,我们开发了一种监督学习算法,以在新数据上获得更准确的分类结果。我们提出的RLMM方法基于一个稳健拟合的线性模型,并使用马氏距离进行分类。通过归一化减少芯片间非生物方差。这种基于模型的算法捕获了基因型组和探针之间的相似性,以及数千个SNP之间的相似之处,以便进行准确分类。在本文中,我们将RLMM应用于Affymetrix 100 K SNP阵列数据,给出分类结果,并将其与Affymetrix程序DM中获得的基因型调用以及HapMap项目中公开可用的基因型调用进行比较。

可利用性:RLMM软件在R中实现,可从Bioconductor或第一作者处获得nrabbee@post.harvard.edu.

联系人: nrabbee@stat.berkeley.edu

补充信息: 作者网页

1简介

使用SNP微阵列的基因组研究正试图识别人类基因组特定基因或区域中的DNA序列变异,这些基因或区域负责各种表型特征,例如疾病风险或可变药物反应。为此,Affymetrix基因分型平台在一个芯片上提供了数千个人类基因组SNP。GeneChip®Human Mapping 10 K阵列可检测10个以上一个芯片上有1000个SNP探针,两个芯片上都有GeneChip®Human Mapping 100 K阵列,Mapping 500 K阵列计划在不久的将来发布。一旦SNP被准确地基因分型,有趣的高级生物学问题就可以得到更可靠的回答。

肯尼迪., 2003描述构建SNP阵列背后的技术,即全基因组抽样分析(WGSA)。阵列包含探针组,用于询问所有SNP的两个等位基因。等位基因通常被称为等位基因一个和等位基因B类该技术包括合成25个与等位基因完美匹配的寡核苷酸探针一个序列(PMA)并与等位基因完美匹配B类序列(PMB)。此外,为每个等位基因(MMA和MMB)合成一个错配探针来检测非特异性结合。这四个探针是检测不同基因型组的基本单位:AA公司AB公司BB公司(详见Affymetrix数据表,作者网页). 对于Mapping 10 K阵列,MPAM基因分型算法基于通过在药物周围进行修改的划分来对每个SNP的芯片进行聚类(参见线路接口单元., 2003). MPAM只选择具有2个或3个清晰分离簇的SNP,并且从10K阵列中丢弃了表现出高度错误分类的SNP。这是可能的,因为Affymetrix从超过3个000Perlegen数据库中的1000个SNP。随着对更高密度SNP阵列的需求增加,MPAM在正确调用缺失基因型组或小等位基因频率较低的SNP方面面临挑战,并且需要大样本进行聚类。因此,Affymetrix为Mapping 100 K阵列发布了一种新的基于动态模型的算法DM(参见., 2005). DM方法假定给定特征的像素强度为正态分布,并在四种不同模型下独立计算每个探测四分位的对数似然:无效的AA公司AB公司BB公司对于每个探测四重奏,将可能性结合在一起以产生分数。接下来,将不同四分位探针的得分合并,并应用Wilcoxon符号秩检验测试每个模型的可能性,得出四个P(P)-值。然后,该算法根据最小值确定所有10个探测四重奏最支持哪个模型P(P)-每个SNP和每个芯片的值。DM通常非常准确,但对已知杂合碱基的误分类程度高于对已知纯合碱基。

DM和MPAM算法都没有明确地将可用的真理用于训练目的,即使在300多万个SNP上有大量的参考基因型调用。相反,算法使用这些数据进行验证、SNP选择和调整。此外,DM不使用来自多个芯片的可用数据。这两种算法都没有利用数千个SNP之间的相似性。在这里,我们提出了一种分类算法,该算法使用稳健的多芯片平均(RMA)方法来组合探针和芯片之间的强度(爱尔兰语., 2003)并生成基于等位基因的摘要。这是一个有监督的学习过程,它利用了在为每个基因型组定义区域时对SNP的大量公开调用。这些改进使Mapping 100 K array-Xba集合中的SNP子集的分类结果更加准确。对于这一SNP子集,基因型调用可从HapMap项目中公开用于90名CEPH个体(参见HapMap,2003年)可从Affymetrix网站获取。这些HapMap参考基因型来自Affymetrix,Inc.或Perlegen,Inc.以外的来源,以使比较尽可能独立。

2算法

RLMM算法基于具有Mahalanobis距离分类的多芯片模型,由三部分组成:(1)对于每个等位基因,稳健地拟合线性模型,该线性模型减少了探针数据的非生物变异性(2)形成每个基因型类的决策区,它们是双变量高斯或马氏区域,通过有效利用可用的训练数据来通知算法每个SNP每个基因型组的中心和强度分布而形成;(3) 对新数据进行分类,根据它们与SNP形成的三个组之间的马氏距离,调用新芯片上样本的基因型。

2.1多芯片稳健线性模型

首先,我们通过对探针强度应用分位数归一化对数据进行预处理(参见博尔斯塔德., 2003),以最小化芯片间的非生物变异性。归一化对于实现探头强度的多芯片模型至关重要。这种归一化方法假设芯片之间的强度基本分布相同。

第二,我们记录2转换归一化强度并稳健地拟合线性模型,以估计芯片和探针效应。探针强度测量的RMA模型的细节和优点已由爱尔兰语., 2003.让表示培训或测试样本中出现的芯片总数,以及J型表示等位基因的数量一个或等位基因B类完美匹配数据集中的探测强度。

对于SNPn个,我们适合等位基因的模型一个探针强度如下:
日志2(一个j个n个)=θ一个n个+β一个j个n个+e(电子)j个哪里=1;j个=1J型
哪里A、 ij公司n个是芯片的归一化探针强度,等位基因一个探查j个和SNPn个,θA、 我n个是由一个探针,βA、 j个n个是探针效应和eij公司是一个平均值为零的误差项,假设独立,分布相同。探测效果的总和被限制为零。我们通过将上述模型分别拟合到等位基因来重复这一步骤B类探针。

对于每个SNPn个,多芯片模型减少了对θn个= (θA、 我n个, θB、 我n个),这是对等位基因的概括测量一个B类芯片强度该模型分别应用于训练集和测试集。请注意,RLMM仅使用模型的最佳匹配强度。初步调查表明,在模型中包含失配探针并不能更好地(即更容易分离)估计θ。我们将继续探讨在分析中使用不匹配探针的主题。

2.2马哈拉诺比斯地区

我们算法的第二个核心部分是总结一个B类强度作为输入并形成决策区域。RLMM的区域以二元高斯分布为特征。由于θ一个和θB类值是相关的,由这些2D点形成的区域是椭圆,马氏距离将用作决策度量。

2.3基因型组明确的SNP

首先,针对每个SNPn个,我们获得了2D点(θ)的平均向量和协方差矩阵一个, θB类)在三个基因型组(即。AA公司AB公司AB公司),来自训练集中的芯片。=(一个一个一个B类一个一个一个一个B类B类一个B类一个B类B类B类B类B类)表示群中心的6×1向量S公司=((一个2)一个一个(B类2)一个一个()一个一个(一个2)一个B类(B类2)一个B类()一个B类(一个2)B类B类(B类2)B类B类()B类B类)表示群色散参数的9×1矢量。对于每组样本量足够的SNP,这两个向量的参数可以很容易地从训练数据和形成的三个决策区域中估计出来。基因型组的决定区域其特点是,平均值的2×1行向量和S公司,2×2协方差矩阵。

接下来,我们将第2.1节中描述的线性模型稳健地拟合到测试数据集,并获得以下估计值θ= (θ一个, θB类)这组芯片中的每个芯片。利用训练集形成的上述决策区域,我们从基因型组的中心计算测试集中每个芯片的马氏距离:D类2(θ)=(θ)S公司1(θ)T型随后,每个芯片都有等位基因估计,θ,使用马氏距离作为最小距离分类器分配到基因型类别。我们将测试数据转换为与训练数据相同的尺度,以便决策区域的参数适用于分类。

2.4小等位基因频率低的SNP

当SNP的次要等位基因频率较低或缺失基因型组时S公司不能从该SNP的训练集可靠地估计参数。在这种情况下,我们使用多元正态(MVN)分布理论从数千个SNP中估计这些参数,其中组定义良好。由于在训练数据不能提供足够信息的情况下,我们使用回归预测每个基因型组SNP的中心。我们采用类似的方法来估计S公司,尽管我们对元素使用规范化转换。

我们假设对于每个SNPn个,向量均数正态分布μ和方差-方差矩阵Σ首先是矢量参数,μΣ,是根据100 K数据集中的5000个SNP随机样本估计的,这些SNP具有明确的组。表示缺失或稀疏的基因型组'和“表示其他两组。其次,我们计算群中心条件分布的参数|(′,″)给定其他两组的中心,通过估计平均向量μ|(′,″)和偏协方差矩阵,Σ|(′,“)这里,我们假设|(′,″)~MVN(μ|(′,″)Σ|(′,″)). 第三,回归系数矩阵,B类,形成,其中B类=()T型()()1,来自多SNP数据。最后,|(′,″)由预测亿(′,″)+α,其中α=μ(′,″)。我们重复该过程S公司其中,以与组中心类似的方式,从其他两组的方差-方差矩阵中预测每组的方差-变异矩阵。一旦根据每组中心和协方差的多SNP数据计算回归系数矩阵,RLMM使用这些估计的参数来预测一个组的中心或协方差矩阵,当该组丢失或稀疏时。

2.5分类

一旦团队集中,和色散参数,S公司,则RLMM已准备好进行分类。对于测试集中的每个芯片,等位基因汇总估计,θ= (θ一个, θB类),被分配为基因型组*,如果最小马氏距离D类2发生于=*.最小距离,最小值(D类2),还为每个调用提供质量分数δ。由于在二元正态下,每组的距离遵循χ2-两个自由度的分布,我们计算距离(δ)经验分布的分位数,以确定质量分数的截止值。降低通话的截止值通常会提高通话的准确性。因此,RLMM能够在特定于用户的级别上调整调用的百分比,从而提高准确性。

3结果

3.1多芯片模型

RLMM算法的第一步是将探头强度标准化,并将稳健的线性模型应用于变换和标准化的探头强度,以获得估计值θ= (θ一个, θB类)任何给定SNP的每个芯片的值。绘制2Dθ每个芯片的矢量显示了在图1.预计θ这些值被称为等位基因一个和等位基因B类值。右下角的椭圆代表基因型组AA公司,中间的是基因型组AB公司左上角的那一个是小组的BB公司残差图表明,线性模型与数据拟合得相当好。

图1

Mapping 100 K-Xba集合中两个典型SNP的旁-旁等位基因汇总图和残差图。

3.2来自培训数据的决策区域

RLMM的第二步是从训练数据中计算三个基因型组中每个基因型组的点的平均值和协方差矩阵,前提是没有缺失组或非常稀疏的组(一组中的观察数≤5)。然后,算法继续对每个(θ)调用基因型一个,θB类)基于对测试数据的最小马氏距离的每组平均值。最小马哈拉诺比斯距离也可以作为测试集上每次调用的质量分数。该算法可以减少所需的调用百分比(例如90%),以尽可能提高调用的准确性。从最小马氏距离的经验分布中很容易获得适当的阈值。我们注意到经验分布与χ的理论分布密切相关2具有两个自由度,如所示图2.

图2

最小马氏距离柱状图汇集了5000多个SNP。

3.3预测决策区域

RLMM程序的第三步是估计平均值和协方差矩阵(S公司)当训练样本中缺少基因型组或基因型组非常稀疏时。RLMM通过回归从其他两组具有足够数据的数据中预测缺失或稀疏组均值和协方差矩阵。回归参数由多SNP、组均值的多元正态模型和协方差矩阵元素获得。我们通过绘制5000个SNP随机样本的不同组平均值来说明回归方法背后的动机(补充图a),这显示了组平均值之间的强烈相关性。我们对样本协方差矩阵进行主成分分解,V(V)群中心6×1向量的,六个分量解释的方差百分比按降序排列为:(88,7,3,1,.2,.04)。虽然第一个主成分被认为是衡量群体中心规模的指标,但我们的实证研究表明,第二个主成分反映了群体中心的位置,而第三个主成分则反映了群体核心的相对位置AB公司近纯合子群的群中心(图3). 因此,我们发现从第二主成分和第三主成分导出的特征是评估SNP级分类质量的有用指标。

图3

SNP的等位基因汇总图,其平均值具有平均向量第二主成分和第三主成分的高低值的不同组合。

3.4与HapMap调用的比较

比较RLMM和DM的HapMap调用,以确定两种算法的准确性。15人中910个SNP,其中DM和HapMap调用都可从Xba集合中获得,我们排除了所有单态SNP(两个基因型组中有0个或1个成员的SNP)。表12显示总共11个HapMap调用(列)和RLMM调用(行)或DM调用(行446个SNPs。对于每个SNP,呼叫来自30个CEPH家族三人组的90个人。

表1

RLMM与HapMap的比较(99.86%的一致性;不一致调用,不包括NoCalls=1398)

HapMap糖尿病AA公司AB公司BB公司数控
一个339,502124991420
AB公司457355,1685441745
BB公司251132327,4151452
HapMap糖尿病AA公司AB公司BB公司数控
一个339502个124991420
AB公司457355,1685441745
BB公司251132327,4151452
表1

RLMM与HapMap的比较(99.86%的一致性;不一致调用,不包括NoCalls=1398)

HapMap糖尿病AA公司AB公司BB公司数控
一个339,502124991420
AB公司457355,1685441745
BB公司251132327,4151452
HapMap糖尿病AA公司AB公司BB公司数控
一个339,502124991420
AB公司457355,1685441745
BB公司251132327,4151452
表2

DM与HapMap的比较(99.67%的一致性;不一致呼叫,不包括NoCalls=3416)

单体型映射RLMMAA公司AB公司BB公司数控
AA公司339,756476121440
AB公司196356,5751841699
BB公司32498327,7721478
单体型映射RLMMAA公司AB公司BB公司数控
AA公司339756个476121440
AB公司196356,5751841699
BB公司32498327,7721478
表2

DM与HapMap的比较(99.67%的一致性;不一致呼叫,不包括NoCalls=3416)

单体型映射RLMMAA公司AB公司BB公司数控
AA公司339,756476121440
AB公司196356,5751841699
BB公司32498327,7721478
单体型映射RLMMAA公司AB公司BB公司数控
AA公司339,756476121440
AB公司196356,5751841699
BB公司32498327,7721478

对于表1,RLMM使用HapMap调用通过一种一次性适应分类模型的leave-on-out交叉验证方法进行训练。请注意,HapMap调用包括一些NoCalls(NC),而RLMM和DM正在对每个芯片进行调用。DM并没有明确利用已知的HapMap要求进行培训。然而,100K数组仅包含SNP,这些SNP与HapMap或Perlegen的可用调用高度一致。对于RLMM,大多数1398个与HapMap不一致的调用仅在每个SNP的一个或两个芯片上发生变化。事实上,1398个不一致呼叫分布在656个SNP中,其中412个SNP只有1个不一致,117个SNP仅有2个,以此类推,而少数SNP有大量不一致(22、23、49)。我们目测了656个SNP中的50个随机SNP,其中RLMM和HapMap调用有任何不一致。似乎在36个SNP中,RLMM调用是正确的;9个呼叫不明确;RLMM调用在3中不正确;而RLMM很可能在剩下的2个测试中使用了错误的标签。

我们还直接比较了RLMM和DM的上述SNP,获得了99.7%的一致性。事实上,对角线条目比前两个表中的相应条目大。然而,这是因为RLMM和DM都没有进行NoCalls。因此,有更多的芯片可以进行调用。绝大多数调用在两种算法之间是一致的。

在我们研究的SNP集合中,与DM相比,RLMM在基因型调用中获得了更高的准确性,使用HapMap调用的leave-on-out测试。在补充图B和C中,我们展示了RLMM正确进行基因型调用的实例,而DM和有时HapMap算法产生的调用似乎是不正确的。图4,我们显示了总体精度曲线。

图4

与HapMap不一致的呼叫百分比与RLMM和DM的呼叫率(n个= 11446个SNP)。

图4显示了降低通话率对RLMM和DM通话质量的影响。RLMM截止值是根据最小马氏距离的经验分布为每个通话率%确定的。DM截止值从最小值获得P(P)-三种模型下的值分布:AA公司AB公司BB公司总的来说,RLMM程序与所有通话率的HapMap不太一致。对于固定的不一致率,RLMM实现了比DM高得多的通话率。

4讨论

探针级多芯片模型使RLMM能够获得等位基因的准确摘要一个和等位基因B类强度仅通过20个完美比赛A和B探头测量。该模型与分位数归一化一起降低了芯片间的可变性和探针间的可塑性。由于RLMM只有完美匹配的探针才能对SNP进行分类,因此我们注意到,在阵列上可以将探针数量减半。由于我们从Mapping 100 K-Xba和HindIII集合中研究的大多数SNP都形成了明确的决策区域,因此可以成功地使用无监督算法来分类θ向量。马哈拉诺比斯距离为每次通话提供芯片级质量分数。我们还从群中心的主成分分解中提取了两个重要特征,这将有助于识别先验SNP,即阵列上的SNP,对于这些SNP,探针级数据无法充分区分等位基因。

当一个组在训练数据中缺失或稀疏表示时,Multi-SNP聚合提供了一种回归机制来预测组平均值和协方差矩阵。RLMM使用组平均值中存在的相关性,跨基因型组,预测缺失组的中心。这使RLMM提高了在这些SNP中进行调用的分类准确性。RLMM实现了比DM更高的总体准确率,如表12在上一节中,当与Mapping 100K数组中给定SNP集上的HapMap调用进行比较时。在呼叫率方面,RLMM与HapMap呼叫的不一致性相对于DM有所减少(图4). RLMM实现了比DM更高的通话速率,具有相同的准确性。例如,在相同的准确度水平下,RLMM的呼叫率达到>98%,而DM达到~90%。

RLMM基于一个经过验证的Probelevel统计模型(RMA)和标准分类理论,通过有效利用公共领域提供的培训数据,在调用新数据方面取得了显著的准确性。在不久的将来,我们计划扩展该算法,以处理没有可用训练数据的SNP,并识别拷贝数多态性。

我们感谢Affymetrix公司的Simon Cawley和Earl Hubbell在提供SNP数据和宝贵反馈方面的慷慨帮助。我们要感谢亨利克·本特森、大卫·克莱顿、弗朗索瓦·科林、乔恩·麦考利夫和本杰明·鲁宾斯坦提供了周到的评论。NIH拨款RO1LM07609-01为支付本文的开放存取出版费用提供了资金。

利益冲突:没有声明。

参考文献

Affymetrix公司。
GeneChip®Human Mapping 100 K套装
2005
博尔斯塔德
B.M.公司。
,等人
基于方差和偏差的高密度寡核苷酸阵列数据归一化方法比较
生物信息学
2003
,卷。 
19
(第
185
-
193
)
十、。
,等人
基于动态模型的寡核苷酸芯片上100K以上SNP筛选和基因分型算法
生物信息学
2005
,卷。 
21
(第
1958
-
1963
)
人类基因组单体型图
国际hapmap财团
自然
2003
,卷。 
426
(第
789
-
796
)
爱尔兰语
注册会计师。
,等人
高同源性寡核苷酸阵列探针水平数据的探索、规范化和总结
生物统计学
2003
,卷。 
4
(第
249
-
264
)
肯尼迪
总承包商。
,等人
复杂DNA的大规模基因分型
自然生物技术
2003
,卷。 
21
(第
1233
-
1237
)
线路接口单元
W。
,等人
大规模基因分型芯片的算法
生物信息学
2003
,卷。 
19
(第
2397
-
2403
)
首席风险官。
线性统计推断及其应用
2002
第二版
纽约州
威利

作者注释

副主编:Martin Bishop

本文的在线版本是在开放存取模式下发布的。用户有权出于非商业目的使用、复制、传播或展示本文的开放获取版本,前提是:原始作者是正确和充分的;《华尔街日报》和牛津大学出版社被认为是原始出版地,并提供了正确的引用细节;如果一篇文章随后不是全部复制或传播,而是部分复制或作为衍生作品传播,则必须明确指出。如需商业再使用,请联系journals.permissions@oxfordjournals/org