跳到主要内容

在存在遗传拷贝数变异的情况下实现准确的高通量SNP基因分型

摘要

背景

最近发现人类普遍存在拷贝数变异,这迫使人们改变了在整个常染色体基因组中每个基因座每个细胞有两个拷贝的假设。特别是,SNP位点不再总是能够准确地分配给个体中的三种基因型之一。在存在拷贝数变异的情况下,个体理论上可能携带任意数量的两个SNP等位基因的拷贝。

结果

为了解决这个问题,我们开发了一种从原始SNP微阵列数据推断“广义基因型”的方法。在这里,我们将我们的方法应用于48个人的数据,发现了数千个异常SNP,大多数位于以前未报告为拷贝数变异的区域。我们表明,我们的等位基因特异性拷贝数遵循孟德尔遗传模式,在缺乏SNP等位基因信息的情况下,这种模式会被掩盖。我们的数据中重复和点突变之间的相互作用揭示了这些事件在人类历史上的相对频率,表明至少有一些重复事件是反复发生的。

结论

这种新的SNP多等位基因观点在疾病关联研究中具有复杂的作用,需要进一步的工作才能准确评估其重要性。在线免费提供从SNP阵列数据进行广义基因分型的软件[1].

背景

拷贝数变体(CNV)是指长度至少为1kb的染色体片段,其(种系)拷贝数在人类群体中的个体间存在差异[2]. 由于这些重复和缺失在各种疾病研究中的重要性[6]随着实现这一目标,对它们进行编目并评估其频率已成为一个重要目标。为此,最近的两项研究[7,8]利用错误的SNP基因型调用,推断违反孟德尔遗传或其他条件的调用集群中的种系缺失。然而,由于(双列)假设有三种可能的基因型,因此出现了违规现象(例如.GG、GT或TT)。如果放松了每个位点有两个拷贝的假设,那么当考虑碱基残基和拷贝数时,可以考虑SNP是多等位基因的广义基因型。例如,个体可能在SNP位点携带GGT(重复)、G-(半合子缺失)或-(纯合缺失)基因型。据最新估计,携带CNV的基因组比例至少为12%[9]在疾病研究中,允许更普遍的基因型对SNP分型的准确性至关重要。当然,这样直接准确的输入会自动显示CNV。

基因芯片人类映射阵列集[10]是一个流行的高通量SNP基因分型平台。我们使用来自平台版本的数据(这里称为SNP阵列),该平台可以查询超过500000个SNP站点。因为85%的基因组位于阵列上至少一个SNP的10 kb范围内[10],到目前为止报告的许多大小的重复和删除应该包含阵列上表示的几个SNP位点。事实上,其490032个常染色体SNP中有58353个包含在迄今为止文献中报道并在基因组变异数据库中编目的至少一个CNV中[11]. 在早期的研究中[12]我们利用阵列数据以等位基因特异的方式检测癌症样本中的体细胞拷贝数变化,在双列杂交条件下也显示出极高的基因分型准确率(>99.7%)。因此,我们在本研究中努力将此方法应用于来自“表型正常”个体的SNP阵列数据,以提供广义基因型,从而允许如上所述的生殖系CNV。这种方法有点类似于数组CGH[13]检测CNV的方法,但至少有两个优点。首先,在阵列CGH分析中很难确定与副本2的明显偏差是测试样品或参考样品中CNV的结果。在我们的方法中,我们利用了一个由个体组成的大型参考群体,确保参考信号基本上是双拷贝的,除了可能存在非常常见的CNV的区域。其次,虽然阵列CGH平台缺乏等位基因特异性信息,但SNP阵列由寡核苷酸探针组成,可以区分每个SNP的两个等位基因。我们的方法将这些探针的强度建模为等位基因特异性拷贝数的函数,该拷贝数直接决定广义基因型。通过应用统计模型拟合程序,从SNP阵列数据推断出拷贝数。

结果和讨论

检测到的畸变

我们分析了48名不同种族背景的个体的SNP阵列数据。作为参考小组,我们使用了16名非裔、非裔美国人、亚裔、欧洲人和西班牙裔的无关个人(见方法)。种族多样的参考样本组将反复出现的CNV偏离“拷贝数2”参考信号的可能性降至最低。将我们的算法应用于阵列上的所有自体SNP,我们发现21568个SNP位点显示异常基因型(附加数据文件1)。其中,17390例检测为重复(总拷贝数>2),5051例检测为半合子缺失(总拷贝数量1),214例检测为纯合缺失(总副本数量0)。共有881个位点被检测为重复和缺失。21568个SNP可分为5622个连续重复SNP区域和1130个连续删除SNP区域。复发方面,3721(17.3%)个SNP在多个个体中异常(图1a个),48个个体中有24个SNP(rs1842908)显示为非二倍体基因型。

图1
图1

我们研究中异常SNP的频率对于每个SNP,统计该位点异常的样本数。我们构建了多个样本中异常SNP的频率直方图。()每次计数c(c)在水平轴上,横条的高度表示在c(c)48个样本中的样本。(b条)与相同但将所有三个后代都去掉,因此只考虑了35个不相关的样本。

实验验证

为了使用独立的实验手段验证我们的发现,我们使用样本集中个人的DNA,对30个可能含有异常SNP的区域进行了定量实时PCR(qPCR)实验。表中给出了qPCR结果与我们的基因型推断的比较1总的来说,26(86.7%)的qPCR结果与我们预测的CNV的存在和类型(重复或缺失)一致生物信息学方法。这四个不一致基因座有多种潜在原因。由于PCR引物明确设计为避开SNP位点(但靠近异常SNP),并且CNV可能是非常集中的,因此PCR-扩增区域可能完全错过异常位点。检测到的缺失也可能是SNP阵列测定的伪影,因为限制性片段中其他地方的缺失或重复可能导致其长度移动到测定的PCR步骤将扩增的长度范围之外[10]. 如上所述,人类群体中常见的CNV是另一个潜在的误差源,因为隐含地假设参考面板主要在每个基因座的每个细胞中包含两个拷贝。为了提供进一步的独立验证,我们还进行了多重连接依赖性探针扩增(MLPA)[14]在17个其他假定CNV上的实验(图2和其他数据文件2)。生物信息学基因型与qPCR结果相似。

表1比较生物信息学在体外30个推测异常SNP的结果。这里,二倍体基因型是指SNP阵列默认软件[24]提供的基因型,假设有两个SNP拷贝。显示的错误是CNV存在时的典型错误。这里的异常基因型是我们算法的调用。如果四舍五入的qPCR拷贝数小于2(删除)或大于2(复制),我们认为假定的CNV是有效的。
图2
图2

之间的一致性 生物信息学 和MLPA结果我们根据SNP阵列数据中的原始总拷贝数推断绘制了MLPA导入剂量(参见方法)。每个SNP位点的标绘符号是我们程序推断出的基因型,颜色表示样本。除了一个样本NA18612(黑色)外,一致性非常强,这可能是由于噪声阵列数据或该颗粒样本的实验困难所致。

孟德尔遗传考虑

它已经很成熟了[9,15,16]不同个体中存在以重复和缺失形式存在生殖系CNV的基因组区域。事实上,变体形成的非等位同源重组模型在同一位点同时产生重复和缺失。由此可见,随着这些变异体在群体中分离,将有个体在同一位点同时携带增益和损耗,尽管在不同的亲本染色体上。异常基因型设置中孟德尔遗传的可观察模式与双列SNP基因分型或总拷贝数测量中的不同,忽略CNV的存在可能会导致基因分型错误导致非孟德尔遗传出现错误(图3a年和附加数据文件)。真正的非孟德尔遗传,例如从头开始事件(图3亿和其他数据文件)也可以伪装。当只测量总拷贝数而忽略等位基因信息时,也会发生这些错误。将生殖系CNV误解为从头开始,或反之亦然,可能具有重要意义,特别是在临床环境中,当从未受影响的父母那里遗传时,受影响个体中的此类变异被认为不太相关[17]. 对于多等位基因SNP基因型,我们应该能够区分这两个病例。我们能够在我们的数据集中检查13个母子三人组中孟德尔遗传的异常SNP。考虑到SNP和拷贝数变异,这四个个体1771例假定异常SNP中有1535例(86.7%)表现出孟德尔遗传。非孟德尔事件的可能解释包括从头开始使用SNP阵列平台检测到的CNV或单亲二体症[1820]. 或者,检测到的CNV可能是细胞系培养的伪影,如[9].

图3
图3

CNV存在下的孟德尔和非孟德尔遗传模式. ()虽然左边的父母在基因座上有第二个拷贝,但这是一个染色体重复而另一个染色体缺失的结果。标准(双列)基因分型方法会错误地识别出这三个基因座上的非孟德尔模式,仅总拷贝数信息也是如此。然而,考虑到CNV,准确的基因分型显示出这种模式是孟德尔模式。(b条)从头开始当仅考虑双列基因分型时,缺失被掩盖,尽管拷贝数信息揭示了这一事件。

重复中的SNP等位基因

检测重复区域的SNP等位基因组成可以深入了解人类群体中拷贝数变异的历史。如果一个SNP位点与(单倍体)第二拷贝重复,理论上该SNP有五种可能的单倍体基因型:AA、AB、BB、a和B,其中a和B是SNP位点的两个碱基残基。这五种单倍体基因型中每一种的存在与否都揭示了该基因座重复事件以及导致SNP的点突变的复发和时间顺序。例如,AA和BB的存在意味着在a和B SNP背景上都会发生重复。为了进行实证研究,我们详细检查了496个异常位点(见方法)。我们没有发现在重复的每个拷贝上有不同碱基残基的单个染色体(即AB染色体)的证据(图4a类)。因此,最近注意到的“双子SNP”现象是不太可能的[21]在CNV中,节段性重复是常见的。这也与HapMap联盟的结论一致[22]导致SNP的点突变在很大程度上是非复发性的。在绝大多数情况下,我们的样本集中只有一个SNP等位基因重复。然而,六个SNP位点(1.2%)同时存在AA和BB染色体。这两种类型的存在表明,至少一些复制事件在人类历史上最有可能重复发生(其他解释似乎不太可能,特别是考虑到完全没有任何AB染色体的证据)。例如,10号染色体上的rs7895458(图4b个),包含在先前已知的重复区域中[9]. 在我们的数据集中,一个白人家庭——NA12056(父亲)和NA10851(孩子)——在两个拷贝中都与SNP的C等位基因重复。另一方面,日本个体NA18959在两个拷贝中都与SNP的G等位基因重复。有趣的是,dbSNP数据库[23]列出了C的等位基因频率在白种人中为65%,但在日本人群中仅为15%。这些重复是在[9]尽管在这项研究中忽略了SNP等位基因信息,但在这三个个体中都存在。同样,SNP阵列制造商的[24]NA10851的CC和NA18959的GG双列呼叫是错误的,尽管这与他们的双拷贝假设相符。这个例子指出了同时考虑拷贝数和SNP残基可以获得的见解。

图4
图4

重复状态与SNP等位基因的相互作用. ()在496个询问的重复位点中,我们观察到6例(1.2%)同时具有AA和BB染色体,而没有一例具有AB染色体。当只有一个SNP等位基因明确重复时,92.5%的时间是我们样本集中的主要等位基因。(b条)。一个白种人三人组和一个日本人个体的双子中含有不同的SNP等位基因的例子。

与以往工作的比较

由于我们检测到的异常SNP自动指示CNV的存在,我们将这些位点的基因组坐标与文献中先前报道的CNV进行了比较。在我们的21568个SNP基因座中,5537个(25.7%)包含在基因组变异数据库中被列为CNVs的区域中,而在SNP阵列上的490032个常染色体SNP中,只有11.9%包含在这些区域中。虽然这表明重叠比偶然发现的要多,但我们发现的大多数基因座都是新颖的。然而,我们可以预期,在我们的数据集中,反复变异的SNP在普通人群中通常会以更高的频率存在,因此更有可能在之前被发现。事实上,如果我们将注意力局限于样本集中至少两个无关个体中异常的SNP,我们发现1905个SNP中有1062个(55.7%)存在于之前报道的CNV中。随着样本中SNP变异率的增加,其先前被报道的可能性继续增加——在我们至少10%的无关样本集中变异的351个SNP中,超过95%包含在先前报道的CNV中。因此,尽管我们报告了数千种新的CNV,但我们的结果在某种意义上与在人群水平上所揭示的结果相一致。因为已经证明,染色体内片段重复之间的序列容易发生CNV[25],我们还检查了这些“热点”的丰富程度[16]在我们的CNV集合中。结构变异数据库中报告的这些区域中仅包含2336个(10.8%)我们的异常SNP位点,这仅比阵列上所有常染色体SNP的比例略高(8.1%)。

拷贝数变异区域的基因

许多先前被确认为多态性的基因在代谢和免疫方面具有功能,可能是正常人类变异和基因组疾病的介导者。我们在数据中汇编了转录的CNV列表,以及基因本体[26]与这些转录本相关的(GO)术语。我们检查了我们的GO术语列表,与阵列上表示的所有包含SNP的基因相比,GO术语的出现率在统计学上更高(参见方法)。这使我们能够鉴定出与细胞表面结构、谷氨酸代谢和信号传递有关的几类有趣的基因,以及具有代谢、酶和神经功能的基因。与之前的研究一致,我们证实了在DUSP22、NCAM2等基因中存在CNV[27]和NF1[16]. 我们的列表中还存在已知影响“正常”人类表型的基因,例如拷贝数多态性嗅觉受体基因[28]和神经肽Y4受体PPYR1[27]它直接参与食物摄入和体重的调节[29]. 此外,还观察到一些与免疫系统反应有关的“环境传感器”基因,包括粒细胞分化、受体介导的内吞、抗生素反应、IgG/IgE同型转换的调节、NK细胞活性的调节、IL-4受体结合和MHC 1类受体活性。此外,大量CNV富集类具有受体和/或信号功能。值得注意的是,之前报道的一些拷贝数变异基因,如谷胱甘肽S-转移酶基因GSTM1和GSTT1,没有在SNP阵列上表示,可能是因为它们会给出模糊的基因型调用。

结论

我们提出了第一种根据微阵列数据进行SNP基因分型的计算方法,在一般情况下,个体不限于每个细胞有两个SNP位点拷贝。我们的工作通过几个例子强调了同时考虑拷贝数和SNP等位基因信息的相关性。我们在不同种族的人类中发现了数以万计具有异常基因型的SNP,对应于数千种新的CNV。很可能我们的结果实际上大大低估了人群中异常SNP的流行率,因为阵列制造商故意排除了违反哈代-温伯格平衡、孟德尔遗传和其他质量控制要求的SNP[10]这在CNV在场的情况下自然无法实现。此外,我们自己的要求是,至少有三个连续的SNP显示CNV是非常保守的,并且根据定义将省略更多的焦点事件(实际上,我们的方法可以按照需要以这种方式进行调整,以控制假阳性/假阴性权衡)。由此可见,这些在人群中分离的多等位基因SNP的数量和频率可能比先前怀疑的要大得多,因此我们在这里描述的广义基因分型在使用SNP作为标记物的研究中至关重要。我们的工作是朝着这个方向迈出的一步,尽管目标应该是达到双列设置中假定的高准确率(>99%)。这种高度准确的基因分型将自动提供有关CNV存在或不存在的信息。鉴于精确绘制这些生殖系CNV边界的困难(最近的证据表明,种群中个体之间的边界实际上是不同的[30]),并且考虑到基因组上SNP的密度,我们建议将异常SNP基因分型作为从SNP阵列数据中分类CNV的其他方法的替代方法[31]. 这些基因型映射到精确的基因组位置,并提供有关拷贝数和碱基残基的信息。由此产生的多等位基因将有助于疾病关联研究,无论这些更准确确定的SNP等位基因实际上是因果遗传变异,还是仅仅用作标记。由于现存数千个SNP阵列样本,这些通过群体分离的多等位SNP将被识别并确定其频率。我们已经开发了一种软件,可以在我们的网站上免费获得,用户可以使用自己选择的参考面板扫描阵列中的异常SNP。随着平台吞吐量的增加和成本的降低,准确的多等位基因分型将更加重要。

方法

SNP阵列数据和生物样本

来自48个人的原始.cel文件–NA10851、NA10855、NA10863、NA11831、NA11832、NA12056、NA12057、NA12234、NA12264、NA12707、NA12716、NA12717、NA12801、NA12812、NA12813、NA18503、NA18504、NA18505、NA18506、NA18507、NA18508、NA18515、NA18516、NA18517、NA18532、NA18545、NA18558、NA18605、NA18612、NA18959、NA18967、NA18969、NA18997、,NA19137、NA19138、NA19139、NA19152、NA19153、NA19154、NE00088、NE00090、NE00091、NE00375、NE00403、NE00598、NE00963、NE01118和NE01119–在映射500 K样本数据集中,从Affymetrix网站下载[32]. 这些人是非洲人(15人)、欧洲裔美国人(15人)、汉族人(5人)、日本人(4人)、非裔美国人(3人)、亚裔美国人(3人)和西班牙裔美国人(3人)。其中20人的DNA和细胞系来自Coriell细胞库,用于qPCR和MLPA实验。

广义基因分型和候选CNV

我们使用了16名个体(NA11831、NA12057、NA18505、NA18507、NA18517、NA18532、NA18545、NA18558、NA18959、NA18967、NA18969、NA19138、NA19152、NE00090、NE00403和NE01119)作为我们的参考小组,选择这些个体是因为它们不相关,并且来自不同的种族背景。使用这16个数据,我们训练了PLASQ[12]模型参数如所述。然后,我们使用PLASQ推断测试样本中的“原始”等位基因特异性拷贝数(ASCN),限制了我们对常染色体的关注。原始ASCN的两两总和产生原始总拷贝数,总拷贝数四舍五入为最接近的整数。总拷贝数偏离两个的呼叫提供了异常SNP的初步列表。通过将总拷贝数的整数部分分配给每个等位基因,将这些基因转换为广义基因型,以便尽可能保留(最近整数)原始ASCN。为了丰富我们的真阳性候选集,我们将注意力限制在至少三个在同一方向(重复或缺失)具有畸变的独立畸变SNP序列中的SNP。在这种情况下,我们认为只有当相邻SNP位于不同的限制性内切酶片段上时,它们才是独立的,因为片段特异性伪影在SNP阵列协议的PCR步骤中出现[10]可能会影响片段上的所有SNP。

CNV的PCR验证

使用PRISM 7900HT序列检测系统(384孔)(加利福尼亚州福斯特市应用生物系统公司)通过定量实时PCR测定相对基因拷贝数。实时PCR在12.5-μl(384孔)与2 ng模板DNA反应。PCR反应使用QuantiTect SYBR Green PCR试剂盒(加利福尼亚州巴伦西亚Qiagen Inc.)。PCR条件如下:50°C下2 min,95°C下15 min,然后40个三步循环(95°C时20 s,58°C时20s,72°C时30 s)。

使用Primer 3设计底漆[33]由综合DNA技术公司(IDT;Coralville,IA)合成。可根据要求提供引物序列。定量是基于人类正常基因组DNA的一系列稀释的标准曲线。标准曲线法用于计算归一化为重复元素Line-1和正常参考DNA的每个DNA样本中的目标DNA拷贝数。对于我们的参考样本,我们使用了来自多个匿名捐赠者(Promega,Madison,WI)的女性基因组DNA库,因为来自多个个体的DNA组合应该会稀释除最常见拷贝数变体以外的所有变异。

CNV的MLPA验证

定制的MLPA探针设计用于匹配原始SNP位置300 bp内的合适序列。对照探针取自其他染色体位置,以前曾用于分析100多个没有拷贝数变异证据的个体[34]. 寡核苷酸由IDT合成,每个下游探针5'-磷酸化,并用通用PCR引物序列标记[14]. 根据推荐方案,使用MLPA试剂(零件号EK5,MRC-Holland BV,阿姆斯特丹,荷兰)将探针与100 ng等分DNA杂交。然后将样品稀释10倍,并使用GeneMapper软件(Applied Biosystems)在3730xl测序仪上进行分析。我们使用了来自多个匿名捐赠者(普罗米加、麦迪逊、威斯康星州)的男性和女性基因组DNA库。此外,峰高比归一化为整个数据集的平均值,而不是仅归一化到对照组,随后从平均值的计算中消除了异常值样本。我们在特征化删除方面的经验表明,只要拷贝数改变的样本占少数(数据未显示),这种方法与对照组的标准化结果相当。

重复序列中SNP等位基因的分析

确定重复中包含哪些SNP等位基因与SNP单倍型测定面临相同的阶段性困难。为了最大限度地提高我们确定正确阶段的能力,我们只考虑了在至少一个三代后代中复制到总拷贝数为3的SNP位点,其中一个父母有拷贝数为三,另一个父母或两个或三个。为了避免一条染色体上出现缺失的可能性,我们忽略了任何个体中缺失区域中包含的所有位点(无论是在我们的数据中还是在基因组变异数据库中)。这给我们留下了496个SNP,我们试图通过阶段划分和个体基因型检测来检测样本集中AA、AB、BB、A和B染色体的存在(参见附加数据文件4)。请注意,缺少检测并不一定表示没有检测,但可能是相位不明确的结果。

与以前发表的CNV和片段复制的比较

之前发布的CNV是在基因组变异数据库(构建35坐标)中编目的CNV(截至2006年12月4日)。“重排热点”[16]是长度在50kb到10Mb之间的区域,两侧有长度至少为10kb的片段重复,序列同源性至少为95%。这些节段复制的构建35坐标从节段复制数据库下载[35]2006年12月4日。

CNV GO相关性的统计分析

我们使用UCSC基因组浏览器(构建35)将阵列上的所有SNP映射到它们的基因组位置。11944个基因的转录区域包含阵列上至少一个(常染色体)SNP,构成了我们的“基因世界”。我们的复制基因和删除基因是那些在48个样本中至少有一个样本中分别具有重复或删除的含有SNP位点的转录物的基因。我们利用了R[36]软件包GOstats[37]测试我们复制和删除的基因在某些GO术语中的统计富集(如hgu133plus2软件包所述)[38]. 简而言之,对于一个固定的GO术语,该软件使用我们基因宇宙中的所有基因,对重复或删除状态与该术语注释之间没有关联的无效假设进行Fisher精确测试。

工具书类

  1. CNVgeno R包。[http://genetics.case.edu/LaFramboise/CNVgeno/]

  2. Feuk L、Carson AR、Scherer SW:人类基因组的结构变异。Nat Rev基因。2006, 7 (2): 85-97. 10.1038/nrg1767。

    第条 中国科学院 公共医学 谷歌学者 

  3. Pollack JR、Sorlie T、Perou CM、Rees CA、Jeffrey SS、Lonning PE、Tibshirani R、Botstein D、Borresen-Dale AL、Brown PO:微阵列分析揭示了DNA拷贝数改变在人类乳腺肿瘤转录程序中的主要直接作用。美国国家科学院学报,2002,99(20):12963-12968。10.1073/pnas.162471999。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  4. Lucito R、Healy J、Alexander J、Reiner A、Esposito D、Chi M、Rodgers L、Brady A、Sebat J、Troge J、West JA、Rostan S、Nguyen KCQ、Powers S、Ye KQ、Olshen A、Venkatraman E、Norton L、Wigler M:代表性寡核苷酸微阵列分析:检测基因组拷贝数变异的高分辨率方法。《基因组研究》2003,13(10):2291-2305。10.1101/gr.1349003。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  5. LaFramboise T、Weir BA、Zhao X、Beroukhim R、Li C、Harrington D、Sellers WR、Meyerson M:SNP阵列分析揭示的癌症中的等位基因特异性扩增。公共科学图书馆计算生物学。2005年,1(6):e65-10.1371/journal.pcbi.0010065。

    第条 公共医学中心 公共医学 谷歌学者 

  6. Freeman JL、Perry GH、Feuk L、Redon R、McCarroll SA、Altshuler DM、Aburatani H、Jones KW、Tyler-Smith C、Hurles ME、Carter NP、Scherer SW、Lee C:拷贝数变异:基因组多样性的新见解。《基因组研究》2006,16(8):949-961。10.1101/gr.3677206。

    第条 中国科学院 公共医学 谷歌学者 

  7. Conrad DF、Andrews TD、Carter NP、Hurles ME、Pritchard JK:人类基因组中缺失多态性的高分辨率调查。自然遗传学。2006, 38: 75-81. 10.1038/ng1697。

    第条 中国科学院 公共医学 谷歌学者 

  8. McCarroll SA、Hadnott TN、Perry GH、Sabeti PC、Zody MC、Barrett JC、Dallaire S、Gabriel SB、Lee C、Daly MJ、Altshuler DM:人类基因组中的常见缺失多态性。自然遗传学。2006, 38: 86-92. 10.1038/ng1696。

    第条 中国科学院 公共医学 谷歌学者 

  9. Redon R、Ishikawa S、Fitch KR、Feuk L、Perry GH、Andrews TD、Fiegler H、Shapero MH、Carson AR、Chen W、Cho EK、Dallaire S、Freeman JL、Gonzalez JR、Gratacos M、Huang J、Kalaitzopoulos D、Komura D、MacDonald JR、Marshall CR、Mei R、Montgomery L、Nishimura K、Okamura K,Shen F、Somerville MJ、Tchinda J、Valsesia A、Woodwark C、Yang F、Zhang J、,Zerjal T、Zhang J、Armengol L、Conrad DF、Estivill X、Tyler-Smith C、Carter NP、Aburatani H、Lee C、Jones KW、Scherer SW、Hurles ME:人类基因组拷贝数的全球变异。自然。2006, 444 (7118): 444-454. 10.1038/nature05329。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  10. Affymetrix:基因芯片人类映射500 K阵列集数据表。2005年,圣克拉拉(加利福尼亚):Affymetrix公司

    谷歌学者 

  11. 基因组变异数据库。[http://projects.tcag.ca/variation网站]

  12. LaFramboise T,Harrington D,Weir BA:PLASQ:一种基于广义线性模型的程序,用于根据SNP阵列数据确定癌细胞中的等位基因剂量。生物统计学。2007, 8 (2): 323-336. 10.1093/生物统计/kxl012。

    第条 公共医学 谷歌学者 

  13. Snijders AM、Nowak N、Segraves R、Blackwood S、Brown N、Conroy J、Hamilton G、Hindle AK、Huey B、Kimura K、Law S、Myambo K、Palmer J、Ylstra B、Yue JP、Gray JW、Jain AN、Pinkel D、Albertson DG:DNA拷贝数全基因组测量微阵列的组装。自然遗传学。2001年,29(3):263-264。10.1038/ng754。

    第条 中国科学院 公共医学 谷歌学者 

  14. Schouten JP、McElgunn CJ、Waaijer R、Zwijnenburg D、Diepvens F、Pals G:通过多重连接依赖探针扩增对40个核酸序列进行相对定量。《核酸研究》2002,30(12):e57-10.1093/nar/gnf056。

    第条 公共医学中心 公共医学 谷歌学者 

  15. Iafrate AJ、Feuk L、Rivera MN、Listewnik ML、Donahoe PK、Qi Y、Scherer SW、Lee C:人类基因组大规模变异检测。自然遗传学。2004, 36 (9): 949-951. 10.1038/ng1416。

    第条 中国科学院 公共医学 谷歌学者 

  16. Sharp AJ、Locke DP、McGrath SD、Cheng Z、Bailey JA、Vallente RU、Pertz LM、Clark RA、Schwartz S、Segraves R、Oseroff VV、Albertson DG、Pinkel D、Eichler EE:人类基因组中的片段复制和拷贝数变异。美国人类遗传学杂志。2005, 77: 78-88. 10.1086/431652.

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  17. de Vries BBA、Pfundt R、Leisink M、Koolen DA、Vissers LELM、Janssen IM、Reijmersdal Sv、Nillesen WM、Huys EHLPG、Leeuw Nd、Smeets D、Sistermans EA、Feuth T、van Ravenswaaij-Arts CMA、van Kessel AG、Schoenmakers EFPM、Brunner HG、Veltman JA:精神发育迟滞的诊断基因组分析。美国人类遗传学杂志。2005, 77 (4): 606-616. 10.1086/491719.

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  18. Bruce S、Leinonen R、Lindgren CM、Kivinen K、Dahlman-Wright K、Lipsanen-Nyman M、Hannula-Jouppi K、Kere J:使用高密度基因分型阵列对单亲二体进行全球分析。医学遗传学杂志。2005, 42 (11): 847-851. 10.1136/jmg.2005.032367。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  19. Altug-Teber O、Dufke A、Poths S、Mau-Holzmann UA、Bastepe M、Colleaux L、Cormier-Daile V、Eggermann T、Gillessen-Kaesbach G、Bonin M、Riess O:基于快速微阵列的全基因组分析,用于检测单亲二体。哼,变种。2005, 26 (2): 153-159. 10.1002/humu.20198年。

    第条 中国科学院 公共医学 谷歌学者 

  20. Friedman JM、Baross A、Delaney AD、Ally A、Arbour L、Armstrong L、Asano J、Bailey DK、Barber S、Birch P、Brown-John M、Cao M、Chan S、Charest DL、Farnoud N、Fernandes N、Flibotte S、Go A、Gibson WT、Holt RA、Jones SJM、Kennedy GC、Krzywinski M、Langlois S、Li HI、McGillivray BC、Nayar T、Pugh TJ、Rajcan-Separovic E、Schein JE、Schnerch A、,Siddiqui A、Van Allen MI、Wilson G、Yong SL、Zahir F、Eydoux P、Marra MA:弱智儿童基因组失衡的寡核苷酸微阵列分析。美国人类遗传学杂志。2006, 79 (3): 500-513. 10.1086/507471.

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  21. Fredman D、White SJ、Potter S、Eichler EE、Den Dunnen JT、Brookes AJ:片段基因组复制中复杂SNP相关序列变异。自然遗传学。2004, 36 (8): 861-866. 10.1038/ng1401。

    第条 中国科学院 公共医学 谷歌学者 

  22. 国际HapMap联盟:人类基因组的单倍型图谱。自然。2005, 437 (7063): 1299-1320. 10.1038/nature04226。

    第条 谷歌学者 

  23. 单核苷酸多态性数据库。[http://www.ncbi.nlm.nih.gov/projects/SNP/]

  24. Di X,Matsuzaki H,Webster TA,Hubbell E,Liu G,Dong S,Bartell D,Huang J,Chiles R,Yang G,Shen Mm,Kulp D,Kennedy GC,Mei R,Jones KW,Cawley S:基于动态模型的算法,用于在寡核苷酸微阵列上筛选和分型超过100K的SNPs。生物信息学。2005, 21 (9): 1958-1963. 10.1093/bioinformatics/bti275。

    第条 中国科学院 公共医学 谷歌学者 

  25. Shaw CJ,Bi W,Lupski JR:17p11.2互补缺失和重复中不相等减数分裂杂交的遗传证据。美国人类遗传学杂志。2002, 71 (5): 1072-1081. 10.1086/344346.

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  26. Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM、Davis AP、Dolinski K、Dwight SS、Eppig JT、Harris MA、Hill DP、Issel Tarver L、Kasarskis A、Lewis S、Matese JC、Richardson JE、Ringwald M、Rubin GM、Sherlock G:基因本体论:生物学统一的工具。基因本体联盟。自然遗传学。2000年,25:25-29。10.1038/75556.

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  27. Sebat J、Lakshmi B、Troge J、Alexander J、Young J、Lundin P、Maner S、Massa H、Walker M、Chi M、Navin N、Lucito R、Healy J、Hicks J、Ye K、Reiner A、Gilliam TC、Trask B、Patterson N、Zetterberg A、Wigler M:人类基因组中的大规模拷贝数多态性。科学。2004, 305 (5683): 525-528. 10.1126/科学.1098918。

    第条 中国科学院 公共医学 谷歌学者 

  28. Trask BJ、Friedman C、Martin-Gallardo A、Rowen L、Akinbami C、Blankenship J、Collins C、Giorgi D、Iadonato S、Johnson F、Kuo WL、Massa H、Morrish T、Naylor S、Nguyen OT、Rouquier S、Smith T、Wong DJ、Youngblom J、,van den Engh G:嗅觉受体基因家族的成员包含在人类染色体末端附近多态复制的大块DNA中。人类分子遗传学。1998, 7: 13-26. 10.1093/hmg/7.1.13。

    第条 中国科学院 公共医学 谷歌学者 

  29. Sainsbury A、Schwarzer C、Couzens M、Jenkins A、Oakes SR、Ormandy CJ、Herzog H:Y4受体敲除拯救ob/ob小鼠的生育能力。《基因发展》2002,16(9):1077-1088。10.1101/gad.979102。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  30. Goidts V、Cooper DN、Armengol L、Schempp W、Conroy J、Estivill X、Nowak N、Hameister H、Kehrer-Sawatzki H:片段重复位点拷贝数变异的复杂模式:人类基因组中一类重要的结构变异。人类遗传学。2006, 120 (2): 270-284. 2007年10月7日/00439-006-0217-y。

    第条 中国科学院 公共医学 谷歌学者 

  31. Komura D、Shen F、Ishikawa S、Fitch KR、Chen W、Zhang J、Liu G、Ihara S、Nakamura H、Hurles ME、Lee C、Scherer SW、Jones KW、Shapero MH、Huang J、Aburatani H:使用高密度DNA寡核苷酸阵列对人类拷贝数变异进行全基因组检测。《基因组研究》2006,16(12):1575-1584。10.1101/gr.5629106。

    第条 中国科学院 公共医学中心 公共医学 谷歌学者 

  32. Affymetrix网站。[http://www.affmetrix.com]

  33. 底漆3。[http://frodo.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi]

  34. Aldred MA、Vijayakrishnan J、James V、Soubrier F、Gomez-Sanchez MA、Martensson G、Galie N、Manes A、Corris P、Simonneau G、Humbert M、Morrell NW、Trembath RC:BMPR2基因重排是家族性和特发性肺动脉高压突变的重要原因。哼,变种。2006, 27 (2): 212-213. 10.1002/humu.9398。

    第条 公共医学 谷歌学者 

  35. 分段复制数据库。[http://humanparalogy.gs.washington.edu]

  36. R开发核心团队:R:统计计算的语言和环境。2006年,奥地利维也纳R统计计算基金会[网址:http://www.R-project.org]

    谷歌学者 

  37. Falcon S,Gentleman R:使用GOstats测试GO术语关联的基因列表。生物信息学。2007, 23 (2): 257-258. 10.1093/bioinformatics/btl567。

    第条 中国科学院 公共医学 谷歌学者 

  38. 生物导体。[http://www.bioconductor.org]

下载参考资料

致谢

我们感谢约瑟夫·纳多的宝贵讨论。我们还感谢基因组学核心设施勒纳研究所提供的高效基因分型服务。

作者信息

作者和附属机构

作者

通讯作者

通信至托马斯·拉夫兰博伊斯.

其他信息

作者的贡献

LEM进行了所有PCR实验,帮助完善了计算方法,并起草了部分手稿。MAA进行了所有MLPA实验,并起草了部分手稿。XL贡献了DNA处理和提取方面的专业知识。TL构思了这项研究,设计了统计方法,并撰写了手稿。所有作者阅读并批准了最终手稿。

电子辅助材料

12864_2007_924_MOESM1_ESM.xls

附加文件1:所有21568个重复和删除的SNP。此表列出了所有检测到的21568个SNP。表中包括SNP ID、基因组坐标、缺失/重复频率以及包含SNP的基因。(XLS 2 MB)

12864_2007_924_MOESM2_ESM.xls

附加文件2:电子版结果与MLPA结果的比较。该表列出了所比较的所有17个SNP位点的样本、SNP ID、基因组坐标、MLPA拷贝数、电子拷贝数和广义基因型。(XLS 21 KB)

12864_2007_924_MOESM3_ESM.pdf

附加文件3:广义基因型鉴定的孟德尔和非孟德尔遗传模式该图显示了广义基因型准确评估孟德尔遗传的两个假设案例。a) 在双列基因型的假设下,遗传似乎是非孟德尔遗传的。当考虑拷贝数变化时,孟德尔遗传被揭示出来。b) 从头开始如果仅考虑总拷贝数,则会使复制变得模糊不清。然而,真正的基因型揭示了这一事件,因为考虑到了等位基因信息。(PDF 35 KB)

12864_2007_924_MOESM4_ESM.pdf

附加文件4:补充方法。这个文件描述了我们如何在重复SNP中“定相”等位基因。(PDF 20 KB)

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

MacConaill,L.E.,Aldred,M.A.,Lu,X。等。在存在遗传拷贝数变异的情况下实现准确的高通量SNP基因分型。BMC基因组学 8, 211 (2007). https://doi.org/10.1186/1471-2164-8-211

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2164-8-211

关键词