跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2007年9月11日;104(37): 14616–14621.
2007年8月21日在线发布。 数字对象标识:10.1073/pnas.0704665104
PMCID公司:项目经理1976210
PMID:17715061

尼安德特人基因组DNA序列的损伤模式

关联数据

补充资料

摘要

高通量直接测序技术最近为更新世生物基因组测序提供了可能。在这里,我们分析了尼安德特人、猛犸象和洞穴熊的DNA序列。我们发现,嘌呤在古代DNA断裂附近的位置出现过多,表明排尿减少导致了其降解。我们进一步表明,由错误编码的胞嘧啶残基引起的取代在DNA序列中表现得过多,并在分子末端显著聚集,而其他取代则很少。我们提出了一个模型,其中观察到的取代模式用于估计DNA单链和双链部分中胞嘧啶残基的脱氨基速率、单链末端的长度和刻痕的频率。结果表明,可以从更新世生物中获得可靠的基因组序列。

关键词:454,脱氨,脱尿,古基因组学

从长期死亡的生物体中检索DNA序列,通过提供已灭绝生物体和过去种群的信息,为遗传史提供了独特的视角。然而,三大技术挑战影响了此类研究。首先,当DNA保存在古代标本中时,它总是退化到一个较小的平均大小(1). 其次,古代DNA中存在化学损伤(2)可能导致DNA序列错误(). 第三,由于古DNA含量低或在许多标本中不存在,外来现代DNA的痕迹可能会导致现代DNA序列被误认为是内源性古DNA序列(46). 最近,454生命科学公司(454)开发了一种基于PCR产生的DNA模板的高度并行焦测序的DNA测序方法(7). 这种方法允许在短时间内测定数十万个长度为100或250 nt的DNA序列。它已被用于确定三种更新世物种遗骸的DNA序列:长毛象(8,9),一只洞穴熊(9)和一个尼安德特人(10). 在所有情况下,检索到的大多数DNA序列都来自于在生物体死亡后定植于组织的微生物。然而,有一部分来自古代生物。事实上,这项技术的吞吐量,以及目前可用的其他测序技术(11),可以考虑对已灭绝的更新世物种的完整基因组进行测序(8,10).

在这里,我们分析了在克罗地亚文迪亚洞穴发现的约3.8万年前尼安德特人标本454平台上测定的DNA序列(10,12)关于对古代DNA基因组研究具有特殊意义的两个特征。首先,我们研究了古代DNA链断裂的DNA序列背景。这在以前是不可能的,因为当PCR用于检索古代DNA序列时,通常使用针对特定DNA序列的引物,因此古代DNA分子的末端无法被揭示。其次,我们研究了古代DNA序列中核苷酸错误整合的模式及其在古代DNA片段中的位置。尽管有强有力的证据表明,大多数这类错误药物是由于胞嘧啶残基对尿嘧啶残基的脱氨基作用所致()编码为胸腺嘧啶残基,目前尚不清楚在古代DNA中是否存在其他明显频率的编码错误病变,也不清楚编码错误病变是如何沿古代DNA分子分布的。相关时,我们使用约43000年前长毛象骨骼的可比数据(9)来自俄罗斯Bol'shaya Kolopatkaya河的奥地利Ochsenhalt洞穴的约42万年前洞穴熊骨(13)和质粒载体中克隆的Vindija Neandertal的DNA序列(14)询问所看到的模式是更新世DNA序列的一般特征还是由454测序过程引起的。最后,我们开发了一个模型,该模型允许我们评估古代DNA保存的特征,并讨论我们的发现对确定更新世生物的完整基因组序列的影响。

结果和讨论

454流程。

由于454测序过程的各个方面对所介绍的分析至关重要,我们简要回顾了其一些基本特征。在第一步中,将双链DNA提取物末端修复并连接到两个不同的合成寡核苷酸适配器a和B。从每个成功连接的分子中,分离出一条DNA链并进行乳化PCR,在此过程中,每个模板与其他模板在带有与其中一个适配器互补的寡核苷酸的Sepharose珠上保持分离,生成每个涂有约1000万份DNA分子的珠。然后将多达800000个含DNA的珠加载到多孔玻璃板上,其序列由焦磷酸测序确定(7).

模板DNA的末端修复和适配器的连接对本文的分析至关重要,在以下内容中进行了更详细的描述图1首先,T4类DNA聚合酶用于去除单链3′-外伸端并填充5′-外垂端(图1ii(ii)). 同时,通过使用T4类多核苷酸激酶。因此,虽然最终生成的序列的5′末端反映了古代DNA片段中的5′端,但3′末端对应于相反的非序列链上的末端5′位置,不一定是序列链的原始3′端。适配器连接通过两个酶步骤实现。首先,两个双链适配器A和B连接到目标分子的5′端,这两个适配器没有磷酸化以避免形成适配器二聚体(图1). 捕获带有至少一个B适配器的连接产品,并替换绞合线英国标准时间DNA聚合酶用于使结扎产物完全双链,取代下游的连接链(图1iv(四)). 最后,通过NaOH介导的两条DNA链变性,A到B链被释放、回收并用作乳液PCR的模板,而B到A链仍然固定在珠子上(图1).

保存图片、插图等的外部文件。对象名称为zpq0280769110001.jpg

454库准备过程。双链DNA分子()(黄色)由T4类DNA聚合酶,5′-磷酸化(星形)T4类多核苷酸激酶(ii(ii))并连接到一条非磷酸化双链适配器A(绿色)和B(蓝色)上(). 携带生物素化B适配器的连接产物被捕获在链霉亲和素珠(红色)上,股线置换英国标准时间DNA聚合酶用于延长适配器和模板之间的缺口(iv(四)). 然后DNA链变性,释放A到B链()分离并用作乳液PCR的模板。

古代DNA片段。

为了研究古代DNA的断裂是主要发生在某些碱基上还是在某些序列背景下,我们分析了DNA序列5′端和3′端附近的碱基组成,即模板DNA中断裂位点附近的碱基组成。为了避免测序错误或序列末端附近的错误合并导致结果混淆(见下文),并允许分析测序片段外的序列上下文,我们将每个454序列与参考基因组对齐,在两个方向上扩展对齐以包括整个454序列,并使用参考序列测量古代DNA模板两端的碱基组成。为了避免3′端受到454测序长度的限制,我们只使用了3′端可以通过B接头的存在来识别的序列。

图2显示了人类参考基因组的碱基组成,从尼安德特尔碱基末端以外的10个碱基分别测序到5′端和3′端序列中的20个碱基。在大多数尼安德塔尔分子中,C和G的频率分别为≈22%,A和T的频率为≈28%。因为G和C在人类基因组中的平均比例是20.5%(15)这反映在454年测序的当代人类DNA中[支持信息(SI)图5]这表明在古代阅读中对GC-rich序列有轻微的总体偏见。引人注目的是,在5′端的-1位置,即测序的5′最碱基上游的第一个位置,G的频率从分析的所有尼安德特尔读数中的≈22%提高到29%(Fisher精确检验,P(P)< 2.2 × 10−16)A的频率从≈28%提高到31%(P(P)= 3.5 × 10−10)而C和T被抑制。相反,在3′端下游+1处,C的频率(P(P)< 2.2 × 10−16)以及T(P(P)= 1.32 × 10−5)升高到≈30%,而G和A降低。在5′-最有序的位置,A被压到23%(P(P)< 2.2 × 10−16)而T升高到31%(P(P)= 4.7 × 10−13),而在3′-最测序的位置,A升高到32%(P(P)= 2.8 × 10−12)T降低到23%(P(P)< 2.2 × 10−16).

保存图片、插图等的外部文件。对象名为zpq0280769110002.jpg

尼安德特人DNA序列末端的碱基组成。人类参考序列的基本组成是尼安德特人序列5′端和3′端距离的函数。

虽然454个序列的5′端代表已测序古模板链的5′-断裂的位置,但3′端代表互补链上5′-断的位置(图1). 因此,数据表明,在链断裂之前,鸟嘌呤残基和腺嘌呤残留物相对于胞嘧啶和胸腺嘧啶残基升高。当用同样的方法分析由454过程测序的现代人类DNA时,在链断裂附近看不到嘌呤的升高,而是C的轻微升高和a在-1位置的降低(图2). 这表明尼安德特人数据中所见的模式是由于影响古代DNA的碎片化过程,而不是由于454过程有效测序片段的偏差。从Vindija标本制备的尼安德特人DNA中,嘌呤在5′到链断裂处的出现率增加,这是典型的,这一事实得到了支持,即在质粒载体中克隆并随后测序的同一标本的尼安德特人DNA中也发现了与链断裂相邻的过量鸟嘌呤残基(14) (SI图5). 有趣的是,克隆的尼安德特人序列的总GC含量约为50%,而人类基因组的GC含量为41%(15),这表明克隆过程的某些特征引入了对富含GC的古老序列的偏见,这种偏见比直接454测序强。

在猛犸象和洞穴熊中(SI图5)DNA直接在454平台上测序,在断裂附近同样可以看到G和A的过量。然而,在洞穴熊中,A的增加量大于G。这些结果表明,嘌呤(G和A)可能在许多或大多数古代标本中立即过量表达5′链断裂。可能导致这一现象的机制是去排尿,即从DNA的脱氧核糖磷酸骨架水解嘌呤碱。脱尿事件发生后,糖磷酸主链易被3′水解到脱尿部位(16). 在许多情况下,脱尿都会影响DNA(17)和无基位点已被证明存在于古代DNA中(1). 然而,值得注意的是,这似乎只能解释直接测序的尼安德特人样本中所有股断裂的10%。

还应注意的是,除了断裂附近嘌呤的升高外,在一些样品中还可以看到分子末端附近的其他碱基组成畸变。在猛犸象中,在链断裂上游的第二个位置存在多余的T和减少的G。这也见于一个永久冻土保存的乳齿象样本(未发表的观察结果),表明这可能与永久冻土环境有关。有必要对几个古代标本进行进一步分析,以阐明在不同保存条件下的古代DNA样品中,除排尿外,DNA链断裂的发生频率。

核苷酸合并不当。

因为每个454序列都是从一个单链分子衍生出来的,所以与相关基因组的12个可能的碱基差异(例如C到g)中的每一个都可以与它的互补变化(例如g到C)区分开来(9,18). 因此,可以估计每种可能的核苷酸错误整合的模式和流行率。当对大量454个序列进行读取时,任何单核苷酸(例如C)改变为另一特定核苷酸(例如T)的替换数量应等于互补核苷酸(例如g)改变为互补核苷酸(即A)的替换次数,除非发生核苷酸错误整合(9). 当在更新世生物的DNA序列中分析这种股当量的互惠核苷酸替换时,C到T的变化比G到A的变化更频繁(9,10,18). 此外,与从现代DNA测定的DNA序列相比,G到A和C到T的变化率都高于其他两个转变率。然而,有充分证据表明,古代DNA中胞嘧啶残基去氨化为尿嘧啶残基是导致过量的C到T取代的原因(),从G到A的替换是难以捉摸的。它们可能是由鸟嘌呤残基脱氨基为黄嘌呤(X)残基引起的,黄嘌呤的DNA聚合酶在454测序过程中作为腺嘌呤残留物读取这些残基,从而可能导致G到A的错误合并(9). 然而,由于DNA聚合酶将X误读为A的效率很低,尚不清楚这是否足以解释观察到的效果。

我们分析了12个取代中每一个发生的频率,作为它们分别与尼安德特人DNA序列的5′端和3′端(由B接头的存在定义)的距离的函数。图3表明与先前的发现一致,C到T和G到A的取代率显著升高,而其他取代率相似且较低。然而,引人注目的是,C到T和G到A的取代在DNA分子中分布不均匀且不同。在分子的最5′核苷酸位置,C到T取代的频率比其他取代至少高出50倍,其中人类参考序列中约21%的所有胞嘧啶残基在古代序列中被视为胸腺嘧啶残基。然后,在分子的第一个≈10个核苷酸上,C到T的取代迅速减少,之后,它们向3′端稳定地减少,尽管相对于其他取代(G到A除外),它们仍然升高,G到A的取代似乎不会高于其他取代,直到约20个核苷酸从5′端进入分子,频率稳定增加,直到最后约10个位置,在分子的最3′端增加到约60倍于背景。其他替代物不仅更加罕见,而且随着DNA序列位置的变化似乎也没有显著变化,尽管检测任何此类变化的能力明显较低,因为它们的频率很低。

保存图片、插图等的外部文件。对象名为zpq0280769110003.jpg

尼安德特人DNA序列中的错误整合模式。将12个可能的失配频率绘制为距离5′端和3′端距离的函数。在每个位置,替换频率(例如C-T)被计算为携带C的人类参考序列位置的比例,其中454序列为T。10 5′-和10 3′-大多数核苷酸分别从3′-和5′-图中删除。

在猛犸象序列中,同样由454技术确定(SI图6),由于猛犸象和大象基因组之间的进化距离大于尼安德特人和人类基因组之间的演化距离,所有替代的数量在阅读中都较高。这使得误认公司变得更加困难。然而,很容易检测到5′端C到T取代基升高和3′端G到A取代基升高。洞穴熊产生的直接序列也是如此(SI图6). 在由进行454测序的同一尼安德特人制备的细菌质粒库中(14)插入物的5′端的C到T取代和3′端的G到A取代的升高情况类似,尽管与直接测序的DNA相比没有那么显著(SI图6). 相比之下,在以与尼安德特人DNA相同的方式分析的雾化现代人类DNA中没有发现这种增加(SI图6),表明这不是454技术的一个功能就其本身而言而是古老的DNA。

悬垂端和缺口。

由于454测序产生的5′末端代表模板分子的5′端,因此5′端C到T取代的升高必然源于某些过程,导致胞嘧啶残基被解读为胸腺嘧啶残基。胞嘧啶脱氨为尿嘧啶已被证明发生在古代DNA中(1,)并导致核苷酸错误整合(). 因此,测序的古老模板链中的脱氨基胞嘧啶残基可能是分子5′端C到T取代的原因。从表面上看,分子3′端G到A的错误结合可能是由于古代模板中的鸟嘌呤残基修饰所致。然而,考虑到分子3′端的G到A取代在频率和模式上与分子5′端的C到T取代相似,并且考虑到454个模板分子的3′端可能代表互补链上的填充5′端悬垂端(图1),我们认为3′端G到A取代的升高是原始模板分子互补5′端C到T取代的结果。事实上,尽管此前有人认为,直接454测序发现的所有错误公司都反映了测序链上的错误编码损伤(810)在454测序过程中,有两个步骤可以对要测序的链产生互补变化。首先,如果在悬垂的5′端出现编码错误的病变,例如尿嘧啶残留(图4A类),T4类DNA聚合酶将在末端修复过程中插入一个互补碱基,即腺嘌呤残基,与错误编码的尿嘧啶残基相对。随后,要么对原始受损的链进行测序,在序列的5′端附近观察到尿嘧啶残基导致的C到T替换,要么对未受损的链测序,并在序列的3′端附近观测到互补的G到a替换。第二,当绞线移位时英国标准时间DNA聚合酶用于完成适配器,酶可以从模板分子的任何缺口或缝隙延伸,取代原来的链顺流到模板链的末端(图4B类). 如果是这种情况,模板链上缺口下游出现的错误编码损伤将导致新合成的序列链上的错误组合,例如,插入尿嘧啶残基对面的腺嘌呤残基。因此,在缺口或缺口的下游,序列链上出现的错误编码损伤将被清除,而相反链上的错误编码病变将被视为错误合并。因此,5′-悬垂末端以及DNA缺口将导致分子的C到T取代率降低,而G到A取代率从5′-末端增加到3′-末端。

保存图片、插图等的外部文件。对象名称为zpq028076910004.jpg

错误编码病变和454过程。在准备454测序模板的过程中,DNA片段的末端首先通过T4类DNA聚合酶(A类),在稍后的步骤中,链接器由填充英国标准时间DNA聚合酶(B类). 在钝端修理期间T4类DNA聚合酶(A类)3′-悬垂端的误码病灶(黑圈)被移除,而5′-悬吊端的误编码病灶导致454个序列中出现互补性误码(白圈)。类似地,通过绞线置换延伸英国标准时间DNA聚合酶(B类)导致缺口或缺口下游模板DNA的错误编码损伤,从而导致生成的序列中出现互补性错误组合。

图3表明,即使在前20个5′-核苷酸之后,整个分子的C到T取代的频率也会朝着3′-末端稳步下降,而G到A取代似乎并没有上升到5′-末端。这进一步支持了以下观点,即这些模式的主要损害是影响胞嘧啶残基并导致其被解读为胸腺嘧啶残基的损害。

总之,古代DNA分子中C到T和G到A取代的模式强烈表明,古代DNA中绝大多数错误掺入是由于胞嘧啶残基脱氨基所致。作为推论,先前提出的产生G到a取代的修饰鸟嘌呤残基(9,18)与脱氨基胞嘧啶残基相比,它们要么不存在,要么很罕见。

悬垂端和脱氨。

古DNA序列5′端C到T错误整合的高频率和3′端G到A错误整合的相应高频率表明,古DNA分子5′端胞嘧啶残基的脱氨基作用显著升高。这可能是由于分子末端的胞嘧啶残基有脱氨基的倾向,或者在脱氨基的胞嘧啶残留物附近发生链断裂的倾向。在后一种情况下,人们可能会看到在链断裂周围的对齐参考序列中胞嘧啶残基的升高。然而,情况并非如此(图2). 因此,我们认为,与分子中更内部的胞嘧啶残基相比,靠近古代DNA分子末端的胞嘧啶残留物更容易脱氨。

一种可能的机制是古代DNA中存在单链悬垂末端,因为单链DNA中胞嘧啶脱氨基的速率比双链DNA高约2个数量级(17). 另一种非互斥的机制是分子末端的“DNA呼吸”,这可能导致分子部分单链,因此更容易脱氨。前一种机制得到了以下事实的支持:3′端G到A取代的升高幅度与5′端C到T取代的升高程度相似。如果这种影响主要是由单股悬垂引起的,那么这是可以预料的T4类DNA聚合酶在末端修复过程中,因为这将在每3′末端产生G到A的取代,延伸到5′末端,带有脱氨基胞嘧啶残基。相反,如果末端效应源于对双链DNA的损伤加剧,则修饰的胞嘧啶残基仅在缺口延伸步骤中得到补充,因此(除非所有分子都带有缺口)5′端C到T取代的升高将大于3′端G到A取代的升高。

古代DNA损伤模型。

鉴于上述数据,我们得出结论,胞嘧啶脱氨基是导致古代DNA中核苷酸错误整合的主要因素,古代DNA包含单链末端和缺口,这导致454个序列数据中出现明显的G到A替换。我们进一步认为,胞嘧啶脱氨基在分子的单链末端比在分子内部更普遍。通过在统计模型中形式化这些发现,我们可以估计与尼安德特人DNA降解程度相关的几个参数。

在这个模型中,我们估计了以下四个参数:刻痕的频率,我们将其建模为每基均匀概率(ν);单股悬垂端的平均长度,我们取其服从参数λ的几何分布;双链DNA中脱氨基胞嘧啶残基的频率(δ);以及单链DNA中脱氨基胞嘧啶残基的频率(δ不锈钢). 注意,该模型明确地包含了影响454测序的输出的两个点。首先,当在相对的链和彼此的下游发现缺口时,片段在454模板制备的缺口修复阶段丢失,因为当复制叉相遇时,分子会分裂。这使得序列碎片中的第一个缺口分布均匀,而不是几何分布。其次,该模型说明了454协议中的端修复步骤(图1)消除所有3′外伸端,只保留5′外伸末端。

给定此模型(详细信息请参见SI文本),我们使用最大似然来估计给定尼安德特尔数据的四个参数(表1). 估计单链DNA中脱氨基胞嘧啶残基的比例为68%(95%置信区间(C.I.),65-71%),双链DNA中的脱氨基胞苷残基比例为0.97%(C.I.,0.87-1.1%)。这与以前的工作一致(17)这表明,单链DNA中胞嘧啶残基的脱氨率比双链DNA中高约2个数量级。单股悬垂端的平均长度估计为1.6–1.8个核苷酸,单股缺口的频率为2.4%(C.I.1.7–3.6%),即每50个核苷酸约有一个缺口或间隙。请注意,虽然悬垂端长度的C.I.较窄,但缺口频率的C.I..比估计值大得多,这表明我们估计缺口频率的能力相对较低。

表1。

尼安德特人DNA序列四个特征的最大似然估计

参数MLE公司95%立方英寸。
脱氨,双链DNA(δ̂)0.0097(0.0087, 0.011)
脱氨,单链DNA(δ̂不锈钢)0.68(0.65, 0.71)
每个底座的划痕频率(ν̂)0.024(0.017, 0.036)
单股悬垂长度(λ̂)0.36(0.35, 0.38)

如果我们使用上述参数估计值沿着假设的尼安德特尔序列模拟预期的C到T和G到A误判频率,结果与观测数据非常吻合,表明我们的假设与数据大体一致(SI图7). 将此模型应用于未来的数据集将提供一个框架,用于评估通过454测序从古代DNA生成的任何核苷酸位置的错误概率,并将揭示这些参数在多大程度上因样本而异以及随保存条件而异。

基因组测序注意事项。

高通量DNA直接测序揭示了一个令人兴奋的可能性,即整个基因组原则上可以从更新世生物(如猛犸象)中确定(8)或尼安德特人(10). 然而,在这类工作中需要考虑两个主要的潜在问题:第一,古DNA损伤引起的DNA序列错误,第二,当代DNA对提取物的污染,特别是当代人类DNA对尼安德特人提取物的污染。提出的调查结果对这两个问题都有影响。

为了解决第一点,我们估计了分别在454平台上确定的尼安德特人序列和当代人类序列中所有12个替换的错误程度。为了做到这一点,我们比较了分配给人类世系和导致在454平台上确定的DNA序列与人类和黑猩猩基因组序列比对的世系的替换,并假设后一世系的任何加速都是因为核苷酸错误合并和测序错误(19). 我们的结果表明,除了C到T和G到A的错误整合外,尼安德特人序列中没有其他核苷酸错误整合的比率高于我们估计的当代人类454序列每10000 bp约4个错误的比率(SI图8). 唯一的例外是G-T错误组合,它在尼安德特人序列中似乎略有上升,但仍低于千分之一。这可能代表了少量的8-羟基鸟嘌呤,这是鸟嘌呤的氧化产物,以前在古代DNA中检测到过(2)已知会导致G-T横向变形(20,21). 因此,除了C到T、G到A,也许还有G到T的替代外,尼安德特人相对于人类和黑猩猩所观察到的核苷酸替代是可靠的,就像它们是从当代DNA中确定的一样。对于C到T和G到A替换,它们的可靠性在很大程度上取决于它们在序列读取中的位置。尽管在阅读的第一个或最后一个位置,阅读量比尼安德特人的背景水平增加了50倍以上——人类的变化(图3)在第20位,从5′端C到T的取代度仅增加≈3倍,而在第20位置,从3′端G到A的取代度增加≈2倍。使用所提出的模型,C到T和G到A替换的可靠性可以根据它们在测序读取中的位置来估计,并纳入基因组测序管道。一般来说,这种位于远离所检索分子末端的取代将相对可靠。如果最终实现了对尼安德特人基因组的充分覆盖,那么核苷酸错误公司不应阻止确定可靠的尼安德特人或猛犸象基因组序列。

关于现代人类DNA对尼安德特人DNA的污染,有人认为,内源性序列与污染序列的不同之处在于其长度更短,携带更多的核苷酸错误成分,因此,可以利用核苷酸错误成分的长度分布和程度来估计污染程度(14). 然而,内源性DNA片段的长度因化石而异,甚至因单个化石的不同部分而异(未发表的观察结果)。也不可能排除污染化石或实验室试剂的当代DNA在细胞衰变过程中或进入化石后降解到较短的平均长度(4,5). 此外,研究表明,现代人类DNA污染古代骨骼可能携带典型的古代DNA序列的核苷酸错误成分(6,22). 这表明,无论是片段大小还是错误整合都不是区分内源性DNA序列和污染DNA序列的有效方法。

确定污染的唯一方法是通过DNA序列将正在研究的生物体与潜在的污染物区分开来。其中一个这样的DNA序列是线粒体DNA(mtDNA)的高变区I(HVRI),这是从13名尼安德特人中测定出来的(12,2331)并发现与当代人不同的是多重替代。这可以用来估计尼安德特人化石提取物中内源性线粒体DNA和污染人类线粒体DNA的相对数量(10). 为了在454过程的后续阶段控制污染,可以对提取物产生的DNA序列进行类似的mtDNA序列分析。因此,从尼安德特人身上鉴定出的线粒体DNA序列不属于现代人类的变异范围(10)以及随后从454文库中检索到的所有7个mtDNA HVR序列(SI图9)显示与之前从该样本中确定的mtDNA序列相匹配的序列位置(12)并将其与现代人类mtDNA区分开来(R.E.G.,未发表的结果)。随着更多序列也可从尼安德特人基因组的其他快速进化区域获得,例如Y染色体,将有可能对这些方法产生的序列中的污染率进行更准确的估计。

尽管这种分析可以鉴定出尼安德特人的DNA提取物中没有线粒体DNA污染,并对产生的最终序列进行类似的污染分析,但我们认为,两种进一步的实验方法对于减少污染至关重要。首先,将适配器或质粒载体连接到古DNA的所有步骤都应在专门从事古DNA提取工作的实验室中进行,条件是将污染风险降至最低。其次,应使用专门设计并专门用于特定项目的适配器或载体。这将允许检测来自标本以外其他来源的DNA以及在相同设施中制备的其他DNA库的污染。尽管在生成此处分析的尼安德特人数据时没有使用此类适配器(10,14),它们现在被用于尼安德特人基因组项目。

考虑到这些预防措施以及尼安德特人DNA中核苷酸错误整合的模式,我们相信,实现可靠的尼安德特人基因组序列在技术上是可行的。

材料和方法

从454机器上的每次运行以及质粒库中读取DNA序列(14)相互对齐,以识别源自低浓度DNA库相关技术伪影的重复读取(参见SI文本详细信息)。使用Megablast 2.2.12将每个重复簇中与目标物种最匹配的序列与参考基因组对齐。然后,将该局部对齐扩展到包括整个454序列读取,直至读取结束或B适配器(参见SI文本). 结果比对用于分析比对末端参考基因组的碱基组成以及相对于参考基因组的核苷酸替换。对于模型参数估计和错误率估计,454个读数与人类(hg18)和黑猩猩(panTro2)基因组对齐。

补充材料

支持信息:

致谢

我们感谢Graham Coop、Tom Evans、Laurent Excoffier、Christine Green、Michael Hofreiter、Nick Patterson和Matthias Stiller的有益讨论,并感谢Max Planck学会的财政支持。P.L.F.J得到了美国国立卫生研究院拨款R01-GM40282(蒙哥马利·斯拉金)的支持。

缩写

454454生命科学
线粒体DNA线粒体DNA
C.I.公司。置信区间。

在证明中添加注释。

通过使用新的实验证据和对454个测序数据的重新分析,已经独立地得出了关于C到T和G到A错误公司的类似结论(32).

脚注

作者声明没有利益冲突。

数据沉积:本文中报告的序列沉积如下。直接测序的尼安德特人和猛犸象序列已保存在欧洲分子生物学实验室数据库中(尼安德特人登录号:。CAAN02000001号-电话:02470991,猛犸象登记号。中国民航02000001CAAM02064265)以及国家生物技术信息中心的基因组项目ID跟踪档案18313(尼安德特人)和17621(猛犸象)。洞穴熊和当代人类序列已保存在国家生物技术信息中心的基因组项目ID跟踪档案中19671(洞穴熊)和19675(人类)。

本文包含在线支持信息,网址为www.pnas.org/cgi/content/full/0704665104/DC1.

工具书类

1帕波·S。美国国家科学院程序。1989;86:1939–1943. [PMC免费文章][公共医学][谷歌学者]
2Höss M、Jaruga P、Zastawny TH、Dizdaroglu M、Päbo S。核酸研究。1996;24:1304–1307. [PMC免费文章][公共医学][谷歌学者]
三。Hofreiter M、Jaenicke V、Serre D、Haeseler Av A、Pääbo S。核酸研究。2001;29:4793–4799. [PMC免费文章][公共医学][谷歌学者]
4.Hofreiter M、Serre D、Poinar HN、Kuch M、Päbo S。Nat Rev基因。2001;2:353–359.[公共医学][谷歌学者]
5Pääbo S、Poinar H、Serre D、Jaenicke Despres V、Hebler J、Rohland N、Kuch M、Krause J、Vigilant L、Hofreiter M。基因年度修订。2004;38:645–679.[公共医学][谷歌学者]
6Malmström H、Stora J、Dalen L、Holmlund G、Götherstróm A。分子生物学进化。2005;22:2040–2047.[公共医学][谷歌学者]
7Margulies M、Egholm M、Altman WE、Attiya S、Bader JS、Bemben LA、Berka J、Braverman MS、Chen YJ、Chen Z等。自然。2005;437:376–380. [PMC免费文章][公共医学][谷歌学者]
8Poinar HN、Schwarz C、Qi J、Shapiro B、Macphee RD、Buigues B、Tikhonov A、Huson DH、Tomsho LP、Auch A等。科学。2006;311:392–394.[公共医学][谷歌学者]
9.Stiller M、Green RE、Ronan M、Simons JF、Du L、He W、Egholm M、Rothberg JM、Keats SG、Ovodov ND等。美国国家科学院程序。2006;103:13578–13584. [PMC免费文章][公共医学][谷歌学者]
10.Green RE、Krause J、Ptak SE、Briggs AW、Ronan MT、Simons JF、Du L、Egholm M、Rothberg JM、Paunovic M、Pääbo S。自然。2006;444:330–336.[公共医学][谷歌学者]
11宾利DR。当前操作基因开发。2006;16:545–552.[公共医学][谷歌学者]
12.Serre D、Langaney A、Chech M、Teschler-Nicola M、Paunovic M、Mennecier P、Hofreiter M、Possnert G、Päbo S。《公共科学图书馆·生物》。2004;2:313–317. [PMC免费文章][公共医学][谷歌学者]
13.Noonan JP、Hofreiter M、Smith D、Priest JR、Rohland N、Rabeder G、Krause J、Detter JC、Pääbo S、Rubin EM。科学。2005;309:597–599.[公共医学][谷歌学者]
14Noonan JP、Coop G、Kudaravalli S、Smith D、Krause J、Alessi J、Chen F、Platt D、Pääbo S、Pritchard JK等人。科学。2006;314:1113–1118. [PMC免费文章][公共医学][谷歌学者]
15Lander ES、Linton LM、Birren B、Nusbaum C、Zody MC、Baldwin J、Devon K、Dewar K、Doyle M、FitzHugh W等。自然。2001;409:860–921.[公共医学][谷歌学者]
16Lindahl T,Andersson A。生物化学。1972;11:3618–3623.[公共医学][谷歌学者]
17.林达尔·T。自然。1993;362:709–715.[公共医学][谷歌学者]
18Gilbert MT、Binladen J、Miller W、Wiuf C、Willerslev E、Poinar H、Carlson JE、Leebens-Mack JH、Schuster SC。核酸研究。2007;35:1–10. [PMC免费文章][公共医学][谷歌学者]
19.Sankoff D,Cedergren RJ.输入:时间扭曲、字符串编辑和大分子:序列比较的理论和实践。Sankoff D,Kruskal JB,编辑。纽约:Addison-Wesley;1983[谷歌学者]
20森雅·M·。美国国家科学院程序。1993;90:1122–1126. [PMC免费文章][公共医学][谷歌学者]
21Nakabeppu Y、Sakumi K、Sakamoto K、Tsuchimoto D、Tsuzuki T、Nakatsu Y。生物化学。2006;387:373–379.[公共医学][谷歌学者]
22Sampietro ML、Gilbert MT、Lao O、Caramelli D、Lari M、Bertranpetit J、Lalueza Fox C。摩尔生物进化。2006;23:1801–1807.[公共医学][谷歌学者]
23Krings M、Stone A、Schmitz RW、Krainitzki H、Stoneking M、Pääbo S。单元格。1997;90:19–30.[公共医学][谷歌学者]
24Krings M、Capelli C、Tschentscher F、Geisert H、Meyer S、von Haeseler A、Grossschmidt K、Possnert G、Paunovic M、Päbo S。自然遗传学。2000;26:144–146.[公共医学][谷歌学者]
25Ovchinnikov IV、Gotherstrom A、Romanova GP、Kharitonov VM、Liden K、Goodwin W。自然。2000;404:490–493.[公共医学][谷歌学者]
26Schmitz RW、Serre D、Bonani G、Feine S、Hillgruber F、Krainitzki H、Pääbo S、Smith FH。美国国家科学院程序。2002;99:13342–13347. [PMC免费文章][公共医学][谷歌学者]
27Beauval C、Maureille B、Lacrampe-Cuyaubere F、Serre D、Peressinotto D、Bordes JG、Cochard D、Couchoud I、Dubrasquet D、Laroulandie V等。美国国家科学院程序。2005;102:7085–7090. [PMC免费文章][公共医学][谷歌学者]
28Lalueza Fox C、Sampietro ML、Caramelli D、Puder Y、Lari M、Calafell F、Martinez Maza C、Bastir M、Fortea J、de la Rasilla M等人。分子生物学进化。2005;22:1077–1081.[公共医学][谷歌学者]
29Caramelli D、Lalueza-Fox C、Condemi S、Longo L、Milani L、Manfredini A、de Saint Pierre M、Adoni F、Lari M、Giunti P等。当前生物量。2006;16:R630–R632。[公共医学][谷歌学者]
30.Lalueza-Fox C、Krause J、Caramelli D、Catalano G、Milani L、Sampietro ML、Calafell F、Martinez-Maza C、Bastir M、Garcia-Tabernero A等。当前生物量。2006;16:R629-30。[公共医学][谷歌学者]
31奥兰多L、达鲁P、杜桑M、邦让D、奥特M、汉尼C。当前生物量。2006;16:R400–R402。[公共医学][谷歌学者]
32Brotherton P、Endicott P、Sanchez JJ、Beaumont M、Barnett R、Austin J、Cooper A。核酸研究。2007年doi:10.1093/nar/gkm588。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院