跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
基因组研究。2000年8月;10(8): 1241–1248.
数字对象标识:10.1101克10.8.1241
预防性维修识别码:项目经理310928
PMID:10958642

SAGE的定量评估

摘要

基因表达序列分析(SAGE)是一项创新技术,可以对给定多聚体(a+)RNA制备。虽然这是一种非常有效的方法来确定mRNA群体的表达,但在实验过程中固有的观察结果中存在明显的偏差。这些是由标签序列的采样错误、排序错误、不一致性和非随机性引起的。SAGE实验所需的定量信息包括对基因数量和转录副本数量的频率分布的估计。另外值得关注的是,给定的标签序列在多大程度上可以被认为是其基因所特有的。本研究考虑了这些数学偏差,并在给定一组实验结果的情况下,为基因数量和转录副本频率的最大似然估计提供了基础。这些对基因组表达真实状态的估计与直接基于基础实验观察结果的估计明显不同。研究还表明,虽然在许多情况下,给定的标签序列可能在基因组中是唯一的,但在更大的基因组中,这是无法安全假设的。

众所周知,遗传性和获得性疾病的病理生物学与至少一个但通常是许多不同基因的表达改变有关(Dietz和Pyeritz 1995;Fisher等人,1996年). 直到最近,理解改变基因表达和临床表型之间因果关系的传统方法包括识别和表征影响单个基因的突变,以及详细研究这些突变如何影响其表达(卡德勒1993;克利里和吉布森1996). 虽然这种方法已经获得了关于多种疾病的病因学的关键信息,但很明显,单基因突变的总体影响要复杂得多,涉及的不仅仅是突变等位基因或有限数量的突变等位蛋白的表达改变。此外,在不涉及可遗传或体细胞突变作为导致表型的起始事件的获得性疾病中,对基因表达改变和组织功能障碍之间的功能关系的研究有限(Fisher等人,1996年). 基本上,这些研究大多涉及候选基因的选择和与表型发展相关的这些基因表达变化的分析。然而,最近,功能基因组方法允许同时分析数百个甚至数千个基因的改变表达。这些新方法包括使用DNA微阵列(Schena等人,1995年,1996,1998;Heller等人,1997年)和基因表达序列分析(SAGE)(Velculescu等人,1995年,1997;Madden等人,1997年;Zhang等人,1997年),首次允许分析细胞或组织中的整个mRNA群体,作为全球转录谱的指标。

SAGE是基于从每种信使核糖核酸的独特位置产生短(9–10bp)核苷酸序列(标签)+)提取RNA并转录成双链cDNA(图。(图1A)1A) ,使用生物素化寡核苷酸(dT)作为引物。用II型限制性内切酶(锚定酶)消化产生平均长度为256 bp的cDNA片段。然后使用顺磁性链霉亲和素珠分离生物素化的3′-大多数片段(图。(图1B)。1B) ●●●●。分离步骤提供来自每个cDNA中定义位置的标签,这对于最终鉴定相应基因非常重要。

保存图片、插图等的外部文件。对象名称为4f1_F1TT_rev1.jpg

SAGE过程示意图。(一个)提取Poly(A+)RNA并转录成双链cDNA,用生物素化寡核苷酸(dT)(黑圈)引物,然后用锚定酶消化。(B类)大多数3′-片段是通过将它们与链亲和素珠(灰色椭圆)结合来分离的。(C类)这些片段被分割并连接到不同的连接子(L1,L2)。(D类)隔离的链接标记是无头的。(E类)将连接标签连接到连接双标签连接结构并通过PCR扩增(E类). (F类)对双标记进行分离、连接到连接子、克隆和测序。此图改编自Velculescu,V.E.等人(1995年).

随后,这些片段被分成两半,并连接到两个不同的连接子上(图。(图1C)。1C) ●●●●。每个连接子包含标记酶(一种IIS限制性内切酶)的限制位点、锚定酶悬液和聚合酶链反应(PCR)扩增的启动位点。通过用标记酶消化这些结合的连接子cDNA序列,由连接子和粘附的短cDNA序列(tag)组成的片段从链霉亲和素珠中释放出来。分离的连接子标签用DNA聚合酶I的Klenow片段钝化(图。(图1D)。1D) ●●●●。然后,将这两组连接子标记连接到连接子-双标记-连接子结构上,并使用连接子的特异引物通过PCR进行扩增(图。(图1E)。1E) ●●●●。用锚定酶消化这些结构,最终释放出被分离并连接到连接子的双标记(图。(图1F),1F) 、克隆和测序。将获得的序列与不同的基因组数据库进行比较,以识别标签。

使用SAGE的Ditag序列分析提供了识别任何特定poly(A)中所有独特mRNA的潜力+)RNA制备,以及活性基因,以及这些mRNA的拷贝数。这种方法很优雅,已经被广泛应用于描述转录组(Velculescu等人,1995年,1997)并研究它们之间的差异(Madden等人,1997年;Zhang等人,1997年;Chen等人,1998年). 然而,在对SAGE结果的解释中存在着一些微妙之处,这些细微之处使观察结果产生了以前从未探讨过的偏差。在这份手稿中,我们解决了这些问题,并提供了一种最大似然方法来估计独特转录本的数量及其频率分布。我们还对给定标签序列对一个基因唯一的概率进行了谨慎估计。

结果

SAGE过程的模拟

表中总结了上述模拟过程的结果表1。1.表格表1A1A和和1B1B显示了上述对15720大小的基因组进行模拟的结果,该基因组样本带有62168个标签。这些数字是根据结肠上皮细胞研究中公布的数字选择的(Zhang等人,1997年). 表1A1A代表9个基本标签的结果,仅用于比较目的。表1B1B(10-碱基标签)更完全地对应于所引用的研究。表1C1C给出了与表中相同的基本假设表1B1B,除了假定的基因数量和为对其进行采样而生成的标签序列数量都按五倍放大了。这与包含多种细胞类型的大型实验相对应,并传达了解释问题如何随着实验规模的变化而变化的含义。

表1

假设观测给出的基因组的模拟结果

型号->假设唯一,无错误独特随机非随机






A.9基本序列
独特的标签15,7207994±511,029 ± 610,930 ± 610,427 ± 5
% 1–564.1638.86 ± 0.0253.63 ± 0.0253.33 ± 0.0251.26 ± 0.02
% 5–5031.037352.21 ± 0.0240.67±0.0240.26 ± 0.0241.88 ± 0.02
% 50–5004.38158.17 ± 0.015.77 ± 0.0075.87 ± 0.0076.28 ± 0.007
% 500–50000.42120.76±0.0030.54 ± 0.0020.54 ± 0.0020.57 ± 0.002
%新颖的错误94.0 ± 0.0194.2 ± 0.0184.6 ± 0.3
%独特的基因100 ± 0100 ± 094.2 ± 0.0181.6 ± 0.01
B.10基本序列
独特的标签15720个8,003 ± 511,460 ± 611,428 ± 611,268 ± 5
% 1–564.1638.86 ± 0.0255.44 ± 0.0255.43 ± 0.0254.65 ± 0.02
% 5–5031.037352.23±0.0238.51 ± 0.0238.50 ± 0.0239.15 ± 0.02
% 50–5004.38158.16 ± 0.015.53 ± 0.0065.54 ± 0.0065.68 ± 0.006
%500–50000.42120.75 ± 0.0030.52 ± 0.0020.52 ± 0.0020.52 ± 0.002
%新颖的错误98.5 ± 0.00798.5 ± 0.00795.0 ± 0.01
%独特的基因100 ± 0100 ± 098.5 ± 0.00494.0 ± 0.008
C.10个碱基序列(基因组大五倍)
唯一标签78,60047,086 ± 1064,364 ± 1063,407 ± 1058,573 ± 8
% 1–564.1643.35 ± 0.0158.24 ± 0.00957.77 ± 0.00953.94 ± 0.009
% 6–5031.037348.71 ± 0.0136.07 ± 0.0136.46 ± 0.0139.77 ± 0.01
% 51–5004.38157.23 ± 0.0045.26 ± 0.0035.34 ± 0.0035.80±0.003
% 501–50000.42120.71 ± 0.0010.43 ± 0.00090.44 ± 0.00090.48 ± 0.001
%新颖的错误92.5 ± 0.00792.8 ± 0.00679.4 ± 0.01
%独特的基因100 ± 0100 ± 092.8 ± 0.00475.4 ± 0.006

SAGE实验的模拟结果。在所有情况下,假设基因组如“假设”列所示。“唯一,无错误”、“唯一”、“随机”和“非随机”列表示方法中按此顺序列出的假设。行标题“唯一标签”和%拷贝数表示假定或检测到的唯一标签序列数及其拷贝数。“新错误百分比”,是指新的错误序列标签的百分比(在其他一些mRNA上不存在)。“%独特基因”,具有独特标签序列的活跃转录基因的百分比。A和B,分别为9和10碱基标签序列,假设SAGE实验的公开结果。C、 10个碱基标签假设基因组具有5倍的唯一标签和5倍的标签。其余列代表了关于SAGE过程的越来越现实的假设,详见方法。在所有情况下,检测到的独特基因的数量都被大大低估了,低拷贝数转录本的比例也是如此。置信值是1000次模拟平均值的标准误差。 

在每种情况下,都给出了唯一抄本的假定数量和副本分布(假设)。鉴于方法中概述的四组假设,后续列预测了预期观察结果。我们遵循以前的惯例(Zhang等人,1997)以每个细胞的估计转录副本数表示数据,并将新的、即在活性基因组中不存在(其他地方)的错误测序标签的百分比制成表格。最后,我们列出了具有唯一标签序列的基因的百分比。

总的来说,结果表明SAGE实验中的两个过程是相反的,偶然地减少了观察中的一些偏差。首先也是最重要的是,抽样误差导致对基因数量和低拷贝数百分比的严重低估(表(表1,1,假设与唯一,无错误)。这些值与方程式2预测的值非常一致,可以验证模拟方法的技术可靠性。当考虑到排序错误时,会生成大量新的标签序列,这会增加发现的唯一序列的数量和低拷贝数的百分比(表(表1,1,唯一,无错误与唯一)。在转移到随机条件时,我们看到在9个碱基的情况下,观察到的基因数量和低拷贝数百分比略有减少(表(表1A)。1A) ●●●●。这是因为基因标签序列的重叠或不一致。这种影响在表中大大减少表1B1B和和1C,1C、 包括10个基本标签。然而,在所有情况下,非随机条件增强了基因数量和低拷贝转录物分数下降的趋势(表(表1,1,随机与非随机)。这是因为在这种最现实的情况下,标签序列的有效数量减少了,导致新的错误标签比例降低(即,不存在于基因组中)。

标签序列唯一性的范围

图中更清楚地显示了独特标签序列的预期比例和预期可变性图2。2这显示了随机(最右边)和非随机(最左边)DNA序列的独特标签序列的部分的分布(A,来自15720个基因的9个碱基标签;B,来自15720个基因的10个碱基标签;C,来自78600个基因的10个碱基标签)。每个面板中的箭头表示由等式4预测的随机序列的预期值。毫不奇怪,10基标签协议比9基协议具有更大的唯一性(图。(图2B2B与图。图2A)。2A) ●●●●。然而,即使使用10个碱基的标签,发现的标签序列中有很大一部分也不是唯一的,特别是当DNA序列的非随机性被部分解释时(图。(图2B,2B、 最左侧分布)。事实上,即使将有限的非随机性纳入到该模型中,在随机性假设下,也会导致10-基标签与9-基标签一样不均匀(图。(图2A,2A、 右侧与图。图2B,2B、 左)。最后,大基因组进一步加剧了不一致性问题(图。(图2C)。2C) ●●●●。这些结果表明,在假设特定的SAGE标签序列对其基因是唯一的之前,必须谨慎。注意到这些分布中显示的相对较小的变化也很有用,这使得统计上的巧合不太可能导致比此处所示结果更糟糕的结果。

保存图片、插图等的外部文件。对象名为4f2_L1TT.jpg

给定基因在各种条件下具有唯一标签序列的概率。在每个图中,最右边的分布来自随机的DNA序列,箭头表示预期的结果。每个图中最左边的分布是给定非随机DNA序列的概率。(一个)9个碱基标签和15720个基因(表表1A)。1A) ●●●●。(B类)10个碱基标签和15720个基因(表表1B)。1B) ●●●●。(C类)10个碱基标签和78600个基因(表中的假设表11C) ●●●●。

SAGE结果的定量评估

我们已经看到,采样错误、测序错误、非均匀标记序列和非随机DNA序列都会导致SAGE实验中观察结果的偏差。这个问题最直接的解决方案是使用模拟来找到实际参数(基因数量和转录副本数量的分布),这些参数将导致在实验室进行观察。虽然技术上很复杂,但实际上可以通过将模拟视为一个函数、将观测值视为要匹配的数据、将真实参数视为变量来实现这一点(参见方法)。基于Levenberg-Marquardt方法的最大似然法已用于我们引用的已发表观测结果(Zhang等人,1997年); 结果如表所示表2。2.

表2

从观察结果解释基因组

型号->观测数据推断参数预测数据




独特的标签15,72025336个15,651 ± 58
% 1–564.1680.5663.64 ± 0.31
% 6–5031.037316.5131.74 ± 0.40
% 51–5004.38152.724.33±0.098
% 501–50000.42120.2150.29 ± 0.01

基于SAGE观察结果,使用10碱基标签序列解释基因组的真实状态。观察数据、独特标签的公布值和副本编号的分布。推断参数,估计的真实基因组值与这些观察结果相对应。预测数据,即假设基因组以推断参数给出的模拟观测结果。注意观察数据和预测数据之间的密切对应。置信值是1000次模拟平均值的标准误差。 

从数据的数值分析中推断出的参数与数据本身有很大不同(将观测数据与推断参数进行比较)。一般来说,可以看出,基因存在的实际数量必须大大大于发现的数量(见讨论),并且实际频率分布有利于低拷贝数下出现的转录本多于从数据中观察到的转录本。这些推断出的参数可以作为前面所述模拟的起点进行检查(假设非随机标签序列存在排序错误)。鉴于这些推断参数准确地反映了实验转录组,这提供了对观察结果的估计。这些预测数据与观测数据的相似性为推断参数提供了依据。

讨论

最近的进展导致可用于几个基因组的DNA序列信息量急剧增加。人类基因组计划的测序工作已经产生了数千个基因和表达序列标签的序列数据库条目(Aaronson等人,1996年;Hillier等人,1996年). 在不久的将来,人类基因组组织(HUGO)将实现对整个人类基因组进行完整测序的目标。目前的估计是,人类基因组包含约50000-80000个基因,其中许多基因到目前为止已测序,属于一个功能类别,但具有已知或假定功能的基因不到7000个(字段1997). 由于目前对这些基因的功能知之甚少,因此有必要对基因表达的发育、时间、地形、组织学和生理学模式进行分类。因此,通过快速可靠的方法评估数百(如果不是数千)个基因的表达谱,对于提供功能基因组学所必需的信息至关重要。只有掌握了这些知识,才有可能从基因表达水平阐明疾病的原因,并找到新的治疗方法。

过去,已经使用了几种方法来比较基因表达水平,例如逆转录聚合酶链式反应和northern印迹分析。这些方法仅限于一次分析一个基因,而其他方法如消减杂交或差异显示技术的变异(梁和帕迪1992)可以确定预定序列的多个表达模式(Fischer等人,1995年)后一种技术非常敏感,但不是定量的。也可以使用核酸微阵列研究大量表达基因。这些阵列利用了DNA链与互补序列杂交的事实,互补序列可以应用于惰性表面(Schena等人,1995年). 数以千计的短核苷酸序列可以贴在这些膜上,因此可以评估数百个不同基因的表达。最近开发的DNA芯片可以包含多达100000个不同的DNA序列,长度为20个核苷酸,“打印”在玻璃表面,实现快速准确的扫描(Hacia等人,1996年). 尽管这些技术相当强大,但它们都有一个相对的缺点,即只适用于分析固定数量的预定基因序列。

目前,SAGE是唯一能够定量描述细胞类型或组织完整转录组的技术(Velculescu等人1997). 正是由于该方法的定量潜力,必须考虑SAGE实验中偏向观察结果的方面。本文考虑了其中四个方面:(1)标签选择中的抽样错误;(2) 测序误差;(3) 标签序列的非一致性;(4)DNA序列的非随机性。综上所述,它们导致了对制剂中活性基因数量和低拷贝数表达基因比例的显著低估。如果做出某些假设,可以克服这种偏差,以获得基因数和转录副本数分布的最大似然估计。其中有几个值得进一步讨论。

拷贝数分布的形式是定量分析实验必须作出的一个假设。请注意,副本编号类别的相对频率不是假定的。相反,该假设处理的是分布是连续的还是阶跃函数,以及分布模式是每个单元格一个副本还是其他数字。后一个问题似乎对结果影响不大;例如,构建一个模式为每个单元格三个副本的分布,产生的结果几乎与此处显示的结果相同。

连续函数的选择基于阶跃函数的两个不切实际的方面。首先,它会导致突然的不连续,因此,例如,找到拷贝数501的可能性可能比找到每个细胞500个拷贝的可能性小10倍。转录组中可能有也可能没有真正的“丰度等级”(昆兰等人,1978年)但很明显,强加这样一个明确的边界是不现实的。第二个问题是使用阶跃函数迫使人们假设一个范围内的所有概率都相等,即5000的拷贝数的概率等于501。由于这些原因,假定阶跃函数为连续近似;选择双指数函数是一个方便的问题,不应被视为声称这是分布的真实形式。尽管即使使用阶跃函数,本研究的主要观点也得到了证实,但实际基因数和拷贝数分布的最佳估计值在一定程度上发生了变化。因此,在未来的工作中,重要的是评估分布的形状,以便更准确地应用此处所述的分析。

第二个假设是二核苷酸突变所固有的。正如方法中所指出的,这不能完全捕捉DNA序列中的非随机性程度。因此,可以预计,随机模拟和非随机模拟之间的变化程度被低估了。特别是,这意味着在目前的工作中,给定标签序列对其基因唯一的可能性可能被夸大了。然而,重要的是要注意,各种额外的非随机性来源(二核苷酸突变、选择性压力、来自共同祖先的基因进化、重复序列等)不会,一般来说,在代数意义上添加。例如,由于选择压力,编码区标签序列可能会受到二核苷酸突变的限制。对末端限制性内切酶位点后的完整mRNA标签序列进行统计分析可以更好地估计非随机性。另一种方法要求总(活性)基因数和拷贝数分布都具有良好的特征,即比较随着标签数的增加而产生新标签的预测速率和观察速率(Madden等人,1997年;Velculescu等人,1999年).

除了序列的非随机性之外,在本分析中还没有考虑实际SAGE实验的其他方面。这些包括但不限于样本污染、差异RNA剪接、DNA多态性以及由于不完整的序列数据而无法将标签映射到正确的基因。虽然这些都超出了本分析的范围,本分析侧重于SAGE固有的数学方面,但如果(1)发生概率众所周知,并且(2)发生概率足够高,则大多数都可以纳入SAGE模型。

基因标签不一致性的最重要方面是使用遗传数据库识别这些标签。如图所示图2C,2C、 在对完整基因组的实际假设下,即使是10个碱基的标签序列,仅在一个基因上发现给定标签序列的概率也为~76%。如果数据库中显示了整个基因组,则很容易检查标签是否存在于多个基因上;如果没有,在识别带有特定基因的标签序列时必须谨慎。标签的这种潜在不一致性对SAGE实验的设计具有重要意义。如模拟所示,较小的基因组大小将显著降低非均匀标记的频率。在这种情况下,应该注意的是,实际基因组大小明显大于直接从SAGE结果中估计的基因组大小——这一点,再加上捕获序列非随机性的局限性(如上所述),加剧了问题。因此,SAGE针对特定细胞类型或细胞多样性有限的组织的应用,显然将比复杂组织或整个生物体的研究具有显著优势。

虽然标签的不一致性在识别带有标签的基因时带来了实质性问题,但抽样错误对转录频率分布和唯一转录物的数量影响最大。本文报道的关于后者的结果与实验结果一致,在实验结果中,随着标签增加到60000,发现的独特转录物的数量仍在增加,超过15000个(Madden等人,1997年). 最近,发布了一项广泛的研究,其中发现需要约650000个标签才能对约56000个转录组进行充分采样(单拷贝转录本的检测率估计为83%:Velculescu等人,1999年). 显然,如果SAGE方法要充分描述整个细胞转录物集的特征,就必须增加标签序列的采样。在缺乏这种全面抽样的情况下,这里报告的定量方法代表了找到转录组大小和频率分布的无偏估计,以及确定差异研究中抽样充分性的最佳方法。

方法

这项工作的目标是提出定量方法,用以解释SAGE实验的数据。具体来说,人们希望对(1)给定标签序列对一个基因唯一的概率进行最大似然估计;(2) 实验系统中独特基因的数量;(3)转录本拷贝数的分布。SAGE实验的四个方面使得这些参数的最佳估计值与实验中实际检测到的值大不相同。这些是(1)标签选择中的采样错误;(2) 测序误差;(3) 标签序列的非一致性;(4)DNA序列的非随机性。这些并发症将按顺序处理,因为它们代表了SAGE数据定量评估中复杂性的顺序分层。

标签选择中的采样错误

我们从不切实际的假设开始,即每个基因的标签序列是唯一的,并且没有测序错误(这些假设将在下文中放宽)。在这种情况下,将SAGE观察结果与实际情况区分开来的唯一复杂因素是采样错误——最重要的是,低拷贝数的转录本计数不足。这个潜在的问题已经通过随机模拟得到解决(Zhang等人,1997年)但在目前的简化假设下,它有一个解析解。考虑这样的情况,在一个准备中有“t”个转录本(总的来说-不是唯一的转录本物种),特定转录本的“c”个拷贝,以及取样的“s”个标签。通常,“t”与“s”相比非常大(例如,5μg或~1018因此,标签序列的选择可以很好地近似为替换抽样。特定转录物的“r”拷贝出现在“s”标记集中的概率是二项分布,其中更熟悉的“p”(检测概率)在这里表示为c/t(给定物种所代表的总转录物的分数)。按照这个符号,在r之间的拷贝数中检测到转录本的概率1和r2(含)为:

方程式M1
1

标签抽样的二项式分布为针对差异基因表达的SAGE实验中检测到的差异的显著性提供了简单的评估。当检测到的标签数量为五个或更多时,平均值等于s.c/t和方差s时,正常近似有效.转交.(1-c/t)(Harshbarger 1971年). 如果检测到的标签较少,则可以通过比例测试获得近似置信区间(温克勒和海斯1975).

为了利用这个方程并进行下面讨论的模拟,必须假设转录本拷贝数的频率分布。在这项研究的大部分发表数据中(Zhang等人,1997)将使用结肠上皮细胞,其中每个细胞的转录副本数的频率范围为1-5,64.16%;6~50岁,31.04%;51至500人,占4.38%;大于501,0.42%。出于定量目的,最终范围必须有一个终点,对于这个终点,5000似乎是一个合理的选择。仍然需要指定这种分布的实际形式,对于这种分布,最简单的选择是四个范围内的阶跃函数(图。(图3)。). 出于后面讨论的原因,我们选择了一个双指数函数来匹配四个范围内相应阶跃函数的数值积分(图。(图3)。). 使用图中所示的阶跃函数进行初步分析图3揭示了所观察到的相对频率的一些差异,但本研究的要点是用阶跃分布或连续分布来证明的。

保存图片、插图等的外部文件。对象名称为4f3_L1TT.jpg

拷贝数分布的两种可能形式。最简单的构造是阶跃函数(实线)。因此,例如,如果一个基因在每个细胞1到5个转录物中表达的概率为64%,那么第一步从1延伸到5,高度为12.8%(64/5)%。一个更合理的假设是分布是连续的。这是通过在每个拷贝数范围(虚线)上找到具有相同积分的双指数函数来实现的。为了视觉清晰,每个单元格的图形被截断为50多个副本,事实上,这两个分布都扩展到5000个(请参阅方法)。

排序错误

SAGE实验评估的第二个复杂因素是测序错误的存在。如之前工作中所述(Zhang等人,1997年)测序误差的数量可以根据估计的误差率(~0.7%/base)轻松计算出来。然而,这些错误对数据解释的影响还不太清楚:其中一些错误将引入基因组中没有表示的新标签,而一些错误将人为增加基因组中实际存在的标签序列的拷贝数。测序错误对实验者来说有点进退两难:标签序列对特定基因唯一的概率随着标签长度的增加而增加,但测序错误也会增加。

标记序列的非唯一性

显然是4个9或410可能的标签序列超过了通常探测到的基因数量,但这不能保证每个标签序列只存在于一个基因上。*最简单的假设是,标签序列是随机的,因为所有4个x可能的标签序列具有相同的概率(其中x是标签序列中可变碱基的数量)。提出这个问题的一种方法是询问(g)基因的整个标签序列集是唯一的概率。这可以在产品序列中找到

方程式M2
2

对于数量可观的基因,该表达的数值非常小:1.26 x 10–84(x=9,g=10000)和1.69 x 10–21(x=10,g=10000)。显然,在大多数感兴趣的基因组中都会有重复的标签序列。

提出以下问题可能更有用:给定一个感兴趣的特定标签,其序列对一个基因唯一的概率是多少?如果再次假设标签序列是随机的,则所述问题的表达式为

方程式M3

对于15720克(来自公布的结果[Zhang等人,1997年]; 见下文),这对9和10碱基序列分别产生94.2%和98.5%。换言之,感兴趣的标签不唯一的概率为~5.8%(g=15720,x=9),即在一个或多个其他基因上发现相同的标签序列。对于5倍于此大小的基因组,概率分别下降到74.1%和92.8%。由于标签序列的假定独立性和一致随机性,上述表达式也表示唯一标签序列部分的期望值。也就是说,预计平均94.2%的基因将具有唯一的标签序列(g=15720,x=9)。

从方程4可以得到更完整的情况描述,它给出了基因组中标签序列在基因组中只出现一次的概率。等式5表示标签序列出现r次的概率:

方程式M4
4

对此的评估表明,正如人们预期的那样,随着r的增加,r不同基因上的标签序列数量急剧下降(例如,p[r=2]=5.65%,p[r=3]=0.169%;g=15720,x=9)。

总之,这些等式表明标签序列代表多个基因的可能性是解释SAGE结果的一个重要潜在问题,尽管在最近的应用中不太可能(Velculescu等人,1997年;Zhang等人,1997),使用了10个碱基的标签,而不是原始研究中使用的9个碱基标签(Velculescu等人,1995年). 正如我们将看到的,DNA序列的非随机性进一步加剧了这个问题。

DNA序列的非随机性

DNA序列事实上是非随机的。由于某些序列的可能性更大,因此具有独特标签序列的基因比例会更小。为了获得一个简单的近似值来捕获随机序列的一些偏差,我们假设核苷酸对比率基于假基因中发现的差异突变率(Bulmer 1986年). 由于这些可能不受选择力的影响,而单个标签序列可能受选择力影响,也可能不受影响,因此这应该代表对实际非随机性的保守估计。要将这一点和上面讨论的其他复杂性结合起来,需要对SAGE过程进行随机或蒙特卡罗模拟。

将实验映射到模拟

为了考虑所有这些因素,我们构建了SAGE过程的随机模型。该模型首先假设实验结果(发现的唯一标签序列及其相对丰度)代表了对唯一转录物真实数量及其丰度的估计。以结果为起点,对SAGE过程进行模拟,以产生假设成立时可以观察到的结果。一般来说,这将产生一组与实验结果有很大不同的模拟结果。这种差异的性质可以用来找出独特转录物的实际数量及其丰度,这实际上会导致实验观察。

四组模拟结合上述假设的进展进行了研究。以下步骤是所有人的共同点。(1) 使用均匀随机偏差(1≤n≤4)为假定数量的基因生成标签序列x)(2)使用随机偏离假定拷贝数分布的方法为每个基因分配一个拷贝数。(3) 汇编成绩单列表,反映各种副本编号。(4) 该列表随机抽样(替换)并“排序”,以产生与实验结果等效的结果。

为了与引入的第一个假设相匹配,该算法确保了标签的唯一性和不存在排序错误。在第二组和后续的假设下,引入了估计的测序误差(每个核苷酸0.7%)。在第三组模拟中,标签序列是真正随机的,而不是被迫唯一的。在第四种也是最后一种方法中,标签序列接受基于邻域的替换,直到序列达到平衡(Bulmer 1986年,1987)为了至少反映DNA序列中发现的一些非随机性。

在分析的最后一部分,第四种模拟算法(有测序错误的非随机序列)被视为一个函数,以便计算回mRNA制备中必须存在的条件。这是通过输入观察到的mRNA数量和频率来实现的(表(表2,2,观测数据),并使用拟合方法找出推断出的数量和频率,在这些数量和频率下,观测最有可能发生(表(表2,2,推断参数)。作为对拟合算法的检查,这些推断参数随后被输入到原始模拟中,以确认这些预测数据之间的良好匹配(表(表2)2)和原始观测数据。

致谢

这项工作得到了NSF#IBN97–24035、美国心脏协会、夏威夷附属机构HIGS-07–98、少数民族机构研究中心NCRR拨款RR03061的支持,以及联合利华研究公司的财政援助。

这篇文章的出版费用部分由页面费支付。因此,根据《美国法典》第18卷第1734节,本篇文章必须标记为“广告”,以表明这一事实。

脚注

电子邮件ude.iiawah.crbp@essej; 传真(808)956–6984。

*请注意,操纵标签的四碱基限制性内切酶序列不计入此计算。由于序列通过实验设计保持不变,因此它不会影响可能的标签序列数量或下面的模拟。

执行这些模拟的程序可免费用于非商业用途。有关此软件的信息,请与相应作者联系。

请注意,许多标准语言的随机数生成器不足以完成如此大的任务,因此在使用算法时应小心。(Press等人,1998年)

参考文献

  • Aaronson J、Eckman B、Blevins R、Borkowski J、Myerson J、Imran S、Elliston K。人类基因组基因指数的开发:高通量EST序列数据的性质评估。基因组研究。1996;6:829–845.[公共医学][谷歌学者]
  • Bulmer M.邻近碱基对假基因替代率的影响。分子生物学进化。1986;:322–329.[公共医学][谷歌学者]
  • Bulmer M.人类基因内含子和外显子核苷酸序列的统计分析。分子生物学进化。1987;4:395–405.[公共医学][谷歌学者]
  • Chen H,Centola M,Altschul SF,Metzger H。静止和活化肥大细胞中基因表达的特征(发表的勘误表出现在实验医学学报188[12]:2387)《实验医学杂志》。1998;188:1657–1668. [PMC免费文章][公共医学][谷歌学者]
  • Cleary EG,Gibson MA,编辑。弹性组织、弹性蛋白和弹性蛋白相关微纤维。细胞外基质。澳大利亚、加拿大、中国:哈伍德出版社;1996[谷歌学者]
  • Dietz H,Pyeriz R.马凡综合征和相关疾病中纤维蛋白-1(FBN1)人类基因的突变。人类分子遗传学。1995年;4规范编号:1799年–809年。[公共医学][谷歌学者]
  • 字段S。未来是功能[新闻]自然遗传学。1997;15:325–327.[公共医学][谷歌学者]
  • Fischer A,Saedler H,Theissen G.限制性片段长度多态性-耦合域定向差异显示:一种高效的多基因家族表达分析技术。美国国家科学院程序。1995年;92:5331–5335. [PMC免费文章][公共医学][谷歌学者]
  • Fisher G、Datta S、Talwar H、Wang Z、Varani J、Kang S、Voorhees J。阳光诱导的皮肤过早老化和维甲酸拮抗的分子基础。自然。1996;379:335–339.[公共医学][谷歌学者]
  • Hacia J、Brody L、Chee M、Fodor S、Collins F。使用高密度寡核苷酸阵列和双色荧光分析检测BRCA1杂合突变。自然遗传学。1996;14:441–447.[公共医学][谷歌学者]
  • Harshbarger TR.公司。介绍性统计,第8.8章。纽约:麦克米伦公司;1971[谷歌学者]
  • Heller R、Schena M、Chai A、Shalon D、Bedilion T、Gilmore J、Woolley D、Davis R。使用cDNA微阵列发现和分析炎症疾病相关基因。美国国家科学院程序。1997;94:2150–2155. [PMC免费文章][公共医学][谷歌学者]
  • Hillier L、Lennon G、Becker M、Bonaldo M、Chiapelli B、Chissoe S、Dietrich N、DuBuque T、Favello A、Gish W等。280000人类表达序列标签的生成和分析。基因组研究。1996;6:807–828。[公共医学][谷歌学者]
  • 学习I型胶原蛋白基因突变如何导致结缔组织疾病。国际实验病理学杂志。1993;74:319–323. [PMC免费文章][公共医学][谷歌学者]
  • Liang P,Pardee A.通过聚合酶链反应对真核信使RNA进行差异显示[见注释]科学。1992;257:967–971.[公共医学][谷歌学者]
  • Madden S、Galella E、Zhu J、Bertelsen A、Beaudry G.p53依赖性生长调节的SAGE转录谱。致癌物。1997;15:1079–1085.[公共医学][谷歌学者]
  • 按WH、Flannery BP、Teukolsky SA、Vetterling WT。C中的数字配方。纽约:剑桥大学出版社;1988[谷歌学者]
  • Quinlan T、Beeler GJ、Cox R、Elder P、Moses H、Getz M。mRNA丰度等级的概念:关键重新评估。核酸研究。1978;5:1611–1625. [PMC免费文章][公共医学][谷歌学者]
  • Schena M、Heller R、Theriault T、Konrad K、Lachenmeier E、Davis R。微阵列:生物技术的功能基因组学发现平台。生物技术趋势。1998;16:301–306.[公共医学][谷歌学者]
  • Schena M,Shalon D,Davis R,Brown P.用互补DNA微阵列定量监测基因表达模式[见评论]科学。1995年;270:467–470.[公共医学][谷歌学者]
  • Schena M、Shalon D、Heller R、Chai A、Brown P、Davis R。平行人类基因组分析:基于微阵列的1000个基因表达监测。美国国家科学院程序。1996;93:10614–10619. [PMC免费文章][公共医学][谷歌学者]
  • Velculescu V,Zhang L,Vogelstein B,Kinzler K。基因表达的系列分析。科学。1995年;270:484–487.[公共医学][谷歌学者]
  • Velculescu V,Zhang L,Zhou W,Vogelstein J,Basrai M,Bassett DJ,Hieter P,Vogelestein B,Kinzler K。酵母转录组的表征。单元格。1997;88:243–251.[公共医学][谷歌学者]
  • Velculescu VE,Madden SL,Zhang L,Lash AE,Yu J,Rago C,Lal A,Wang CJ,Beaudry GA,Ciriello KM,et al.人类转录组分析[letter]自然遗传学。1999;23:387–388。[公共医学][谷歌学者]
  • Winkler RL、Hays WL。统计学:概率、推理和决策,第6.17章。纽约:霍尔特、莱茵哈特和温斯顿;1975[谷歌学者]
  • Zhang L,Zhou W,Velculescu V,Kern S,Hruban R,Hamilton S,Vogelstein B,Kinzler K。正常和癌细胞中的基因表达谱。科学。1997;276:1268–1272.[公共医学][谷歌学者]

文章来自基因组研究由以下人员提供冷泉港实验室出版社