Identification and prevention of a GC content bias in SAGE libraries

Margulies, Elliott H.; Kardia, Sharon L. R.; Innis, Jeffrey W.

doi:10.1093/nar/29.12.e60

摘要

基因表达序列分析（SAGE）正在成为研究发育、癌症和其他人类疾病的一种广泛使用的基因表达谱分析方法。使用SAGE的研究人员在很大程度上依赖于该方法的定量方面来编目基因表达和比较多个SAGE库。我们开发了额外的计算和统计工具来评估SAGE库的质量和再现性。使用这些方法，确定了SAGE方案中的一个关键变量，该变量可能会使Tag分布相对于10 bp SAGE Tag DNA序列的GC含量产生偏差。我们还在一些公开的SAGE文库中检测到了这种偏见。值得注意的是，在当前的SAGE协议中，GC含量偏差未被质量控制程序检测到，只有在对多达750个SAGE标签使用这些统计分析时才能确定。除了将任何游离DiTag溶液保存在冰上之外，还应在对大量SAGE标签进行测序之前对GC含量进行分析，以确定SAGE库没有实验偏差。

2001年3月12日收到；2001年4月28日修订并接受。

简介

基因表达序列分析（SAGE）是一种在特定生理条件下从细胞群体中获取全面定量基因表达谱的有力方法。自第一份介绍SAGE的出版物以来(1)，在提高方法效率方面取得了重大进展(2–4)适用于少量的mRNA(5–7). 此外，计算工具(8–10)和统计方法(11–14)已经被开发来帮助SAGE实验的设计和分析。

为了充分认识到这种方法的威力，研究人员必须精通SAGE协议的详细步骤。通过几种常用于监控生成的SAGE库质量的既定程序评估熟练程度。这些包括：（i）通过放射性核苷酸掺入评估cDNA合成的效率；（ii）通过对SAGE生成的DNA分子进行凝胶分析，监测几个酶步骤的成功；和（iii）在测序的SAGE文库中测量连接子污染和重复的DiTags。通常，在投入大量时间、资源和资金来生成广泛的SAGE库之前，会对这些既定质量控制程序的结果进行评估。

为了获得SAGE文库适用于大规模Tag测序的额外信心，我们的实验室开发了额外的统计方法，用于评估给定SAGE文集的质量和再现性。在使用这些方法的过程中，确定了SAGE协议中的一个关键温度变量，该变量可能会使取样的SAGE标签相对于GC含量的分布产生偏差。在本文中，我们将展示潜在的方法学变量，如何评估任何SAGE库是否存在GC内容偏差，以及如何在构建SAGE库期间防止此错误。我们还讨论了公开可用和已发布的SAGE库中这种偏见的存在和程度。

材料和方法

SAGE库合成

我们的SAGE库是按照SAGE协议v1.0c构建的(http://www.sagenet.org)来自B6C3Fe小鼠胚胎肢体的RNA，基本上如所述(1)并在其他地方报道（E.H.Margulies、S.L.R.Kardia和J.W.Innis，提交手稿），或B6C3Fe小鼠成年雄性大脑。

SAGE数据采集

eSAGE v1.10b版(9)用于提取和分析SAGE数据。为了确保SAGE标签仅从高质量序列中提取，ALF的数据表达使用ALFwin v2.10手动编辑以排除低质量区域。ABI PRISM 3700 DNA分析仪上生成的序列跟踪文件用弗莱德基本呼叫算法(15). 从生成的PHD格式输出文件（*.PHD.1）弗莱德-分析的序列追踪数据由eSAGE读取，eSAGE被编程为自动排除序列弗莱德质量值<20（E.H.Margulies、S.L.R.Kardia和J.W.Innis提交的手稿）。

评估SAGE库再现性的总体差异测试

因为当标签计数小于5时，独立性的卡方检验表现不佳(16)，使用蒙特卡罗模拟方法确定来自同一库的SAGE数据的两个子群之间的相似性（图。1). S-Plus 2000（Insightful Corp.）中编写了一个程序来执行此蒙特卡洛模拟，可根据要求提供。

累积速率的计算

使用eSAGE(9)limit函数将提取到SAGE库中的标签数量限制为用户指定的数量，定期确定每个SAGE标签的频率（观察标签的次数）。使用Excel 2000（Microsoft Corp.）绘制这些数据，并使用slope函数（使用最小二乘法）计算通过代表单个SAGE标签累积频率的数据点的最佳拟合线的斜率。来自同一SAGE库的标签频率预计将以相同的速度增加，此斜率计算是给定SAGE标签累积速度的定量表示。

结果

总体差异测试可用于评估SAGE库的质量

作为SAGE库质量的衡量标准，我们使用了蒙特卡罗模拟方法（图。1)测试来自同一SAGE库的数据亚群的再现性。以这种方式使用的总体测试适合于识别由许多方法和数据管理错误引起的不一致。此类错误的示例包括但不限于实验室中其他并发SAGE库产生的数据污染。

在这种类型的典型实验中，来自SAGE库的标签数据被分成两个子群，并相互比较。此测试已通过多个不同大小的SAGE库进行验证（未显示数据）。在所有情况下，当没有已知差异时，在1%的显著性水平上接受无总体差异的无效假设（图。2A） ●●●●。

在最近对我们的一个SAGE文库的分析中，零假设被拒绝了（图。2B），表明从同一SAGE库生成的两个数据亚群之间存在无法解释的总体差异。经调查，确定该文库的Tag是从两个不同的DiTag扩增（Amp1和Amp2）中测序的，这两个扩增是由同一个DiTag连接产生的（见图。三重复步骤的概要）。进一步分析表明，当蒙特卡罗分析中使用的两个亚群根据DiTag扩增进行划分时，总体差异最大（数据未显示）。进一步探索该异常，以确定Amp1和Amp2之间观察到的差异的基础。

两个DiTag扩增的差异与Tag GC含量相关

对观察到的差异的一种解释可能是DiTag扩增的处理方式不同。然而，通过严格遵守SAGE v1.0c协议，我们非常小心地以类似方式执行每个DiTag扩增。应该强调的是，两次DiTag扩增之间的所有诊断凝胶看起来都很相似（一组典型的凝胶如图所示。三). 为了确定这种总体差异的原因，对Amp1和Amp2之间单个SAGE标签的累积速率（或斜率）进行了比较（斜率计算见材料和方法）。大多数检查的SAGE标签具有类似的斜率（图。4A） ●●●●。然而，几个SAGE标签在两个DiTag扩增之间具有明显不同的斜率（图。4B） ●●●●。此外，还观察到具有不同斜率的SAGE标签的DNA序列经常富含AT。

为了验证具有AT-rich序列的SAGE标签在Amp1和Amp2之间具有不同的积累率的假设1对所有SAGE标签进行计算，并绘制在按GC含量排序的图表上（图。5A） ●●●●。

V（V）=对数(S公司₁/S公司₂)1

哪里S公司=拟合线的斜率（参见材料和方法）。在方程式中1，任何偏离V（V）=0表示两个DiTag放大之间的斜率变化。预计会有一些变化V（V）=0（图。5B）尤其是低频标签。然而，随着SAGE标签的GC含量降至50%以下V（V）转向越来越积极的价值观。这表明富含AT-的SAGE标签在Amp1和Amp2之间具有不同的丰度。此外V（V）表示Amp2中AT-rich SAGE标签丢失；如下所示，Amp1中没有AT-rich标签的替代增益。这种差异导致SAGE标签的取样分布相对于Amp2的GC含量发生了整体变化（图。6，比较Amp1和Amp2）以及库中所有SAGE标签的平均GC含量增加（表1).

其他SAGE库可能存在偏差

为了调查其他SAGE文库是否存在GC内容抽样偏差，我们从NCBI的SAGE网站上获得了截至2001年1月的所有89个SAGE文库(http://www.ncbi.nlm.nih.gov/SAGE网站)并分析其平均GC含量。为了进行此分析，我们还评估了三个正在开发的小鼠肾脏SAGE库(17)，三个鼠脑SAGE库(18)，我们自己的五个SAGE文库和另外两个小鼠SAGE文库（J.Shires、E.Theodoridis和A.Hayday，出版中）。图7是每个库中SAGE标记的平均GC含量的计算直方图。圆和三角形表示此双峰分布的两个峰值，分别与我们的无偏和有偏SAGE库中的平均GC含量相关。

平均GC含量的一些变化可能是由不同组织来源的基因表达的变化以及该方法固有的随机取样过程所解释的。然而，图中的平均值组7以三角形为中心可能是由于在SAGE文库构建过程中富含at的DiTag的不受调控的熔化，因此可能不是基因表达的准确定量表示。为了验证这一假设，我们用成年雄性小鼠大脑中分离的mRNA构建了SAGE文库。该组织来源与其中一个库中使用的来源非常相似，平均GC含量为54.5%(18).

我们的小鼠SAGE文库中的串联体由两个独立的DiTag扩增产物生成并测序，将所有游离DiTag溶液保存在冰上。在这两种情况下，SAGE标签的平均GC含量分别为48.3%和48.7%，落在以圆圈为中心的主要组中。这表明平均GC含量相对较高的SAGE库（以三角形为中心）可能代表有偏差的分布。

富含AT-的DiTag的变性和实验损失会导致GC含量偏差

在我们的实验室和其他实验室（V.E.Velculescu，个人通信）中已经注意到，含有游离DiTag的溶液的温度升高很小，通常不被注意到，会导致它们在低盐条件下变性（图。8). 尽管我们的诊断凝胶没有显示出任何明显的变性DiTags迹象，但我们仍然假设在Amp2中发生了富含AT-的DiTag的选择性变性，未被检测到。为了验证这个假设，通过改变苯酚提取的温度，在相同的DiTag连接后产生三个额外的DiTag扩增（Amp3、Amp4和Amp5）Nla公司进行III消化以释放游离DiTag。该步骤要么在室温（Amp3）下执行，要么保存在冰上，然后在4°C（Amp4和Amp5）下离心。

通过在室温（而不是4°C）下对游离DiTag进行苯酚萃取（包括离心），我们能够以GC含量偏差（Amp3）再现SAGE Tag的分布。此外，Amp4和Amp5产生的SAGE Tag群体在GC含量分布上与Amp1相似（图。6)，积累率（图。4)和平均SAGE Tag GC含量（表1). 图9显示了用于从Amp3和Amp4纯化游离DiTags的凝胶的直接比较。注意通道的相似性，DiTag带（凝胶中含有变性DiTag的区域）以下的染色强度没有显著差异。

进一步的证据表明，Amp1、Amp4和Amp5具有预期的GC含量分布，而Amp2和Amp3可能具有偏差分布，这是通过对SAGE标签所源自的DNA序列的平均GC含量的分析得到的。SAGE标签由位于最后一个标签3′端两侧的10 bp序列生成Nla公司cDNA中的III位点。该位置通常位于基因的3′非翻译区（UTR）内，已证明啮齿动物和哺乳动物的GC-rich为～45%(19). 研究还表明，人类基因组中约80%的已鉴定基因位于GC-rich≤50%的DNA区域内，而约5%的基因位于GC-rich>55%的区域内(20,21). 因此，观察到的Amp1、Amp4和Amp5的平均SAGE Tag GC含量与3′UTR和基因组数据库分析的预期一致。

检测SAGE库中GC内容偏差的测试

两种方法可用于确定SAGE标签群体中GC含量偏差的程度。第一种是主观方法，观察SAGE标签相对于GC内容的分布，如图所示6。用于生成此分布的数据可以通过eSAGE中的GC内容函数获得(9). 无偏库通常具有与Amp1和Amp5相似的曲线（未显示数据）。

第二种是定量方法，用于确定库中SAGE标签的平均GC含量。为了获得这个值，我们结合使用了Access 97查询和定制的Perl程序(22)以重新格式化用eSAGE获得的GC内容数据，用于用S-Plus 2000的汇总统计函数进行分析。由于任何SAGE库中的偏倚程度都可能因实验条件而异，因此我们并不试图限制决定偏倚或无偏倚状态的平均GC含量值。然而，平均GC内容值高于50%的SAGE库是有问题的，这里显示接近55%或更高的值是GC内容偏向SAGE库的结果。这两种测试都可以通过对SAGE库中的750个标签进行测序来检测取样偏差（数据未显示）。

讨论

此处提供的统计工具可用于识别因方法或数据管理错误而产生的不必要差异。通过对我们自己的一个SAGE库进行总体测试，发现了一个反映GC内容偏差的错误。我们的分析表明，几个公开可用的SAGE库也同样受到这种偏见的影响。

最近对SAGE协议（v1.0c至v1.0e）的修改建议，任何含有游离DiTag的溶液都应放在冰上。添加该添加剂有助于防止这种复杂混合物在低盐条件下分解（图。8). 虽然许多研究人员在没有这种修饰的情况下已经取得了成功的结果，但我们在这里已经表明，富含AT-的DiTag的熔化可以在未被检测到的情况下发生（图。9)除非进行了额外的统计分析。

SAGE方法产生的DiTag是长约26 bp的双链DNA分子。在任何给定的SAGE实验中，几乎所有DiTag分子都有一个独特的DNA序列，这使得DiTag溶液的热力学性质不同于具有相同序列的双链26 bp DNA分子的溶液。首先，每个DiTag分子的熔点根据其GC含量而变化(23). 其次，解决方案的异构复杂性阻碍了单链DiTag与其互补链的重新关联（数据未显示）。

DiTags易变性的关键时间是在Nla公司将其从扩增的连接子-DiTag PCR产物中释放出来，直到DiTag串联。显然，在冰上保存免费的DiTag是防止这种情况发生的一种方法，我们强烈建议这样做。特别是苯酚萃取的离心步骤，以清理Nla公司应在冷冻离心机中对释放的DiTag进行III消化，因为我们注意到，未经冷冻的台式微型离心机可以旋转10分钟将试管加热至33°C（用微型温度计在2 ml水中测量；数据未显示）。防止DiTag融化的另一种方法是修改该方法中使用的酶，从而产生更长、更稳定的DiTag。最近开发了一种使用不同标记酶的方法（LongSAGE）（K.W.Kinzler，个人通信），可能不会遇到这种潜在问题。

受GC含量偏差影响的SAGE文库仍然可以用于确定组织中表达的基因类型。然而，为了充分发挥该方法在获得定量基因表达谱方面的潜力，必须消除实验偏差。

致谢

作者感谢R.H.Lyons使用Perl、S.C.Hamon对本文统计方面的有用建议，以及使用S-Plus 2000和M.W.Glynn对手稿进行批判性审查。E.H.M.由基因组科学机构培训计划（T32 HG00040）支持。这项工作得到了密歇根大学生物信息学试点拨款的部分支持。

*

收件人：密歇根大学医学院人类遗传学系，地址：1241 East Catherine Street，Ann Arbor，MI 48109-0618，USA电话：+1 734 647 3817；传真：+1 734 763 3784；电子邮件：innis@umich.edu

图1。描述用于检测SAGE数据亚群之间总体差异的蒙特卡罗模拟过程。保持行和列总数不变，随机生成一个新的数据表，并计算卡方值（步骤1）。此过程重复200次，以在无差异的零假设下生成齐方值的分布（步骤2）。然后，根据实际数据（步骤3）计算观察到的齐方值，并与零假设下的齐方值分布进行比较（步骤4）。零分布表示偶然出现的奇方值，假设两个总体之间没有差异。通过将观察到的齐方值与零分布进行比较，我们可以了解两个子种群之间的总体差异。

图1。用于检测SAGE数据亚群之间总体差异的蒙特卡罗模拟过程的描述。保持行和列总计不变，将随机生成一个新的数据表，并计算奇方值（步骤1）。此过程重复200次，以在无差异的零假设下生成齐方值的分布（步骤2）。然后，根据实际数据（步骤3）计算观察到的齐方值，并与零假设下的齐方值分布进行比较（步骤4）。零分布表示偶然出现的奇方值，假设两个总体之间没有差异。通过将观察到的齐方值与零分布进行比较，我们可以了解两个子种群之间的总体差异。

新标签中打开下载幻灯片

图2。蒙特卡罗模拟结果。直方图显示了零假设下的奇方值分布。如材料和方法中所述，这些是200个蒙特卡罗模拟的结果，针对两个子种群，每个子种群有25000个SAGE标签。（A）由来自Amp1的14000个Tag和来自Amp5的36000个Tag组成的种群分布。（B）不同的种群由来自Amp1的14000个标签和来自Amp2的36000个标签组成。由于Amp1、Amp2和Amp5是由同一个DiTag结扎产生的，因此无效假设是这两个亚群中的任何一个都没有差异。箭头指向观察到的奇方值。在（A）中，观察到的Chi-square值属于零分布（经验P值=0.31），表明两个亚群之间没有总体差异。在（B）中，观察到的Chi-square值超出了零分布（经验P值=0），表明两个亚群之间存在总体差异。注意x轴磨合（B）。y轴表示具有给定奇方值范围的模拟数。

图2。蒙特卡罗模拟结果。直方图显示了零假设下的奇方值分布。如材料和方法中所述，这些是200个蒙特卡罗模拟的结果，针对两个子种群，每个子种群有25000个SAGE标签。(A类)由来自Amp1的14000个Tag和来自Amp5的36000个Tag组成的种群分布。(B类)不同的种群由来自Amp1的14000个标签和来自Amp2的36000个标签组成。由于Amp1、Amp2和Amp5是由相同的DiTag连接产生的，因此零假设是这两个亚群中的任何一个都没有差异。箭头指向观察到的奇方值。在（A）中，观察到的奇方值落在零分布内（经验P（P）-值=0.31）表示两个亚群之间没有总体差异。在（B）中，观察到的奇方值落在零分布之外（经验P（P）-值=0）表示两个亚群之间存在总体差异。请注意x个-轴磨合（B）。这个年-轴表示具有给定Chi-square值范围的模拟数。

新标签中打开下载幻灯片

图3。对多个DiTag扩增重复SAGE方法的步骤。Linker-DiTag分子是通过SAGE协议中概述的一系列酶步骤创建的。该底物的稀释用于同一DiTag结扎的多个DiTag扩增。将扩增的DiTags进行凝胶纯化（步骤1）并用NlaIII消化（步骤2）。该消化物通过苯酚萃取纯化，乙醇沉淀，游离DiTag凝胶纯化并串联（步骤3）。大的串联体被凝胶纯化（步骤4）并克隆到质粒中（步骤5）。通过菌落PCR（步骤6）扩增单个克隆进行测序。值得注意的是，在我们的实验室中进行的所有DiTag扩增以及本文中报告的扩增都具有类似于此处所示的凝胶。

图3。对多个DiTag扩增重复SAGE方法的步骤。Linker-DiTag分子是通过SAGE协议中概述的一系列酶步骤创建的。该底物的稀释用于同一DiTag结扎的多个DiTag扩增。将扩增的DiTag进行凝胶纯化（步骤1）并用Nla公司III（步骤2）。该消化物通过苯酚萃取纯化，乙醇沉淀，游离DiTag凝胶纯化并串联（步骤3）。大的串联体被凝胶纯化（步骤4）并克隆到质粒中（步骤5）。通过菌落PCR（步骤6）扩增单个克隆进行测序。值得注意的是，在我们的实验室中进行的所有DiTag扩增以及本文中报告的扩增都具有类似于此处所示的凝胶。

新标签中打开下载幻灯片

图4。不同DiTag扩增中两个代表性SAGE标签的Tag计数随时间的累积。（A）具有代表性的SAGE标签的累积量为50%GC-含量和（B）10%GC-含量。DiTag放大1（Amp1）的标签积累显示在参考线的左侧。DiTag扩增2和5（Amp2和Amp5）的标记累加与Amp1的累加，并在参考线右侧表示。（B）中10%GC-rich SAGE标签的Amp1和Amp2之间的斜率变化，但（A）中50%GC-rich-SAGE标签没有变化，这表明Amp2中AT-rich的SAGE标签未得到充分显示。然而，10和50%GC-rich SAGE Tag的Amp1和Amp5之间的相似斜率表明，Amp5中SAGE Tab的GC含量没有偏差。

图4。不同DiTag扩增中两个代表性SAGE标签的Tag计数随时间的累积。(A类)累积50%GC-rich的代表性SAGE标签(B类)10%GC-丰富。DiTag放大1（Amp1）的标签积累显示在参考线的左侧。DiTag扩增2和5（Amp2和Amp5）的标记累加与Amp1的累加，并在参考线右侧表示。（B）中富含10%GC的SAGE标签的Amp1和Amp2之间的斜率变化，但（A）中富含50%GC的SAGE标签的斜率变化不明显，这表明富含AT的SAGE标签在Amp2中的代表性不足。然而，10和50%GC-rich SAGE Tag的Amp1和Amp5之间的相似斜率表明，Amp5中SAGE Tab的GC含量没有偏差。

新标签中打开下载幻灯片

图5。GC含量和标记积累率之间的相关性。方程式1中V与GC%的散点图。任何与零的偏差都表示同一SAGE标签的两个不同DiTag放大之间的斜率差异。预计在零附近会有一些变化，特别是对于低频率的SAGE标签。为了澄清起见，从这些图中删除了总频率<15的标签。在包含所有数据（未显示）的曲线图上观察到相同的趋势。（A） Amp1（无偏）与Amp2（有偏）相比。请注意V与GC%的不对称分布，其中V对于富含AT的标签来说往往是一个越来越大的正值。V的正值是Amp2斜率较小的结果（因为Amp2的斜率是计算V的分母），表明Amp2中AT-rich标签丢失。（B） Amp1（无偏）与Amp5（无偏）相比。这里，V的分布类似于GC含量的所有百分比。

图5。GC含量和标记积累率之间的相关性。方程V的散点图1与GC%相比。与零的任何偏差表示相同SAGE标签的两个不同DiTag扩增之间的斜率差异。预计在零附近会有一些变化，特别是对于低频率的SAGE标签。为了澄清起见，从这些图中删除了总频率<15的标签。在包含所有数据（未显示）的曲线图上观察到相同的趋势。(A类)Amp1（无偏）与Amp2（有偏）相比。注意非对称分布V（V）与GC%相比，其中V（V）对于AT-rich标签来说，其价值越来越高。的正值V（V）是Amp2中较小斜率的结果（因为Amp2的斜率是计算的分母V（V）)，表示Amp2中的AT-rich标签丢失。(B类)Amp1（无偏）与Amp5（无偏。在这里V（V）对GC含量的所有百分比进行类似分布。

新标签中打开下载幻灯片

图6。按GC内容排序的SAGE标签的分布。该图表示每个DiTag扩增产物中SAGE Tag与特定GC含量（0–100%）的比例。通过每个点画一条线来描述分布。请注意，来自Amp2的SAGE标签的分布向右倾斜，这表明富含AT的SAGE标记丢失，GC-富含SAGE标记的比例相应增加。

新标签中打开下载幻灯片

图7。来自102个公开可用的SAGE文库的平均GC含量的直方图。按照材料和方法中的描述计算平均值。圆和三角形表示此双峰分布的两个峰值，这两个峰值与本文中显示的SAGE库的平均值密切相关，分别是无偏和有偏的。在测试的SAGE库中，82%的平均GC含量<52%。

图7。102个公开可用SAGE库中GC平均含量的柱状图。按照材料和方法中的描述计算平均值。圆和三角形表示此双峰分布的两个峰值，这两个峰值与本文中显示的SAGE库的平均值密切相关，分别是无偏和有偏的。在测试的SAGE库中，82%的平均GC含量<52%。

新标签中打开下载幻灯片

图8。未调节温度控制对游离DiTag的影响示例。聚丙烯酰胺凝胶（12%）用Sybr Green染色。进行单个DiTag扩增和NlaIII消化，然后将其平均分为两个样品。将泳道1中的样品保存在冰上，用于SAGE方案的苯酚提取和乙醇沉淀步骤。在SAGE协议的上述步骤中，将通道2中的样品保持在室温下。请注意第2道释放的DiTag的丢失以及随后低分子量涂片的增加，可能代表变性的DiTags。图像是在BioRad分子成像仪2000上捕获的，导出为TIFF文件并在Photoshop 5.0中裁剪。图像经过编辑后，在同一凝胶上解析的这两条通道可以并排查看。没有对图像进行其他修改。

图8。未调节温度控制对游离DiTag的影响示例。聚丙烯酰胺凝胶（12%）用Sybr Green染色。单个DiTag扩增和Nla公司进行III消化，然后平均分为两个样品。在SAGE协议的苯酚提取和乙醇沉淀步骤中，将通道1中的样品保存在冰上。在SAGE协议的上述步骤中，将通道2中的样品保持在室温下。请注意第2道释放的DiTag的丢失以及随后低分子量涂片的增加，可能代表变性的DiTags。图像是在BioRad分子成像仪2000上捕获的，导出为TIFF文件并在Photoshop 5.0中裁剪。图像经过编辑后，在同一凝胶上解析的这两条通道可以并排查看。没有对图像进行其他修改。

新标签中打开下载幻灯片

图9。扩增连接子-DiTag分子的NlaIII消化物中的偏置（Amp3）和无偏置（Amp 4）产物。如图8所示，NlaIII消化液在两个单独的凝胶上溶解。这里显示的是同一个DiTag结扎的两个单独的DiTag扩增的四条通道之一。注意两条通道的相似性，这种凝胶不能可靠地检测GC含量偏差。Amp3凝胶的图像长度减少了34%，以使不同凝胶上具有相似分子量的条带对齐。没有对这些图像进行其他修改。

图9。来自Nla公司III扩增连接子-DiTag分子的消化。Nla公司III消化物在两个单独的凝胶上分解，如图8所示。这里显示的是同一个DiTag结扎的两个单独的DiTag扩增的四条通道之一。注意两条通道的相似性，这种凝胶不能可靠地检测GC含量偏差。Amp3凝胶的图像长度减少了34%，以使不同凝胶上具有相似分子量的条带对齐。没有对这些图像进行其他修改。

新标签中打开下载幻灯片

表1。

新标签中打开

DiTag扩增总结

DiTag扩增

平均GC含量^一(%)

使用的方法^b条

放大器1

48.3

RT公司

安培2

58.4

RT公司

放大器3

55.8

RT公司

放大器4

49.7

寒冷

安培5

48.5

寒冷

粗体行突出显示受GC内容偏差影响的DiTag放大。

^一按照材料和方法中的说明进行计算。

^b条指苯酚提取后是否Nla公司在室温（RT）或冰上进行III消化以释放游离DiTag，并在4°C（冷）下离心。

工具书类

1 Velculescu，V.E.，Zhang，L.，Vogelstein，B.和Kinzler，K.W(

1995

)基因表达的系列分析。

科学类

,

270

,

484

–487.

2鲍威尔，J(

1998

)增强串联克隆——对SAGE（基因表达序列分析）技术的改进。

核酸研究。

,

26

,

3445

–3446.

3 Kenzelmann，M.和Muhlemann，K(

1999

)通过在原始方案中添加加热步骤，大大提高了SAGE（基因表达序列分析）的克隆效率。

核酸研究。

,

27

,

917

–918.

4 Angelastro，J.M.，Klimaschewski，L.P.和Vitolo，O.V(

2000

)改进Nla公司三通过在SAGE和microSAGE协议中添加单一纯化步骤，对PAGE纯化的102 bp双标记进行消化。

核酸研究。

,

28

,

e62（电子62）

.

5 Peters，D.G.、Kassam，A.B.、Yonas，H.、O'Hare，E.H.、Ferrell，R.E.和Brufsky，A.M(

1999

)SAGE-Lite对少量mRNA进行全面转录分析。

核酸研究。

,

15

,

e39（电子39）

.

6 Datson，N.A.、van der Perk-de Jong，J.、van den Berg，M.P.、de Kloet，E.R.和Vreugdenhil，E(

1999

)MicroSAGE：一种改进的程序，用于对有限数量组织中的基因表达进行系列分析。

核酸研究。

,

27

,

1300

–1307.

7 Ye，S.Q.，Zhang，L.Q.，郑，F.，Virgil，D.和Kwiterovich，P.O(

2000

)MiniSAGE：使用1µg总RNA的基因表达序列分析进行基因表达谱分析。

分析。生物化学。

,

287

,

144

–152.

8 Lash，A.E.、Tolstoshev，C.M.、Wagner，L.、Schuler，G.D.、Strausberg，R.L.、Riggins，G.J.和Altschul，S.F(

2000

)SAGEmap：一种公共基因表达资源。

基因组研究。

,

10

,

1051

–1060.

9 Margulies，E.H.和Innis，J.W(

2000

)eSAGE：管理和分析基因表达序列分析（SAGE）生成的数据。

生物信息学

,

16

,

650

–651.

10 van Kampen，A.H.、van Schaik，B.D.、Pauws，E.、Michiels，E.M.、Ruijter，J.M.、Caron，H.N.、Versteeg，R.、Heisterkamp，S.H.、Leunissen，J.A.、Baas，F.和van Der Mee，M(

2000

)用法：基于网络的SAGE数据分析方法。

生物信息学

,

16

,

899

–905.

11 Audic，S.和Claverie，J.M(

1997

)数字基因表达谱的意义。

基因组研究。

,

7

,

986

–995.

12 Kal，A.J.、van Zonneveld，A.J.、Benes，V、van den Berg，M.、Koerkamp，M.G.、Albermann，K.、Strack，N.、Ruijter，J.M.、Richter，A.、Dujon，B.、Ansorge，W.和Tabak，H.F(

1999

)通过对生长在两种不同碳源上的酵母的基因表达转录谱的系列分析比较，揭示了基因表达的动态。

分子生物学。单元格

,

10

,

1859

–1872.

13 Stollberg，J.、Urschitz，J.，Urban，Z.和Boyd，C.D(

2000

)SAGE的定量评估。

基因组研究。

,

10

,

1241

–1248.

14 Man，M.Z.，Wang，X.和Wang，Y(

2000

)POWER_SAGE：比较SAGE实验的统计测试。

生物信息学

,

16

,

953

–959.

15尤因，B.、希利尔，L.、温德尔，M.C.和格林，P(

1998

)使用分成两份. I.准确性评估。

基因组研究。

,

8

,

175

–185.

16 Sokal，R.R.和Rohlf，F.J(

1995

)生物统计学：生物学研究中的统计学原理与实践，第3版。弗里曼，纽约州纽约市。

17 Virlon，B.、Cheval，L.、Buhler，J.M.、Billon，E.、Doucet，A.和Elalouf，J.M(

1999

)肾转录组的系列显微分析。

程序。美国国家科学院。科学。美国

,

96

,

15286

–15291.

18克里斯特·R、斯科特·H·S、帕帕萨维亚斯·M·P、罗西尔·C、安东尼亚拉基斯·E·S、巴拉斯·C、戴维森·M·T、施密特·C、埃斯蒂维尔·X、迪尔森·M、普里查德·M和安东尼亚拉基斯·S·E(

2000

)SAGE小鼠脑转录组：16三体部分唐氏综合征小鼠模型（Ts65Dn）和正常人P30脑基因表达的差异。

基因组研究。

,

10

,

2006

–2021.

19佩索尔·G、路易尼·S、格里洛·G和萨科内·C(

1997

)真核细胞信使核糖核酸非翻译区的结构和组成特征。

基因

,

205

,

95

–102.

20国际人类基因组测序协会。(

2001

)人类基因组的初步测序和分析。

自然

,

409

,

860

–921.

21 Venter，J.C.，Adams，M.D.，Myers，E.W.，Li，P.W.，Mural，R.J.，Sutton，G.G.，Smith，H.O.，Yandell，M.，Evans，C.A.，Holt，R.A.等人(

2001

)人类基因组的序列。

科学类

,

291

,

1304

–1351.

22 Wall，L.、Christiansen，T.和Orwant，J(

2000

)大骆驼书，第3版。O’Reilly&Associates，Inc.，加利福尼亚州塞巴斯托波尔。

23 Cantor，C.和Schimmel，P(

1980

)生物物理化学，第三部分：生物大分子的行为W.H.Freeman and Company，加利福尼亚州旧金山。

下载所有幻灯片

月份：	总浏览次数：
2016年12月	三
2017年2月	4
2017年3月	5
2017年6月	2
2017年7月	1
2017年8月	2
2017年11月	三
2017年12月	12
2018年1月	4
2018年2月	11
2018年3月	7
2018年4月	2
2018年5月	6
2018年6月	2
2018年7月	5
2018年8月	9
2018年10月	三
2018年11月	5
2018年12月	5
2019年1月	9
2019年2月	4
2019年3月	7
2019年4月	11
2019年5月	12
2019年6月	4
2019年7月	10
2019年8月	10
2019年9月	9
2019年10月	2
2019年11月	9
2019年12月	5
2020年1月	4
2020年2月	5
2020年3月	4
2020年4月	8
2020年5月	7
2020年6月	8
2020年7月	5
2020年8月	10
2020年9月	4
2020年10月	5
2020年11月	三
2020年12月	8
2021年1月	1
2021年2月	三
2021年3月	9
2021年4月	8
2021年5月	5
2021年6月	4
2021年7月	1
2021年9月	2
2021年10月	4
2021年11月	6
2021年12月	2
2022年1月	三
2022年2月	6
2022年3月	2
2022年4月	4
2022年5月	4
2022年6月	5
2022年7月	8
2022年8月	2
2022年9月	10
2022年10月	13
2022年11月	4
2022年12月	1
2023年1月	9
2023年2月	5
2023年3月	6
2023年4月	5
2023年5月	5
2023年6月	2
2023年7月	2
2023年8月	三
2023年9月	4
2023年10月	12
2023年11月	6
2023年12月	7
2024年1月	13
2024年2月	12
2024年3月	2
2024年4月	9
2024年5月	6
2024年6月	11

文章内容

SAGE库中GC内容偏差的识别和预防

摘要

简介

材料和方法

SAGE库合成

SAGE数据采集

评估SAGE库再现性的总体差异测试

累积速率的计算

结果

总体差异测试可用于评估SAGE库的质量

两个DiTag扩增的差异与Tag GC含量相关

其他SAGE库可能存在偏差

富含AT-的DiTag的变性和实验损失会导致GC含量偏差

检测SAGE库中GC内容偏差的测试

讨论

致谢

工具书类

评论

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

DiTag扩增	GC平均含量^一(%)	使用的方法^b条
放大器1	48.3	RT公司
安培2	58.4	RT公司
放大器3	55.8	RT公司
放大器4	49.7	寒冷
安培5	48.5	寒冷

文章内容

SAGE库中GC内容偏差的识别和预防

摘要

简介

材料和方法

SAGE库合成

SAGE数据采集

评估SAGE库再现性的总体差异测试

累积速率的计算

结果

总体差异测试可用于评估SAGE库的质量

两个DiTag扩增的差异与Tag GC含量相关

其他SAGE库可能存在偏差

富含AT-的DiTag的变性和实验损失会导致GC含量偏差

检测SAGE库中GC内容偏差的测试

讨论

致谢

工具书类

评论

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

此功能仅对订阅服务器可用