了解细胞过程的关键第一步是定量表达基因表达谱,包括与癌症相关的基因表达谱。作为癌症基因组解剖学项目(CGAP)的一部分,使用LongSAGE文库测量各种癌症组织和细胞的基因表达谱,该文库是使用传统Sanger测序方法创建和测序的(Lal等人,1999年). 在该项目完成之前,新的大规模并行测序技术的出现使得测量基于tag的基因表达的效率和灵敏度得以提高。因此,我们寻求开发并应用下一代测序方法,用于基于tag的基因表达谱分析,以完成CGAP数据库。
一些最近开发的测序技术,如454生命科学(罗氏)焦磷酸测序平台(Margulies等人,2005年),Illumina基因组分析仪(宾利2006)和Applied Biosystems SOLiD平台(http://solid.appliedbiosystems.com)提供大规模并行的短篇阅读制作。使用这些技术,数千到数百万分离和扩增的DNA分子可以附着在固体表面(如流动细胞或微球),并通过并行合成进行测序。与毛细管测序相比,这种技术每基成本效率提高了两个数量级(von Bubnoff 2008年). 这些平台使以前成本高昂的项目变得可行,例如基因组重新测序(Green等人,2006年;Bentley等人,2008年;Ley等人,2008年;Wang等人2008b)深度转录组和非编码RNA测序(Nielsen等人,2006年;Weber等人,2007年;Marioni等人2008;Morin等人,2008年;Rosenkranz等人,2008年)以及全基因组蛋白质结合位点调查(ChIP-seq)(Jothi等人,2008年;Wederell等人,2008年).
上述大规模并行测序方法之前的高通量方法多种多样,但通常可分为基于序列的或基于杂交的。前者通常被称为“数字”,因为它们反映了转录物的单个观察值的数量,而后者通常以微阵列的形式被称为是“模拟”,因为它提供了基于替代杂交的单个转录物丰度测量。使用表达序列标签(EST)进行数字基因表达谱分析(Adams等人,1991年;Hillier等人,1996年)具有成本限制性,并且开发了更具成本效益的基于tag的技术,如基因表达序列分析(SAGE)(Velculescu等人,1995年). 尽管与EST分析相比,成本效率有所提高,但高通量毛细管测序所需的费用和专用设施阻止了SAGE像其微阵列同行一样广泛应用。
我们的目标是在Illumina平台上实现标签测序协议,类似于LongSAGE(Saha等人,2002年),并使用此协议测量人类癌症中的转录物丰度。Illumina公司(Bentley等人,2008年)序列合成技术目前在仪器的单次运行中提供约8000万次读取(每条车道1000万次读取;八线流动池)。与LongSAGE的毛细管测序相比,这使得基因表达谱分析实验的动态范围大大改善,成本大大节省。我们的方法称为Tag-seq,通常从转录本的3′端生成21碱基对(bp)标记。该方法类似于LongSAGE方法(Saha等人,2002年)但放弃了ditag生产、串联和克隆的需要。标签的深度测序只需使用流式细胞的一条通道即可实现,典型产量在500万到1000万序列范围内。
与传统微阵列相比,Tag-seq没有相关序列的交叉杂交,原则上提供的动态范围仅受测序深度的限制。与RNA-seq相比,Tag-seq在基因发现和动态范围方面表现相似。虽然Tag-seq不提供有关转录物内部结构的信息,但它可以区分来自两条DNA链的转录物。使用特异性基因表达平台具有优势,例如可以测量人类基因组中普遍存在的反义转录(Katayama等人,2005年). 在这里,我们对CGAP收集的Tag-seq数据进行了分析,以说明该方法在解决癌症生物学相关问题方面的实用性。
结果
数据生成和过滤
Tag-seq协议类似于LongSAGE方法(Saha等人,2002年)其中一种限制性内切酶(NlaIII)裂解样本中的每个转录物,另一种II型限制性内切酶(MmeI)用于从最靠近NlaIII的3′位点生成21-bp的标签。在LongSAGE中,来自单个转录物的标签被连接在一起,形成双标签,这些双标签通过毛细管测序进行连接、克隆和测序。相反,Tag-seq方法放弃了双标记的产生和串联,允许在Illumina基因组分析仪上使用大规模并行测序对标签进行直接测序(参见方法;). 通常,Tag-seq库的测序深度为1000万个标记,这表示与典型LongSAGE库的测速深度相比增加了两个数量级。我们的期望是,Tag-seq方法的增加深度将改善LongSAGE敏感性极限或超出极限的重要低丰度转录物的表示。
Tag-seq库生成概述。每个mRNA(棕色)都使用寡核苷酸(dT)珠进行了双链cDNA合成,以捕获聚腺苷化RNA。cDNA(金)用NlaIII锚定限制酶(垂直红色箭头)消化,留下4 bp悬垂(GTAC)。仅保留固定在寡核苷酸(dT)珠上的cDNA片段。适配器A(绿色)连接到突出部分,并为类型IIS标记酶MmeI添加识别位点。MmeI消化后(红色垂直箭头),将第二个适配器(适配器B,蓝色)连接到产生的2-bp外悬。PCR引物(水平红色箭头)退火到适配器A和B用于丰富标签。在Illumina集群站和分析仪上进行集群生成和排序(棕色水平箭头)。处理产生的图像文件以提取读取序列,并从读取中进一步提取21-bp SAGE标记。标签由4-bp的NlaIII识别位点和17bp的独特序列组成,共构成21个碱基,可映射回原始mRNA(棕色)。
我们使用Tag-seq平台通过从癌症和正常组织样本中生成35个库来完成CGAP数字基因表达谱项目。为了评估新的Tag-seq数据和现有LongSAGE数据之间的相似性,我们将这35个库的数据与77个LongSAGE库的数据进行了比较。我们总共生产了两个金属文库,一个包含来自77个文库的690万个LongSAGE标签(110万个不同的标签序列),另一个包含来自35个质量过滤文库的1.7亿个tag-seq标签(400万个不同的标签序列)。这些图书馆作为CGAP收藏的一部分公开提供(补充表S1;Lal等人,1999年). CGAP文库还包括两个文库,一个Tag-seq文库和一个LongSAGE文库,它们是从同一人类胚胎干细胞(hESC)RNA来源创建的。
为了确保我们分析了Tag-seq库中的高质量数据,我们使用一种新的过滤算法(补充方法)删除了潜在的错误标记。简言之,如果标签出现一次(单倍体),或者如果它们与更高表达的标签有一个碱基对的差异(一对),则会被删除,除非它们映射到基因组或转录组。平均而言,22.1%的过滤标签可以映射到Ensembl转录本,而只有1.2%的被过滤器删除的标签能够映射到转录本。虽然过滤后的标签序列平均占所有标签序列的7.5%,但其丰度平均相当于总库容量的56.0%,并且它们识别出的基因数量超过了所有标签检测到的基因总数的97.5%。
深度对标签序列多样性和丰度的影响
通过比较Tag-seq和LongSAGE金属库,我们试图首先确定Tag-seq-LongSAGE协议的差异是否会导致标签或基因表达的任何显著偏差。正如预期的那样,我们发现这些金属库之间存在显著重叠,使用这两种方法检测到的独特标签序列超过300000个。平均而言,与LongSAGE库相比,这些常见检测到的标签序列在tag-seq库中的表达比例更高,并且在tag-seq库中表达的比例高出17倍(). 只有一种方法检测到大量标签序列;一般来说,这两种方法得到的标签序列的表达水平较低,而且库也较少。仅由tag-seq检测到的300万个标签序列平均是两种方法检测到的共同标签丰度的1/16(绝对计数,)因此,由于它们的测序深度相对较浅,在LongSAGE库中可能无法检测到。数千个Tag-seq标签序列没有映射到基因组或转录组中任何独特或重复的位点。这些可能表明注释基因的新转录物或新亚型的存在,导致产生跨越剪接位点的新标签序列(80875个tag-seq标签序列和63166个LongSAGE标签序列在计数为10时表达;补充图S1)。
表1。
显示LongSAGE库、tag-seq库或两者中检测到的标记序列的平均表达式值
在这两个金属库中检测到的近三分之一的标签映射到21638个基因。仅在LongSAGE(8.1%)或tag-seq(3.5%)中发现的一小部分标签序列映射到Ensemble基因(). 尽管总的来说,仅由tag-seq发现的标签序列的表达水平低于LongSAGE检测到的水平,但仅在tag-seq741个基因中发现的平均表达水平高于常见基因的表达水平。因此,它们很可能是LongSAGE没有描述的组织特异性基因。除人胚胎干细胞复制品外,所有LongSAGE和Tag-seq文库都代表不同的组织,尽管LongSAGE文库的数量越多,LongSASE分析的组织多样性就翻了一番。仅由LongSAGE发现的430个基因的平均表达频率低于两种方法检测到的基因,并且可能代表使用LongSAGE分析的组织特有的基因。
接下来,我们通过比较从相同的人类胚胎干细胞RNA样本创建的Tag-seq和LongSAGE复制库来研究深度对基因表达的影响。Tag-seq复制品(文库id“hs0238”)共有293179个标签序列(错误标签被删除;补充方法),其中40149个(13.7%)定位于Ensemble基因,位于内含子、外显子或相反链上。LongSAGE复制品(补充表S1中的库id为“1313”)共有19998个标签序列,其中13983个(69.9%)定位于Ensemble基因。LongSAGE标签序列映射到7055个基因,tag-seq标签序列映射至11165个基因,其中包含LongSAGE发现的93.5%的基因。因此,增加深度可将该组织中的基因检测提高1.6倍。因为每个标签序列映射到一个基因可以代表一个单独的转录亚型(Siddiqui等人,2005年),我们分析了所有转录亚型的平均表达。LongSAGE仅发现的6.5%基因的转录本表达水平较低(平均为4.0个计数),并且由于复制库创建过程中的变异性,Tag-seq库中的转录本可能不足。转录因子(TF)的检测结果是原来的1.8倍,其中LongSAGE检测到429个TF,Tag-seq检测到799个TFs。与仅在LongSAGE(5.9)和仅由Tag-seq检测到的406个TF(26.7)相比,共检测到的393个TF的平均表达更高(Tag-seq-69.8,LongSAGE-6.8)。
为了确定Tag-seq发现的这些额外基因是否与两种方法发现的基因在功能上不同,我们对Tag-seq中过度表达的基因本体论(GO)类别与LongSAGE复制进行了评估(Ashburner等人,2000年). 这两种方法都发现了该组织中最显著的过度表达术语。因此,测序深度的增加导致识别了数千个额外的基因,这些基因与LongSAGE标签检测到的中度和高度丰富的基因属于相同的功能类别。
接下来,我们询问Tag-seq文库是否比标准LongSAGE文库平均明确地鉴定了更多的基因。我们进行了抽样模拟,以估计每个Tag-seq和LongSAGE文库中不同测序“深度”所代表的基因数量。从单个LongSAGE库中抽取多达300000个标签,检测到多达10000个基因(). 经过质量过滤的Tag-seq库在多达1000万个标签的深度进行采样,检测到多达13000个基因。这表明,Tag-seq方法提供的附加深度导致了对基因表达谱的更全面查询,48.3%和36.3%的表达基因可在深度大于典型(100000个标签)或大型(200000个标签)LongSAGE库的深度处检测到。在Tag-seq中,每采样深度超过100万个标签,基因检测率就会降低().
平均数量(A类)和比例(B类)作为采样深度的函数,在Tag-seq和LongSAGE库中明确确定的集合基因。误差条表示77个LongSAGE库和35个Tag-seq库中已识别基因的平均数SD。最大的LongSAGE库有约300000个标签,而最大的Tag-seq库有约1000万个标签。
Tag-seq和其他基因表达平台之间的基因丰度差异
确定了Tag-seq的测量采样深度改进了基因发现,我们通过重新分析Tag-seque和LongSAGE复制人胚胎干细胞文库,评估了两种方法之间标签丰度的一致性。LongSAGE复制品共有272465个标签,而Tag-seq复制品共有3636083个质量过滤标签。这些库中共同表达的标签的皮尔逊系数为0.60(补充图S2)。我们分析了另一组由同一小鼠RNA(补充方法)创建的复制Tag-seq和LongSAGE文库,发现它们的Pearson相关性为0.64。这与LongSAGE库和使用SAGELite协议生成的技术复制之间的相关性相当(0.64)。SAGELite是LongSAGE的一个变体,用于从样本中创建文库,这些样本太小,无法产生足够数量的mRNA用于标准LongSAGE文库构建(Peters等人,1999年). 我们观察到Tag-seq技术复制和SAGELite复制之间的皮尔逊系数较低(0.43),表明这些方法相对于LongSAGE具有不同的偏差。
我们在三个非CGAP Tag-seq文库及其在Affymetrix外显子阵列上分析的各自技术复制品之间生成了Pearson相关性。计算代表已知转录物并唯一或根本没有映射到基因组的表达标签及其相应的Affymetrix探针的相关性。三个技术复制品的皮尔逊系数彼此非常相似(0.59、0.60和0.61),以及Tag-seq和LongSAGE复制品的Pearson系数(补充图S2)。对Tag-seq和Affymetrix数据之间的动态范围的分析表明,与Affymmetrix相比,检测到的共有基因在Tag-seq中的动态范围大13倍(见补充结果;补充图S3;考虑到对数转换表达值时,动态范围大2倍,补充表S2)。
我们还分析了从同一RNA源创建的一对重复RNA-seq/Tag-seq文库,发现相对于RNA-seq,Tag-seq在基因鉴定(见补充结果;补充表S3)和基因表达测量(基因丰度的皮尔逊相关:0.54)方面的表现具有可比性。Illumina目前无法区分来自相反DNA链的读取,因此RNA-seq读取无法区分正反义转录。在这个复制文库中,近三分之一(29.5%)的基因通过这两种方法检测到,Tag-seq复制检测到反义链上的表达(补充表S3)。在两种方法检测到613个位点的情况下,Tag-seq读数清楚地表明,表达仅来自反义链。在这些基因座上,Tag-seq与RNA-seq测得的基因表达水平之间的相关性(0.50)与这两种技术中有意义表达的基因座上的相关性相同(0.54)。
GC含量偏差
接下来,我们研究了Tag-seq和LongSAGE平台分析的标签序列组成是否存在可检测的偏差。平台的GC-bias可以通过比较单个库中观察到的偏差与预期偏差偏离的标准偏差数来计算(Siddiqui等人,2006年; 补充方法)。我们发现Tag-seq文库比LongSAGE文库更富含AT(). 如前所述,LongSAGE文库的GC-bias较弱(−3.51±8.08),而Tag-seq文库的AT-bias较强(12.99±5.39),与Affymetrix平台(HGU 133 GeneChip;Siddiqui等人,2006年). 如对Affymetrix所观察到的,这种偏差随着表达水平的增加而平行降低,使得高表达的Tag-seq序列的偏差显著降低(所有过滤的标签序列与那些在500,P(P)= 2.1 × 10−10,t吨-测试)。这表明,随着基于测序技术的测序深度的增加,检测到了一类具有增加AT含量的独特基因。我们通过比较高频和低频标签基因的GC含量来测试Tag-seq中是否存在这种情况,并发现表达≤100个标签计数的基因比表达≥1500个标签计数基因的AT-rich显著增加(P(P)= 2.8 × 10−4,t吨-测试;补充图S4)。这对包含内含子的基因序列来说是正确的,但对cDNA序列来说则不然,这表明编码这些基因的基因组区域的AT含量与其表达水平相关。在LongSAGE中,随着表达水平的增加,偏倚也降低了,因此表达在20个计数以上和100个计数以上的标签序列的偏倚显著降低(所有标签序列与表达在100个计数之上的标签序列相比,P(P)= 1.9 × 10−3,t吨-测试)。这一趋势还与LongSAGE标记所对应的基因的GC含量水平相关,表明这些观察结果的来源也是生物性质的,而不是技术伪影(补充图S4)。
Tag-seq和LongSAGE库的GC-bias以观察到的偏差与预期偏差不同的SD数量为单位进行计算(见正文)。正单位表示具有比预期更多AT-丰富标签序列的库(AT-bias),而负单位表示具有超过预期的GC-丰富标签顺序的库(GC-bia)。在标签表达阈值增加时,显示所有质量过滤标签序列和所有LongSAGE标签序列的计算偏差(x个-轴)。
接下来,我们通过重新分析由相同RNA来源制成的hESC复制文库,确定了tag-seq与LongSAGE中标签表达的偏差程度。单独由LongSAGE检测到的标签序列的GC含量高于单独由Tag-seq检测到的标记序列(0.50 vs.0.39);然而,这两组标签序列平均很少表达(). 相比之下,两种方法检测到的13161个标记序列都是高表达的,并且具有中间GC含量(0.43),这与所有合集转录物标记序列的平均GC含量几乎相同(0.42)。我们研究了这些常见标签序列的表达相关性是否随着标签GC含量的变化而不同。我们将标签分为四个箱子,代表标签GC含量增加的比例(bin1:0%–25%;bin2:25%–45%;bin3:45%–65%;bin4:65%–100%),发现Pearson相关性随着GC含量的变化而变化,其中AT-rich标签的相关性最低().
Tag-seq和LongSAGE技术复制库中的GC含量偏差。(A类)比较常见或每个tag-seq和LongSAGE复制库发现的标记序列的GC含量和平均计数。(B类)根据GC含量计算标签的Pearson相关性。箱子上贴上标签,注明观察到的GC含量范围和装箱标签的数量(x个-轴)。(C类)计算tag-seq和LongSAGE在每个GC含量料仓中标签序列的平均表达,并绘制每个平均值的对数。星号(*)表示标签序列表达显著不同的箱子(使用t吨-测试,P(P)< 0.01).
我们调查了两种方法中富含AT的标签序列之间相关性降低的原因,并发现标签丰度与标签GC含量之间的关系。在LongSAGE中,我们观察到前三个bin(bin1 vs.bin2,P(P)= 1.6 × 10−3; 料箱2与料箱3,P(P)= 1.4 × 10−3;t吨-测试)。相反,tag-seq复制中相同标签序列的丰度与GC含量无关,但GC含量最高的bin除外(bin3 vs.bin4,P(P)= 9.4 × 10−8;). 所有tag-seq和所有LongSAGE文库的GC含量和标记丰度之间的关系(补充图S5)。
LongSAGE和Tag-seq库中标签检测到的平均基因数的比例显示为一系列表达阈值(每百万个标签)。条形图表示带有内含子标签的平均基因数的比例(A类),反义标签(B类)和DNA结合域(转录因子)(C类)在Tag-seq和LongSAGE库中。
改进Tag-seq库中低丰度LongSAGE转录本的表示
考虑到Tag-seq库的深度增加,我们预计在LongSAGE的检测极限下,转录本的标签数量会增加(Siddiqui等人,2005年). 这两类标签类别包括反义标签和内含子标签。反义标签源自从相反链转录的转录物(补充图S6),而内含子标签可能代表已知基因中未注释的外显子和UTR(Saha等人,2002年),或之前从内含子转录的未注释序列,例如嵌入基因(例如HA_003240,Hirst等人,2007年)或miRNA基因(Kim 2005年). 另一类具有生物学意义的低丰度转录物由转录因子(TF)组成。为了研究转录因子在Tag-seq和LongSAGE文库中的表达水平,我们下载了一组2890个编码DNA结合域(DBD)的人类基因(http://dbd.mrc-lmb.cam.ac.uk/dbd/index.cgi?关于),其中应包括所有TF,并在CGAP库中搜索它们的存在。
我们列举了在每个文库中,在表达阈值增加的情况下,在感觉方向上映射到TF外显子、已知基因的反义和感觉基因内含子的标签序列。总的来说,平均Tag-seq库检测到的TF基因数量是LongSAGE库的1.7倍(849对504),带有反义(as)标签的基因数量是其6.3倍(4999对795),带有内含子标签的基因是其2.8倍(7651对2752)。Tag-seq发现的大多数基因的表达水平低于现有LongSAGE文库中检测到的水平().
通过分析Tag-seq和LongSAGE人胚胎干细胞复制文库,我们确认了测序深度与内含子和反义标签的多样性和丰度之间的关系。为了确保标签序列多样性和标签丰度之间的关系是由深度以外的其他因素造成的,我们从tag-seq复制中生成了一个包含272465个随机子样本标签的电子图书馆。硅内库(以下称为sub_Tag-seq)理论上表示Tag-seq复制中表达量最高的标签的随机样本,因此应该与LongSAGE复制非常相似。我们发现sub_Tag-seq与LongSAGE复制中度相关(皮尔逊相关系数为0.6),大多数变异来自低频标签(数据未显示)。与Tag-seq库相比,sub_Tag-seq库中的内含子和反义标记丰度的任何差异都很可能是由于深度减少。
Tag-seq复制、sub_Tag-seq和LongSAGE复制的比较支持所描述的深层库中内含子和反义标记多样性的增加。我们比较了每个库中映射到外显子、内含子或Ensembl基因反义链的标签序列的比例(). 在Tag-seq复制中,最丰富的标记序列类别是外显子标记(47.8%),其次是反义标记(32.1%)和内含子标记(20.6%)。相比之下,LongSAGE复制品检测到外显子映射标签的可能性(73.0%)远高于反义标签(23.4%)或内含子标签(6.2%)。因此,Tag-seq复制富含反义和内含子标签序列;由于sub_Tag-seq文库中的标签映射比例与LongSAGE复制品相似(差异不显著),因此在采样深度<300000个标签时无法观察到这种富集。当将所有Tag-seq与所有LongSAGE文库进行比较时,这些观察结果成立(补充图S7),表明低频反义和内含子标签存在于所有轮廓化的人体组织中,并且不是hESCs特有的。反义、内含子和外显子标签序列的改变比例非常显著(t吨-Tag-seq和LongSAGE标签序列比例之间的测试:反义P(P)= 6.2 × 10−5,内含子P(P)= 1.0 × 10−10,外显子P(P)= 1.6 × 10−24).
检测Tag-seq和LongSAGE hESC复制品中的外显子、内含子和反义标签。来自Tag-seq技术复制、电子衍生sub_Tag-seq和LongSAGE复制的Tag序列被映射到Ensembl基因的内含子、外显子和反义链。不同标签序列的比例(A类)和标签丰度(B类)相对于所有映射的质量筛选标签进行报告。报告三个库中常见的所有标签序列的平均标签计数(±SD)(C类).
有趣的是,不同方法的外显子、内含子和反义标签序列的丰度几乎相同(; 补充图S7B)。这表明,仅在tag-seq中检测到的大量低频标签序列与两种方法检测到的高频标签序列的相对比率相同。因此,外显子标签表达最丰富(~80%),其次是反义标签(~20%)和内含子标签(0.1%)。
Tag-seq的额外深度对中度到大量表达的标签的动态表达范围产生了显著影响,这两种方法都可以检测到。平均而言,tag-seq与LongSAGE复制品相比,检测到的外显子标签序列的频率高12.7倍,反义和内含子标签序列检测到的水平分别高13.4倍和14.4倍(; 补充图S7C)。Tag-seq的表达范围比LongSAGE高一个数量级,表明表达的动态范围明显更大。
癌症文库中的正反义转录物
在评估了LongSAGE和Tag-seq协议之间的技术差异后,我们对CGAP库集合进行了生物学分析。我们首先分析了AS标签,重点是它们在代表癌组织和正常组织样本的库中的差异表达。以前的研究表明,正常组织和恶性组织样本中正反义转录物的比率发生变化(Chen等人,2005年)反义转录物可能与疾病过程有关(Tufarelli等人,2003年;Reis等人,2004年). 我们的目标是强调Tag-seq方法的潜力,以识别已知和新的反义转录物,这些转录物的表达比率相对于正义基因、在正常和疾病状态之间、在疾病进展的不同阶段之间或在癌症亚型之间发生显著变化。
为了实现这一点,首先将文库按组织分为15组(补充表S1;补充方法)。属于每个组织的库被分成代表正常和癌症样本的组,并在可能的情况下进一步分为癌症阶段(例如癌前样本与恶性样本;补充表S4)。在每个相关位点评估每个组织组之间的正反义转录比率;或者使用成对的义标签映射到已知的义-反义(S-AS)基因对,或者使用义标签映射至单个基因,并使用对应的新标签映射到同一基因的反义(缩写为single-AS;补充图S6)。
在15个组织组中,发现389个S-AS基因对和2195个单-AS基因对之间的表达比率发生了变化。将标签随机分配给基因表明,实际S-AS基因发生比率变化的可能性平均是偶然性预期的55倍,而单-AS基因发生比率改变的可能性是偶然性预计的17.5倍,这表明这些配对中的假阳性率较高。我们制定了一个标准化方案,以确定表达率变化较大的基因对(补充方法),并确保高表达基因对和表达率变化较小的基因对的排名较高。总的来说,仅由Tag-seq或LongSAGE文库组成的组织具有相同数量的基因对,且比率发生变化。由于不同方法所描绘的组织是不同的,我们无法对Tag-seq或LongSAGE发现的具有不同比率的基因对数量进行先验预测。根据定义,该分析所针对的基因是中度到高度表达的,并且可以通过两种方法找到。因此,在没有Tag-seq和LongSAGE对整个组织进行复制的情况下,我们得出结论,这两种方法都能够找到其丰度比率在癌症和正常样本之间发生变化的基因对,因此在癌症组织和正常组织中可能存在差异调节。
为了确定这些基因中是否有丰富的生物类别,我们进行了功能注释聚类分析(Dennis等人,2003年;Huang等人,2007年). 在这种分析中,注释(如GO术语;Ashburner等人,2000年)共享共同基因的人更有可能被归在一起。我们发现,具有极端比率变化(前10%)的基因在GO术语中高度富集,GO术语与发育过程的调节、细胞死亡的调节和细胞增殖有关(补充表S5),GO词汇与癌症生物学有关。
为了进一步评估这些配对的生物学相关性,我们列举了数据集中癌症基因普查基因的数量(Futreal等人,2004年). 这是一个与多种癌症相关的突变基因目录。在312个癌症普查基因中,在300个CGAP数据集中检测到表达。有趣的是,超过四分之一的这些基因(72个单-AS和6个S-AS)在研究组织中的正常和癌文库之间也发现有显著的比率变化(; 补充表S6)。在差异范围的前10%中,发现了比率差异较大的配对,显示出该候选名单中总共剩下30个癌症普查基因(27个单-AS,3个S-AS)。因此,38%的癌症基因位于差异表达基因的前10%,癌症和正常组织之间的比率发生了极端变化,这是一个显著的富集(P(P)< 7.0 × 10−4, χ2测试)。
表2。
差异表达且属于癌症普查基因集的S-AS和Single-AS基因的比例
癌症文库中的转录亚型
分析了4237个具有多个表达标签的基因中转录亚型的差异表达,因为这些标签可能代表替代的3′聚腺苷酸化位点(Siddiqui等人,2005年). 这些基因中总共有1957个具有标签对,其表达比率在按疾病状态分组的库之间发生变化(例如,癌症与正常)。对于其中1304个(66.6%)基因,由这两个标签限定的序列含有预测的miRNA靶向位点(Grimson等人,2007年)表明miRNAs可能在两种状态之一调节亚型表达(Hirst等人,2007年). 该列表中miRNA靶向基因的比例几乎是人类基因组中miRNA-靶向基因比例的三倍(22.0%,P(P)< 2.2 × 10−16, χ2测试;). 在772个具有转录对的基因中,有10%的极端表达率变化,我们发现含有miRNA靶向位点的转录物的额外富集(72.5%;). 对于这些基因中的33.1%,较长的亚型在癌症中持续存在;对于这些基因中的41.0%,较短的亚型在癌症中持续存在;对于剩下的26.9%的基因,任一亚型在某些样本的癌症中更为丰富。
表3。
在两种疾病状态之间差异表达的具有亚型的基因在相对于所有基因的miRNA靶向位点中富集
我们在一组基因中发现93个miRNA靶向位点,其频率丰富,其中前10%的表达亚型比率变化最为极端(相对于所有亚型比率发生变化的基因组中的频率,P(P)<0.05,超几何分布检验;补充表S7)。仔细观察最富集的位点,发现这些miRNAs在癌症中的表达发生了改变(例如,miR-124在多形性胶质母细胞瘤中的表达[Silber等人2008]; B细胞慢性淋巴细胞白血病的miR-181和miR-15/16[Calin等人,2002年;Pekarsky等人,2006年]; miR-224在甲状腺肿瘤和肝细胞癌中的表达[Nikiforova等人,2008年; Wang等人,2008a])。
讨论
为了完成CGAP数字基因表达谱分析项目,我们开发了Tag-seq作为LongSAGE的高效且经济高效的替代品。Tag-seq库的构建类似于LongSAGE协议,但测序使用Illumina的大规模合成并行测序协议来代替传统的Sanger测序。测序Tag-seq库中的每次读取都代表一个17-bp的序列标签,该标签邻近单个转录物的3′最NlaIII位点,因此代表该转录物的数字计数。
相对于另一种基于Illumina的转录谱分析技术RNA-seq(Marioni等人,2008年;Rosenkranz等人,2008年)Tag-seq在基因发现和测量的动态范围方面表现相似。对于需要精确分析基因组两条链的转录物的基因表达谱实验,Tag-seq数据是优越的,因为与RNA-seq不同,它可以区分有义和反义转录物。正、反义基因编码在同一基因组位点的相反链上,产生具有序列互补性的转录物。它们的基因组排列和序列互补性增加了它们的调控在转录和转录后水平上受共同因素(如染色质状态)及其相对表达(如转录干扰)影响的可能性(Vanhee Brossollet和Vaquero 1998年;Dahary等人,2005年). 迄今为止,在基于序列和基于杂交的方法生成的数据集中,已观察到哺乳动物转录组中高达75%的反义转录物(Katayama等人,2005年). 鉴于反义转录在哺乳动物基因组中的高度流行,以及反义转录与疾病之间的联系(Tufarelli等人,2003年;Reis等人,2004年),Tag-seq非常适合在CGAP项目背景下研究癌症相关基因表达。我们发现了已知和新的S-AS基因对,其表达比率在癌症亚型之间或癌症与正常状态之间发生了显著变化。这些基因富含已知的癌症相关基因,支持反义转录在癌症生物学中的作用。例如,我们发现了反义转录的证据BCL6号机组该位点编码已知与淋巴瘤有关的转录抑制因子。之前在该位点观察到反义EST,这为我们观察到的反义转录提供了支持(补充图S8)。在II级癌上皮和相关肌成纤维细胞样本的文库子集中,该位点的正、反义标签比率显著上调,导致这些样本中的正反义比率降低。这些文库代表了从一名乳腺癌患者中采集的细胞类型,暗示了BCL6号机组及其在乳腺癌生物学中的反义转录物。虽然癌症相关的肌成纤维细胞本身不一定是癌细胞,但它们具有与恶性癌上皮相似的表观遗传学改变,并且总体上是低甲基化的(Jiang等人,2008). 该位点反义表达增加的一个合理解释是CpG岛下游的低甲基化增加2006年基因(补充图S8)。
虽然Tag-seq能够区分转录序列的起源,但它只提供了关于转录结构的有限信息。因此,为了收集表达的转录亚型的数据,外显子阵列或RNA-seq将是更合适的技术。然而,Tag-seq仍然可以提供有关基因亚型子集表达的信息,这些亚型导致了不同的3′NlaIII标签序列,这是选择性3′末端形成的结果。我们能够分析超过4200个具有这种转录亚型的基因以及在CGAP中的表达,并发现癌症和正常状态下亚型的差异表达。有趣的是,我们发现在两种差异表达亚型之一的序列中,含有miRNA靶向位点的转录物富集(Hirst等人,2007年;Ghosh等人,2008年)这意味着它们在癌症生物学中的调控。
与Affymetrix微阵列相比,Tag-seq能够在不需要全基因组探针设计的情况下从头发现基因,不受相关序列交叉杂交的影响,并且只需增加测序深度即可实现本质上无限的动态范围。在当前的抽样水平上(约1000万个标签),Tag-seq检测到的基因的可测量倍数变化是Affymetrix检测到的相同基因的13倍。
相对于LongSAGE,Tag-seq提供的额外采样深度导致在给定组织中识别出更多的基因,并改善了这些基因的可测量动态范围。另一份报告显示,Tag-seq在测序深度上超过了LongSAGE(Hanriot等人2008). 我们首次报道了这些发现,随着深度的增加,Tag-seq还允许检测转录组空间的一个独特子集,富含AT-rich基因、内含子标签、反义标签和新的基因间标签。tag-seq中低频富含AT-的标签序列的增强检测与之前在Affymetrix阵列中的观察结果类似(Siddiqui等人,2006年)尽管在这种情况下,检测富含AT-的序列被解释为一种技术偏见。这些新结果表明,这类富含AT-的标签序列在两种方法中都不代表技术偏见,而是在低频率下存在的转录物类型的生物差异,这可以通过基于序列分析和基于杂交的技术检测到。LongSAGE实现的采样深度不够大,无法检测到转录组的这一子集。此外,我们发现Tag-seq具有较少的GC-bias,从而可以更准确地解释跨越GC含量范围的标签丰度。
总的来说,Tag-seq比LongSAGE识别更多的基因,检测更大的动态表达范围,从而允许对更大范围的转录物进行差异表达分析。标签序列库为发现与疾病过程相关的表达变化的已知和新转录物提供了极好的资源,并突出了下一代标签测序对基因表达谱的适用性。