摘要
采用Solexa/Illumina深度测序技术和五种不同的微阵列平台,比较野生型小鼠和δC-双皮质激素样激酶转基因小鼠的海马表达谱。通过Illumina的数字基因表达分析,我们获得了每个样本约240万个序列标签,其丰度跨越四个数量级。即使在实验室中,结果也具有高度的重复性。使用专用贝叶斯模型,我们发现3179个转录本的差异表达,估计错误发现率为8.5%。这是一个比微阵列更高的数字。深度测序和微阵列发现差异表达转录物的重叠对Affymetrix最为显著。深度测序观察到的表达变化大于微阵列或定量PCR观察到的变化。相关过程,如钙调素依赖性蛋白激酶活性和沿微管的囊泡转运,被发现受深测序影响,但不受微阵列影响。尽管微阵列无法检测到,但51%的基因发现了反义转录,47%的基因出现了选择性多聚腺苷酸化。我们的结论是,深度测序在表达谱数据的稳健性、可比性和丰富性方面取得了重大进展,有望促进合作、比较和综合基因组学研究。
简介
基因表达微阵列目前是转录组分析的默认技术。由于它们依赖于序列特异性探针杂交,因此存在背景和交叉杂交问题,只能测量转录物的相对丰度(1). 此外,只检测预定义的序列。相反,基于tag的测序方法,如SAGE(基因表达序列分析)测量绝对丰度,不受阵列内容的限制(2). 然而,迄今为止,费力且昂贵的克隆和测序步骤极大地限制了SAGE的使用。随着深度测序技术的引入,这一点发生了根本性的变化,可以同时测序多达数百万个不同的DNA分子。不同深度测序方法背后的共同理念是在物理隔离位置克隆检测单个DNA分子(3–5). 我们使用了Solexa/Illumina 1G基因组分析仪,在该分析仪中,连接到DNA分子两端的适配器序列被绑定到一个覆盖有互补寡核苷酸的玻璃表面。随后是固相DNA扩增和序列分析-旁路合成(6). 该系统产生数百万个短阅读(目前高达36 bp),因此非常适合基于标记的转录组测序。该技术也称为数字基因表达标签分析(DGE),本质上是早期大规模并行签名测序(MPSS)技术的改进版本(3,7).
该程序的第一步类似于经典的LONG-SAGE。两种限制性内切酶用于产生标签,在第一个酶位点下游最多切割3'CATG和17bp。与经典的SAGE不同,标签既不串联也不克隆,而是立即排序。前所未有的测序深度现在可以对单个生物样本进行分析,而样本池以前是SAGE中唯一负担得起的选项。我们的结果包括一个突出的例子,说明了在表达式分析中池的固有风险。
当前研究中解决的生物学问题是鉴定野生型和转基因小鼠海马中差异表达的转录物,这些小鼠过度表达了双皮质激素样激酶-1的剪接变异体(数据链1)基因。这种剪接变异体δC-双皮质样激酶(DCLK)短,使激酶具有组成性活性(8),并导致微妙的行为表型(Schenk等。,准备中)。之前已经在五个不同的全基因组微阵列表达谱分析平台上分析了完全相同的RNA样本(9)检测到两组之间的表达几乎没有差异。我们在这里报告说,DGE检测到两组小鼠之间存在更多微小但显著的差异,包括反义转录物和具有不同3′-非翻译区(UTR)的转录物。此外,我们讨论了深度测序相对于微阵列表达谱的优势。
材料和方法
样品
实验开始前7天,分别饲养野生型雄性C57/BL6j小鼠和过度表达DCLK-short且背景为C57/BL6 j的转基因雄性小鼠。动物被安置在标准条件下,12小时/12小时光/暗循环,可以获得食物和水随意.通配符类型(N个=4)和转基因(N个=4)通过从头骨中取出大脑并快速解剖双侧海马来收集组织样本。在0°C下进行解剖以防止RNA降解。将海马直接放入含有Trizol试剂的预冷试管中(Invitrogen Life Technologies,Carlsbad,CA,USA)。所有动物治疗均经莱顿大学动物护理和使用委员会(UDEC#01022)批准。
RNA提取
将海马转移至冰镇Trizol后,使用组织匀浆器(Salm&Kipp,Breukelen,荷兰)对海马进行匀浆,并根据制造商的方案分离总RNA。沉淀后,用Qiagen的RNeasy试剂盒通过柱上DNA酶消化纯化RNA。根据制造商的说明,使用RNA 6000 Labchip试剂盒和安捷伦2100生物分析仪(安捷伦科技公司,Palo Alto,CA,USA),使用真核生物总RNA Nano测定法评估RNA的质量。
序列标签准备
根据制造商的协议(2.1B版),使用Illumina的数字基因表达标签分析试剂盒进行序列标签制备。中给出了该程序的示意图概述补充图1将一微克总RNA与寡核苷酸珠培养,以捕获多聚腺苷裂解RNA部分。当RNA与珠结合时,进行第一和第二链cDNA合成。在珠子上,样品用NlaIII消化,以保留从最多3′CATG到聚(a)尾的cDNA片段。随后,将GEX适配器1连接到RNA的自由5′端,并用MmeI进行消化,从而切断CATG位点下游17 bp。此时,碎片从珠子上脱落。脱磷酸和苯酚提取后,将GEX适配器2连接到标签的3′端。使用Phusion聚合酶(Finnzymes)进行15个周期的PCR扩增,使用与适配序列互补的引物来丰富样本以获得所需片段。通过从6%聚丙烯酰胺TBE凝胶中切除,纯化出85 bp的片段。用1×NEBuffer 2在室温下轻轻旋转2 h,从凝胶碎片中洗脱DNA。使用Spin-X醋酸纤维素过滤器(2 ml,0.45µm)去除凝胶碎片,并通过添加10µl 3 m醋酸钠(pH 5.2)和325µl乙醇(-20°C)沉淀DNA,然后在14000 r.p.m.下离心20分钟。用70%乙醇洗涤颗粒后,将DNA重新悬浮在10µl 10 mM Tris–HCl中,pH8.5,并用Nanodrop 1000分光光度计定量DNA。
使用Solexa/Illumina全基因组测序器进行测序
在将每个样品的4pM施加到Illumina 1G流动池的各个泳道之后进行聚类生成。将测序引物与单链产物杂交后,根据制造商的说明在1G分析仪上进行18个周期的碱基掺入。使用Illumina Pipeline进行图像分析和基调用,其中序列标签是在纯度过滤后获得的。然后对唯一标签进行排序和计数。原始数据(标签序列和计数)已提交给GSE10782系列下的基因表达总览(GEO)。
Illumina DGE标签注释
所有标签均使用Illumina提供的数据库进行注释。简而言之,使用小鼠基因组(UCSC站点的mm8版本)和小鼠转录组(2006年11月GenBank和Unigene版本Mm159中发现的所有refseq、mRNA和EST),创建了所有可能的CATG+17-nt标签序列的预处理数据库。所有标签均根据原始序列中的位置和方向进行分类,如补充表1基因组被用作标签聚类的主干,使用每个基因组位置的标签作为唯一键。为每个基因组位置选择了最佳的“局部”注释。最后,根据本地注释的质量和该位置的转录本数量,为每个不同的标签序列选择最佳注释。每个标签的基因组和转录组点击总数也会被记录下来。这个非冗余的所有标记集(“tophit”)可以用作所有实验标记注释的查找表。只考虑完美匹配,不允许出现不匹配。
所有注释标记的总集合可分为几个组:规范转录组标记-3′-已知转录物中的大多数标记(DGE标记分析实验中最预期的52 281个标记);非经典转录组标签-小鼠基因组中映射到任何已知外显子(两条链)但不是3′的所有标签-大多数或仅来源于少数EST(~160万个标签);核糖体标签(46个标签)和线粒体RNA标签(108个标签);REPEAT标签——与基因组映射100次以上的标签(2900个标签);以及映射到基因组但未映射到任何已知外显子的标签(约1700万个“仅基因组”标签)。
微阵列分析
我们在上一篇论文中描述了用于DGE的精确样本的微阵列分析(9). 可通过GSE8349系列下的基因表达总览获取微阵列数据。
与Ensembl转录本的比对
为了与微阵列探针进行比较,将所有规范序列标签和微阵列探针序列放入FASTA格式,然后使用PERL API将其与ENSEMBL mus_musculus_core_46_36g cDNA(转录)数据库对齐。制造商提供了安捷伦(AGL:WMG G4122A)、Illumina(ILL:Sentrix Mouse-6 Expression BeadChip)和家用长寡核苷酸阵列(LGTC:65-mer Sigma-Compugen小鼠库,版本1)上的探针序列。对于Affymetrix芯片(AFF:Mouse Genome 430 v2.0 Array),取从探针集中的第一个探针到探针集中的最后一个探针的序列。对于Applied Biosystems阵列(ABI:AB1700),只给出了周围180 nt的探针,并将其用于校准。成对比较微阵列和Ilumina DGE标记检测结果。只考虑了Illumina基因组分析仪平台和特定微阵列平台之间共享的ENSEMBL转录物。
差异基因表达的统计分析
最初,学生的t吨-进行测试以确定野生型和转基因样本组之间基因表达的显著差异。在执行t吨-测试中,我们通过乘以线性比例因子来校正计数总数的差异,线性比例因子定义为某个样本获得的标签总数除以所有样本中获得的标签的平均数。此外,我们通过对线性缩放数据应用平方根变换来稳定方差。这种平方根变换比对数变换能更好地稳定低丰度区的方差。此外,平方根变换可以处理计数为零的观测值。
作为更适合t吨-测试中,我们应用了Vencio开发的贝叶斯模型等。(10). 我们只考虑了每个组中至少有一个计数的规范标签。它采用贝塔二项分布拟合每个基因和每个组的概率密度函数,并考虑每个样本中观察到的标签数量和每个样本的库大小(=标签总数)。贝叶斯错误率的计算反映了后部野生型组的概率密度函数实际上与转基因小鼠的概率密度密度函数没有差别。为了估计通过设置最大贝叶斯错误率的截止值而获得的差异表达基因列表中的假阳性数,我们计算了两组比较中所有唯一排列中低于相同贝叶斯错率的基因数,其中第一组包含两个野生型和两个转基因小鼠,第二组包含另外两个野生类型和转基因小鼠。
定量PCR分析
用于qPCR分析的RNA样本与用于DGE实验的相同。cDNA是使用转录因子第一链cDNA合成试剂盒(Roche)合成的。在Lightcycler480(Roche)上进行定量RT-PCR(qPCR),使用SYBR-Green检测或(当SYBR-Geren的扩增效率低于90%时)使用通用探针库(UPL,Roche。每个cDNA分析四份,然后计算每个样本的平均阈值周期(Ct)。用2计算相对表达水平-ΔΔCt方法,同时使用分析的所有基因的平均阈值周期来校正cDNA输入的差异。
生物途径分析
全球测试(11)(可从Bioconductor购买:www.bioconductor.org)用于测试与野生型小鼠相比,DCLK中哪些基因本体论(GO)定义的通路被显著解除管制。对每个Entrez Gene条目的标签进行汇总后,对缩放后的数据和平方根转换后的数据进行全局测试。渐近法用于计算P(P)-值。在z(z)-通路中每个基因的得分(中位数应>1.5),仅检索那些大多数基因对通路的重要性有贡献的通路。
结果
排序统计信息
我们对四只野生型和四只DLCK转基因小鼠的海马DGE文库进行了测序。我们得到了2.4±1.2·106每个样本的序列读数为~2.0·105唯一的标记序列。图1显示了标签在我们区分的不同类别中的分布(参见“材料和方法”一节和补充表1). 标准标签,即那些在高可信度抄本中映射到最多3′CATG站点的标签,占总读取数的70%。由于它们只占所有独特标签的20%,因此这些标签的总丰度似乎比对应于低置信转录本的标签高出很多(另请参阅补充图2). 大约8%的读取映射到线粒体RNA。重复区域、没有转录证据的区域以及无法映射到基因组的标签中的总读取百分比约为12%。
图1。
标签的分类和丰富性。不同类别(八个样本的平均值)上独特标签(黑条)和单个读取(计数;开条)的分布(占总数的百分比):高置信转录物(标准)、低置信转录物[非标准]、线粒体RNA(丝裂原)、核糖体RNA(核糖)、,没有转录证据的基因组区域(只有基因组)、重复基因组区域(重复序列)和基因组中没有命中的标签。
再现性
为了评估不同实验室间DGE的再现性,收集了相同的RNA,并使用相同的方案在不同的地点(Illumina Inc.,Hayward,CA)对野生型和转基因池进行了三次分析。计数数量和归一化(缩放和平方根转换)的皮尔逊相关系数同一实验室中技术复制品的计数数>0.99。野生型和转基因样品的归一化计数数分别为0.98和0.96(图为补充图3). 这表明即使在不同的实验室中,技术变异性也很低。
动态范围
DGE的动态范围为三到四个数量级。最丰富的抄本,来自Ckb公司基因(肌酸激酶的脑亚型),占所有典型标记的0.55%[5.5·103百万分之几(t.p.m.)]。在所有样本中始终检测到的表达量最低的转录物的丰度为2 t.p.m,对应于每个细胞的平均约0.3拷贝(12). 海马体是独特转录物的丰富来源:野生型和转基因组均检测到28341个不同的典型标记;包括非正则映射会进一步增加这个数字。仅在非标准组中,两组中都发现了45550个标签。
选择性聚腺苷化
当3′末端不同的转录物被至少一个限制位点分隔时,DGE能够区分它们。在检测到的ENSEMBL转录物中,有47%是由多个标签检测到的。这不太可能是由NlaIII酶的部分消化引起的,在这种情况下,同一转录物的标记物丰度较高和丰度较低的比例大约是固定的。此外,大多数标签以前都在LONG-SAGE库中识别过。很可能是由于在3′-UTR中使用了替代性聚腺苷化信号。此外,一小部分可通过从同一聚腺苷化位点选择选择性裂解位点来解释(13). 观察到的47%的选择性聚腺苷酸化比之前根据EST序列估计的29%要高得多(14). 我们注意到,实际发生率可能更高,因为注释的ENSEMBL转录物下游的3′端没有映射到转录物,并且遗漏了中间没有CATG位点的替代多腺苷酸化位点。另一方面,我们只研究了海马体,而这种发生率在不同组织之间可能存在很大差异。
反义转录
通过考虑丰度>2 t.p.m的经典和非经典标签,并利用获得的测序读数的链特异性,我们发现51%的可检测单基因簇存在双向转录的证据。虽然证实了大多数基因中双向转录的早期观察结果(15–19),我们的结果表明,反义转录物也在大量表达。尽管在大多数情况下,正义转录物的丰度高于反义转录物,但在11%的情况下,情况恰恰相反(补充图4). 珠上cDNA合成,加上正反义转录物丰度之间缺乏相关性(即反义标签在高度丰度的转录物中通常并不突出),几乎排除了由于逆转录酶伪影而发现反义标签的可能性,如前所述(20).
差异表达基因
作为两组小鼠之间细微但显著差异基因表达的第一个指标,组内Pearson相关性(野生型或转基因样品之间)高于不同实验组样品之间的相关性(0.93)(P(P)-值:0.056,排列测试,补充表2). Fisher或类似的2×2列联表统计测试曾被用于识别两个SAGE库中丰度显著不同的标签(21). 在这些实验中,样品之间的生物差异没有得到解决。我们对汇集样本的排序清楚地表明了汇集的危险。表1显示了在混合实验中高度显著的标签(基于费希尔检验),而在分析单个样本时不显著(学生的t吨-测试)。显然,这些标签仅来源于野生型样本1。显著表达Mup1型野生型样本1中的转录物仅通过qRT-PCR确认(补充表3). 详细研究表明,所有这些转录物都在血液中高度表达。其中一个样本的血液污染,在组织解剖过程中未发现,因此导致在混合实验中对几个差异转录本的假阳性鉴定。虽然对汇集的SAGE库进行测序以前是唯一的选择,但现在对单个样本进行测序既明智又经济。
表1。血液衍生转录本计数,包括P(P)-Fisher试验和Student试验得出的值t吨-测试
基因. | 姓名. | 池_WT. | 池_dC. | 费希尔. | 工作任务1. | 工作任务3. | 工作任务4. | 工作任务6. | 数字C1. | 指挥控制中心. | dC3型. | 数字C4. | t吨-测试. |
---|
塞尔皮纳3k | 丝氨酸(或半胱氨酸)肽酶抑制剂,A链,3K成员 | 87 | 0 | 1.22电子-26 | 143 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0.18 |
Gc公司 | 特定于组的组件 | 22 | 0 | 2019年4月21日 | 41 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Fgg公司 | 纤维蛋白原、γ多肽 | 60 | 0 | 1.69E-18 | 72 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0.14 |
塞尔皮纳1a | 丝氨酸(或半胱氨酸)肽酶抑制剂,A链,1a成员 | 35 | 0 | 5.76E-11号机组 | 71 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
马克杯1 | 鼠球蛋白1 | 20 | 0 | 2.96E-08年 | 25 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.16 |
伊提赫4 | α-胰蛋白酶间抑制剂,重链4 | 26 | 0 | 4.75E-07号 | 51 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 0.28 |
Mup1型 | 主要尿蛋白1 | 14 | 0 | 1.90E-06年 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
奥姆1 | 类Orosomucoid 1 | 11 | 0 | 7.61E-06年 | 22 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
第7路 | 视黄醇脱氢酶7 | 17 | 0 | 1.52E-05型 | 21 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
外显子8 | 外显子组分8 | 14 | 0 | 1.22E-04号机组 | 28 | 2 | 0 | 0 | 0 | 0 | 1 | 0 | 0.17 |
Mup1型 | 主要尿蛋白1 | 18 | 0 | 1.22E-04号机组 | 8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Pnpo公司 | 吡哆醇5′-磷酸氧化酶 | 12 | 0 | 9.76E-04号机组 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.14 |
基因. | 姓名. | 池_WT. | 池_dC. | 费希尔. | 工作任务1. | 重量3. | 工作任务4. | 工作任务6. | 数据中心1. | 指挥控制中心. | dC3型. | 数字C4. | t吨-测试. |
---|
塞尔皮纳3k | 丝氨酸(或半胱氨酸)肽酶抑制剂,A链,3K成员 | 87 | 0 | 1.22E-26 | 143 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0.18 |
Gc公司 | 特定于组的组件 | 22 | 0 | 4.21E-19年 | 41 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Fgg公司 | 纤维蛋白原、γ多肽 | 60 | 0 | 1.69E-18 | 72 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0.14 |
塞尔皮纳1a | 丝氨酸(或半胱氨酸)肽酶抑制剂,A链,1a成员 | 35 | 0 | 5.76E-11号机组 | 71 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
马克杯1 | 鼠球蛋白1 | 20 | 0 | 2.96E-08年 | 25 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.16 |
伊提赫4 | α-胰蛋白酶间抑制剂,重链4 | 26 | 0 | 4.75E-07号 | 51 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 0.28 |
Mup1型 | 主要尿蛋白1 | 14 | 0 | 1.90E-06年 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
奥姆1 | 类Orosomucoid 1 | 11 | 0 | 7.61E-06年 | 22 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
第7路 | 视黄醇脱氢酶7 | 17 | 0 | 1.52E-05型 | 21 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
外显子8 | 外显子组分8 | 14 | 0 | 1.22E-04号机组 | 28 | 2 | 0 | 0 | 0 | 0 | 1 | 0 | 0.17 |
Mup1型 | 主要尿蛋白1 | 18 | 0 | 1.22E-04号机组 | 8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Pnpo公司 | 吡哆醇5′-磷酸氧化酶 | 12 | 0 | 9.76E-04号机组 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.14 |
表1。血液衍生转录本计数,包括P(P)-Fisher试验和Student试验得出的值t吨-测试
基因. | 姓名. | 池_WT. | 池_dC. | 费希尔. | 工作任务1. | 工作任务3. | 工作任务4. | 工作任务6. | 数字C1. | dC2型. | dC3型. | 数字C4. | t吨-测试. |
---|
塞尔皮纳3k | 丝氨酸(或半胱氨酸)肽酶抑制剂,A链,3K成员 | 87 | 0 | 1.22E-26 | 143 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0.18 |
Gc公司 | 特定于组的组件 | 22 | 0 | 4.21E-19年 | 41 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Fgg公司 | 纤维蛋白原、γ多肽 | 60 | 0 | 1.69E-18 | 72 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0.14 |
塞尔皮纳1a | 丝氨酸(或半胱氨酸)肽酶抑制剂,A链,1a成员 | 35 | 0 | 5.76E-11号机组 | 71 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
马克杯1 | 鼠球蛋白1 | 20 | 0 | 2.96E-08年 | 25 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.16 |
伊提赫4 | α-胰蛋白酶间抑制剂,重链4 | 26 | 0 | 4.75E-07号 | 51 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 0.28 |
Mup1型 | 主要尿蛋白1 | 14 | 0 | 1.90E-06年 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Orm1型 | 类Orosomucoid 1 | 11 | 0 | 7.61E-06年 | 22 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
第7路 | 视黄醇脱氢酶7 | 17 | 0 | 1.52E-05型 | 21 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
外显子8 | 外显子组分8 | 14 | 0 | 1.22E-04号机组 | 28 | 2 | 0 | 0 | 0 | 0 | 1 | 0 | 0.17 |
Mup1型 | 主要尿蛋白1 | 18 | 0 | 1.22E-04号机组 | 8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Pnpo公司 | 吡哆醇5′-磷酸氧化酶 | 12 | 0 | 9.76E-04号机组 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.14 |
基因. | 姓名. | 池_WT. | 池_dC. | 费希尔. | 工作任务1. | 工作任务3. | 工作任务4. | 工作任务6. | 数字C1. | 指挥控制中心. | dC3型. | 数字C4. | t吨-测试. |
---|
塞尔皮纳3k | 丝氨酸(或半胱氨酸)肽酶抑制剂,A链,3K成员 | 87 | 0 | 1.22E-26 | 143 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0.18 |
Gc公司 | 特定于组的组件 | 22 | 0 | 4.21E-19年 | 41 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Fgg公司 | 纤维蛋白原、γ多肽 | 60 | 0 | 1.69E-18 | 72 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0.14 |
塞尔皮纳1a | 丝氨酸(或半胱氨酸)肽酶抑制剂,A链,1a成员 | 35 | 0 | 5.76E-11 | 71 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
马克杯1 | 鼠球蛋白1 | 20 | 0 | 2.96E-08年 | 25 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.16 |
伊提赫4 | α-胰蛋白酶间抑制剂,重链4 | 26 | 0 | 4.75E-07号 | 51 | 1 | 1 | 0 | 0 | 1 | 0 | 0 | 0.28 |
Mup1型 | 主要尿蛋白1 | 14 | 0 | 1.90E-06年 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
奥姆1 | 类Orosomucoid 1 | 11 | 0 | 7.61E-06年 | 22 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Rdh7型 | 视黄醇脱氢酶7 | 17 | 0 | 1.52E-05型 | 21 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
外显子8 | 外显子组分8 | 14 | 0 | 1.22E-04号机组 | 28 | 2 | 0 | 0 | 0 | 0 | 1 | 0 | 0.17 |
Mup1型 | 主要尿蛋白1 | 18 | 0 | 1.22E-04号机组 | 8 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.36 |
Pnpo公司 | 吡哆醇5′-磷酸氧化酶 | 12 | 0 | 9.76E-04号机组 | 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0.14 |
由于我们从单个样本中对多个库进行了测序,因此我们可以估计组内和组间变异。最初,我们使用学生的t吨-该测试考虑了两种类型的变异,以确定两组之间差异表达的基因。然而,在这样做的过程中,我们发现了经典统计的一些重要缺陷:t吨-只有对库中的标签总数进行标准化并适当稳定方差后,测试才能在有意义的意义上应用。我们通过基于计数总数的线性缩放和随后的平方根变换来实现这一点。平方根变换(近似)稳定了原始计数的方差,但不稳定缩放数据的方差。因此,我们不能在稳定方差的同时对库大小进行规范化(22). 这个问题在我们的实验中尤为突出,其中一个野生型和一个转基因样本的计数分别是其他样本的3倍和10倍。Vencio公司等。(10)提出了一种用于分析复制SAGE数据的贝叶斯方法,该方法考虑了低丰度基因的随机效应以及文库大小的差异。它报告了贝叶斯错误率,可以解释为在零假设下发现基因差异表达的可能性。贝叶斯错误率为0.05,在转基因小鼠与野生型小鼠的比较中,我们检测到1559个上调和1620个下调的典型标记。探测到的褶皱变化的分布可以从图2范围在71倍之间(2700089E24瑞克,在所有野生型样本中仅发现一次,但在转基因样本中发现19次)和1.13倍。在整个表达水平范围内发现差异表达标签(补充图5). 中列出了20个最重要的标签表2Vencio的测试不考虑多次测试。为了估计获得的假阳性数,我们计算了排列样本时的贝叶斯错误率(补充图6). 在排列情况下,发现差异表达的标签数量为270±103,错误率为0.05。因此,我们的3179个差异表达基因列表中的错误发现率估计为8.5%。
标签. | Chr公司. | 搁浅. | 启动. | 尤尼金ID. | 入口ID. | 基因符号. | 基因名称. | 比率. | Vencio错误率. |
---|
CATGCACTTAGAGTGTGAGAGAG公司 | 铬10 | − | 126575485 | 248373毫米 | 216441 | C78409号 | 表达序列C78409 | 2.48 | <1E-50 |
CATGTCCACTACAGACAT公司 | 铬6 | + | 55008968 | 250004毫米 | 353172 | 加尔斯 | 甘氨酰-tRNA合成酶 | 1.98 | <1E-50 |
CATGGGAGGAGCATCAG(CATGGGCAG) | 铬4 | + | 151150448 | 277464毫米 | 57295 | 图标 | 异戊二烯半胱氨酸羧基甲基转移酶 | 2.75 | <1E-50 |
CATGGTCAGAGCAGATA公司 | chr8系列 | − | 88150714 | 296520毫米 | 65114 | 电压35 | 液泡蛋白分选35 | 3.83 | <1E-50 |
CATGCTGCTAAGCAGAAGA公司 | chr19系列 | − | 5274809 | 196532月 | 319322 | Sf3b2美元 | 剪接因子3b亚基2 | 18.36 | <1E-50 |
CATGAAATTAATAAAAGTTAC公司 | chr16系列 | − | 30232416 | 426334毫米 | 106342 | 8月22875日 | 表达序列AU022875 | 0.34 | <1E-50 |
CATGAAGGACTATGTCTAATC公司 | chr19系列 | − | 60918807 | 29821毫米 | 11757 | Prdx3系列 | 过氧化物酶原3 | 0.31 | <1E-50 |
CATGATGTCTAAGCTGAAA公司 | chr12 | − | 80083926 | 265929毫米 | 11847 | 精氨酸2 | 精氨酸酶II型 | 0.43 | <1E-50 |
CATGTAGTCAGGGAAAACC公司 | chr8系列 | + | 126289830 | 178818毫米 | 66855 | 温度(Tcf25) | 转录因子25(基本螺旋-环-螺旋) | 0.62 | <1E-50 |
CATGGTGAACGTGCCTAAAAC | chrX公司 | + | 129932066 | 286408毫米 | 19982 | 36a卢比 | 核糖体蛋白L36a | 0.30 | <1E-50 |
CATGACAGACTAAACTGCT公司 | chr9公司 | + | 54514230 | 52319毫米 | 58233 | 德纳贾4 | DnaJ(Hsp40)同系物,亚家族A,成员4 | 0.26 | 1.00E-50型 |
CATGACAGCAGTAAGGATC公司 | 铬10 | + | 83192493 | 271188毫米 | 69784 | 1500009 L16瑞克 | RIKEN cDNA 1500009L16基因 | 0.41 | 1.00E-50型 |
CATGACTGACTCACACAGAGA公司 | 第18章 | + | 77175488 | 236127毫米 | 76987 | Hdhd2型 | 含2的卤酸脱卤酶样水解酶结构域 | 0.56 | 4.20E-49页 |
CATGATGAATGGACTGAGC公司 | chr14系列 | − | 24757417 | 33344毫米 | 211623 | 血小板9 | 胎盘特异性9 | 2.15 | 1.98E-48型 |
CATGAAATAAATGTCAAGGGC公司 | chr9公司 | − | 26724636 | 289244毫米 | 66948 | 学院8 | 酰基辅酶A脱氢酶家族,成员8 | 0.43 | 3.12E-47号机组 |
CATGTACAATGAGACATAA公司 | chr18 | + | 33320540 | 391658毫米 | 12326 | 凸轮4 | 钙/钙调素依赖性蛋白激酶IV | 0.45 | 2.30至45 |
CATGTTTCAAAAAAATTCTC | chr7系列 | + | 130555878 | 86322毫米 | 57752 | 转速2 | 含有蛋白质2的转化酸性线圈 | 0.26 | 1.09电子44 |
CATGGACCTGAAGCTCCTGGA公司 | chr2型 | − | 30782819 | 154994万元 | 30931 | 托尔1a | Torsin家族1,成员A(Torsin A) | 2.08 | 2.57E-43型 |
CATGCCAATTGCCTGTGCAT公司 | chr8系列 | + | 86886174 | 19111年3月 | 18747 | 普卡牌手表 | 蛋白激酶,cAMP依赖,催化,α | 1.70 | 5.71E-43号机组 |
CATGCTGTCTGGCCTTAGTGT公司 | 铬5 | − | 124379384 | 44261万元 | 19679 | 沥青m2 | 磷脂酰肌醇转移蛋白,膜相关2 | 1.74 | 1.13E-41号机组 |
标签. | Chr公司. | 搁浅. | 启动. | 尤尼金ID. | 入口ID. | 基因符号. | 基因名称. | 比率. | Vencio的错误率. |
---|
CATGCACTTAGAGTGTGAGAGAG公司 | 铬10 | − | 126575485 | 248373毫米 | 216441 | C78409号 | 表达序列C78409 | 2.48 | <1E-50 |
CATGTCCACTACAGACAT公司 | 铬6 | + | 55008968 | 250004毫米 | 353172 | 加尔斯 | 甘氨酰-tRNA合成酶 | 1.98 | <1E-50 |
CATGGGAGGAGCATCAG(CATGGGCAG) | 铬4 | + | 151150448 | 277464毫米 | 57295 | 图标 | 异戊二烯半胱氨酸羧基甲基转移酶 | 2.75 | <1E-50 |
CATGGTCAGAGCAGATA公司 | chr8系列 | − | 88150714 | 296520毫米 | 65114 | 电压35 | 液泡蛋白分选35 | 3.83 | <1E-50 |
CATGCTGCTAAGCAGAAGA公司 | chr19系列 | − | 5274809 | 196532月 | 319322 | Sf3b2号 | 剪接因子3b亚基2 | 18.36 | <1E-50 |
CATGAAATTAATAAAAGTTAC公司 | chr16系列 | − | 30232416 | 426334毫米 | 106342 | 澳大利亚022875 | 表达序列AU022875 | 0.34 | <1E-50 |
卡特尔行动 | chr19系列 | − | 60918807 | 29821毫米 | 11757 | Prdx3系列 | 过氧化物酶原3 | 0.31 | <1E-50 |
CATGATGTCTAAGCTGAAA公司 | chr12 | − | 80083926 | 265929毫米 | 11847 | 精氨酸2 | 精氨酸酶II型 | 0.43 | <1E-50 |
CATGTAGTCAGGGAAAACC公司 | chr8系列 | + | 126289830 | 178818毫米 | 66855 | 温度(Tcf25) | 转录因子25(基本螺旋-环-螺旋) | 0.62 | <1E-50 |
CATGGTGAACGTGCCTAAAAAC公司 | chrX公司 | + | 129932066 | 286408毫米 | 19982 | 36a卢比 | 核糖体蛋白L36a | 0.30 | <1E-50 |
CATGACAGACTAAACTGCT公司 | 第9章 | + | 54514230 | 52319毫米 | 58233 | 德纳贾4 | DnaJ(Hsp40)同系物,亚家族A,成员4 | 0.26 | 1.00E-50型 |
CATGACAGCAGTAAGGATC公司 | 铬10 | + | 83192493 | 271188毫米 | 69784 | 1500009 L16瑞克 | RIKEN cDNA 1500009L16基因 | 0.41 | 1.00E-50型 |
CATGACTGACTCACACAGAGA公司 | 第18章 | + | 77175488 | 236127毫米 | 76987 | Hdhd2型 | 含2的卤酸脱卤酶样水解酶结构域 | 0.56 | 4.20E-49页 |
CATGATGAATGGACTGAGC公司 | chr14系列 | − | 24757417 | 33344毫米 | 211623 | 血小板9 | 胎盘特异性9 | 2.15 | 1.98E-48型 |
CATGAAATAAATGTCAAGGGC公司 | chr9公司 | − | 26724636 | 289244毫米 | 66948 | 学院8 | 酰基辅酶A脱氢酶家族,成员8 | 0.43 | 3.12E-47号机组 |
CATGTACAATGAGACATAA公司 | 第18章 | + | 33320540 | 391658毫米 | 12326 | 凸轮4 | 钙/钙调素依赖性蛋白激酶IV | 0.45 | 2.30至45 |
CATGTTTCAAAAAAATTCTC | chr7系列 | + | 130555878 | 86322毫米 | 57752 | 转速2 | 含有蛋白质2的转化酸性线圈 | 0.26 | 1.09电子44 |
CATGGACCTGAAGCTCCTGGA公司 | chr2型 | − | 30782819 | 154994万元 | 30931 | 托尔1a | Torsin家族1,成员A(Torsin A) | 2.08 | 2.57E-43型 |
CATGCCAATTGCCTGTGCAT公司 | chr8系列 | + | 86886174 | 19111年3月 | 18747 | 普尔卡卡 | 蛋白激酶,cAMP依赖,催化,α | 1.70 | 5.71E-43号机组 |
CATGCTGTCTGGCCTTAGTGT公司 | 铬5 | − | 124379384 | 44261万元 | 19679 | 沥青m2 | 磷脂酰肌醇转移蛋白,膜相关2 | 1.74 | 1.13E-41号机组 |
标签. | Chr公司. | 搁浅. | 启动. | 尤尼金ID. | 入口ID. | 基因符号. | 基因名称. | 比率. | Vencio的错误率. |
---|
CATGCACTTAGAGTGTGAGAGAG公司 | 铬10 | − | 126575485 | 248373毫米 | 216441 | C78409号 | 表达序列C78409 | 2.48 | <1E-50 |
猫 | 铬6 | + | 55008968 | 250004毫米 | 353172 | 加尔斯 | 甘氨酰-tRNA合成酶 | 1.98 | <1E-50 |
CATGGGAGGAGCATCAG(CATGGGCAG) | 铬4 | + | 151150448 | 277464毫米 | 57295 | 图标 | 异戊二烯半胱氨酸羧基甲基转移酶 | 2.75 | <1E-50 |
CATGGTCAGAGCAGATA公司 | chr8系列 | − | 88150714 | 296520毫米 | 65114 | 电压35 | 液泡蛋白分选35 | 3.83 | <1E-50 |
CATGCTGCTAAGCAGAAGA公司 | chr19系列 | − | 5274809 | 196532月 | 319322 | Sf3b2号 | 剪接因子3b亚基2 | 18.36 | <1E-50 |
CATGAAATTAATAAAAGTTAC公司 | chr16系列 | − | 30232416 | 426334毫米 | 106342 | 8月22875日 | 表达序列AU022875 | 0.34 | <1E-50 |
CATGAAGGACTATGTCTAATC公司 | chr19系列 | − | 60918807 | 29821毫米 | 11757 | Prdx3系列 | 过氧化物酶原3 | 0.31 | <1E-50 |
CATGATGTCTAAGCTGAAA公司 | chr12 | − | 80083926 | 265929毫米 | 11847 | 氩气2 | 精氨酸酶II型 | 0.43 | <1E-50 |
CATGTAGTCAGGGAAAACC公司 | chr8系列 | + | 126289830 | 178818毫米 | 66855 | 温度(Tcf25) | 转录因子25(基本螺旋-环-螺旋) | 0.62 | <1E-50 |
CATGGTGAACGTGCCTAAAAAC公司 | chrX公司 | + | 129932066 | 286408毫米 | 19982 | 36a卢比 | 核糖体蛋白L36a | 0.30 | <1E-50 |
CATGACAGACTAAACTGCT公司 | chr9公司 | + | 54514230 | 52319毫米 | 58233 | 德纳贾4 | DnaJ(Hsp40)同系物,亚家族A,成员4 | 0.26 | 1.00E-50型 |
CATGACAGCAGTAAGGATC公司 | 铬10 | + | 83192493 | 271188毫米 | 69784 | 1500009 L16瑞克 | RIKEN cDNA 1500009L16基因 | 0.41 | 1.00E-50型 |
CATGACTGACTCACACAGAGA公司 | chr18 | + | 77175488 | 236127毫米 | 76987 | Hdhd2型 | 含2的卤酸脱卤酶样水解酶结构域 | 0.56 | 4.20E-49页 |
猫的行为 | chr14系列 | − | 24757417 | 33444毫米 | 211623 | 血小板9 | 胎盘特异性9 | 2.15 | 1.98E-48型 |
CATGAAATAAATGTCAAGGGC公司 | chr9公司 | − | 26724636 | 289244毫米 | 66948 | 学院8 | 酰基辅酶A脱氢酶家族,成员8 | 0.43 | 第3.12页至第47页 |
CATGTACAATGAGACATAA公司 | chr18 | + | 33320540 | 391658毫米 | 12326 | 凸轮4 | 钙/钙调素依赖性蛋白激酶IV | 0.45 | 2.30至45 |
CATGTTTCAAAAAAATTCTC | chr7系列 | + | 130555878 | 86322毫米 | 57752 | 转速2 | 含有蛋白质2的转化酸性线圈 | 0.26 | 1.09E-44型 |
CATGGACCTGAAGCTCCTGGA公司 | chr2型 | − | 30782819 | 154994万元 | 30931 | 托尔1a | Torsin家族1,成员A(Torsin A) | 2.08 | 2.57电子43 |
CATGCCAATTGCCTGTGCAT公司 | chr8系列 | + | 86886174 | 19111年3月 | 18747 | 普尔卡卡 | 蛋白激酶,cAMP依赖,催化,α | 1.70 | 5.71E-43号机组 |
CATGCTGTCTGGCCTTAGTGT公司 | 铬5 | − | 124379384 | 44261万元 | 19679 | 沥青m2 | 磷脂酰肌醇转移蛋白,膜相关2 | 1.74 | 1.13E-41 |
标签. | Chr公司. | 搁浅. | 启动. | 尤尼金ID. | 入口ID. | 基因符号. | 基因名称. | 比率. | Vencio的错误率. |
---|
CATGCACTTAGAGTGTGAGAGAG公司 | 铬10 | − | 126575485 | 248373毫米 | 216441 | C78409号 | 表达序列C78409 | 2.48 | <1E-50 |
CATGTCCACTACAGACAT公司 | 铬6 | + | 55008968 | 250004毫米 | 353172 | 加尔斯 | 甘氨酰-tRNA合成酶 | 1.98 | <1E-50 |
猫 | 铬4 | + | 151150448 | 277464毫米 | 57295 | 图标 | 异戊二烯半胱氨酸羧基甲基转移酶 | 2.75 | <1E-50 |
CATGGTCAGAGCAGATA公司 | chr8系列 | − | 88150714 | 296520毫米 | 65114 | 电压35 | 液泡蛋白分选35 | 3.83 | <1E-50 |
CATGCTGCTAAGCAGAAGA公司 | chr19系列 | − | 5274809 | 196532月 | 319322 | Sf3b2号 | 剪接因子3b亚基2 | 18.36 | <1E-50 |
CATGAAATTAATAAAAGTTAC公司 | chr16系列 | − | 30232416 | 426334毫米 | 106342 | 8月22875日 | 表达序列AU022875 | 0.34 | <1E-50 |
CATGAAGGACTATGTCTAATC公司 | chr19系列 | − | 60918807 | 29821毫米 | 11757 | Prdx3系列 | 过氧化物酶原3 | 0.31 | <1E-50 |
CATGATGTCTAAGCTGAAA公司 | chr12 | − | 80083926 | 265929毫米 | 11847 | 氩气2 | 精氨酸酶II型 | 0.43 | <1E-50 |
CATGTAGTCAGGGAAAACC公司 | chr8系列 | + | 126289830 | 178818毫米 | 66855 | 温度(Tcf25) | 转录因子25(基本螺旋-环-螺旋) | 0.62 | <1E-50 |
CATGGTGAACGTGCCTAAAAAC公司 | chrX公司 | + | 129932066 | 286408毫米 | 19982 | 36a卢比 | 核糖体蛋白L36a | 0.30 | <1E-50 |
CATGACAGACTAAACTGCT公司 | chr9公司 | + | 54514230 | 52319毫米 | 58233 | 德纳贾4 | DnaJ(Hsp40)同系物,亚家族A,成员4 | 0.26 | 1.00E-50型 |
CATGACAGCAGTAAGGATC公司 | 铬10 | + | 83192493 | 271188毫米 | 69784 | 1500009 L16瑞克 | RIKEN cDNA 1500009L16基因 | 0.41 | 1.00E-50型 |
CATGACTGACTCACACAGAGA公司 | chr18 | + | 77175488 | 236127毫米 | 76987 | Hdhd2型 | 含2的卤酸脱卤酶样水解酶结构域 | 0.56 | 4.20E-49页 |
CATGATGAATGGACTGAGC公司 | chr14系列 | − | 24757417 | 33444毫米 | 211623 | 血小板9 | 胎盘特异性9 | 2.15 | 1.98E-48型 |
CATGAAATAAATGTCAAGGGC公司 | chr9公司 | − | 26724636 | 289244毫米 | 66948 | 学院8 | 酰基辅酶A脱氢酶家族,成员8 | 0.43 | 3.12E-47号机组 |
CATGTACAATGAGACATAA公司 | chr18 | + | 33320540 | 391658毫米 | 12326 | 凸轮4 | 钙/钙调素依赖性蛋白激酶IV | 0.45 | 2.30至45 |
卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特卡特 | chr7系列 | + | 130555878 | 86322毫米 | 57752 | 转速2 | 含有蛋白质2的转化酸性线圈 | 0.26 | 1.09E-44型 |
CATGGACCTGAAGCTCCTGGA公司 | chr2型 | − | 30782819 | 154994万元 | 30931 | 托尔1a | Torsin家族1,成员A(Torsin A) | 2.08 | 2.57E-43型 |
CATGCCAATTGCCTGTGCAT公司 | chr8系列 | + | 86886174 | 19111年3月 | 18747 | 普尔卡卡 | 蛋白激酶,cAMP依赖,催化,α | 1.70 | 5.71E-43号机组 |
CATGCTGTCTGGCCTTAGTGT公司 | 铬5 | − | 124379384 | 44261万元 | 19679 | 沥青m2 | 磷脂酰肌醇转移蛋白,膜相关2 | 1.74 | 1.13E-41号机组 |
图2。
规范标签的火山图。对于每个标签,转基因小鼠与野生型小鼠的表达水平之比(2对数刻度,x个-轴)根据贝叶斯错误率绘制(10对数刻度,年-轴)。水平线指示所应用的显著性阈值,3179个差异表达的标签在该线之上。图中显示,转基因小鼠和野生型小鼠(图的最左侧和右侧)之间平均差异最大的标签并不都显著(由于组内变异较大)。最显著的标记(图的顶部)通常在转基因和野生型之间显示出较小的表达差异,但由于相对较高的表达水平,因此测量非常准确,因此显示出较低的组内变异。
除了差异表达的典型标记外,我们还检测到2479个非经典标记和15个线粒体标记的差异表达。
生物影响
DCLK基因通过选择性剪接产生许多蛋白质。最近对a.o.基因敲除小鼠的功能研究强烈表明DCLK基因参与了几个分子途径。一些是微管相关蛋白(23)可能调节含有SNARE蛋白的突触小泡的微管导向运输(24),而DCLK短变体具有Ca++/钙调素依赖性蛋白激酶(CaMK)特性(8,25). 在目前的研究中,我们评估了DCLK短亚型的表达对海马体中的哪些生物通路产生影响。全球测试(11)应用于DGE数据以确定基因集的差异调节,如基因本体论联盟所定义的。与常用的过度表达测试或基因集富集分析不同,该方法使用特定基因集的基因表达测量,为小样本实验和检测基因集(其中许多基因表现出较小的影响)提供最佳能力。受影响最严重的途径见表3引人注目的是,CaMK途径是第二个最重要的途径。CaMK途径中基因表达的干扰可能是转录反馈机制的结果。同样,根据DCLK基因的功能,我们发现由于囊泡SNARE蛋白(秩19)和微管plus-end结合蛋白(秩的1)的基因表达改变,突触囊泡沿微管运输受到干扰的迹象,这可能影响神经递质的释放和轴突的生长。
GOID公司. | 期限. | 本体论. | 测试的基因. | 统计的问. | 中值的Z轴. | P(P)-价值. |
---|
去:0051010 | 微管plus-end结合 | MF公司 | 4 | 136 | 3.07 | 0.022 |
去:0004683 | 钙调素调节蛋白激酶活性 | MF公司 | 8 | 161 | 2.79 | 0.011 |
去:0005391 | 钠:钾交换ATP酶活性 | MF公司 | 6 | 416 | 2.71 | 0.013 |
GO:0016909号 | SAP激酶活性 | MF公司 | 5 | 31 | 2.67 | 0.010 |
GO:0019238号 | 环水解酶活性 | MF公司 | 4 | 40 | 2.61 | 0.027 |
GO:0019209号 | 激酶激活物活性 | MF公司 | 9 | 70 | 2.31 | 0.014 |
GO:0043552号 | 磷脂酰肌醇3-激酶活性的正调控 | 英国石油公司 | 4 | 454 | 2.29 | 0.009 |
GO:0046339号 | 二酰甘油代谢过程 | 英国石油公司 | 5 | 45 | 2.18 | 0.039 |
GO:0021782号 | 胶质细胞发育 | 英国石油公司 | 7 | 118 | 2.07 | 0.015 |
GO:0048709号 | 少突胶质细胞分化 | 英国石油公司 | 5 | 143 | 2.07 | 0.017 |
GO:0014037编号 | 雪旺细胞分化 | 英国石油公司 | 5 | 37 | 2.07 | 0.027 |
去:0030325 | 肾上腺发育 | 英国石油公司 | 5 | 23 | 2.07 | 0.031 |
GO:0001936号 | 内皮细胞增殖的调节 | 英国石油公司 | 5 | 27 | 2.07 | 0.035 |
去:0009894 | 分解代谢过程的调节 | 英国石油公司 | 10 | 20 | 1.94 | 0.017 |
去:0006970 | 渗透胁迫反应 | 英国石油公司 | 6 | 298 | 1.84 | 0.010 |
通:0004602 | 谷胱甘肽过氧化物酶活性 | MF公司 | 6 | 44 | 1.80 | 0.012 |
GO:0042176号 | 蛋白质分解代谢过程的调节 | 英国石油公司 | 9 | 21 | 1.77 | 0.018 |
去:0006265 | DNA拓扑变化 | 英国石油公司 | 8 | 38 | 1.75 | 0.027 |
GO:0015020编号 | 葡萄糖醛酸转移酶活性 | MF公司 | 9 | 34 | 1.66 | 0.016 |
GO:0000149号 | SNARE绑定 | MF公司 | 15 | 584 | 1.55 | 0.014 |
去:0030295 | 蛋白激酶激活剂活性 | MF公司 | 7 | 75 | 1.51 | 0.016 |
GOID公司. | 期限. | 本体论. | 测试的基因. | 统计的问. | 中值的Z轴. | P(P)-价值. |
---|
去:0051010 | 微管plus-end结合 | MF公司 | 4 | 136 | 3.07 | 0.022 |
去:0004683 | 钙调素调节蛋白激酶活性 | MF公司 | 8 | 161 | 2.79 | 0.011 |
去:0005391 | 钠:钾交换ATP酶活性 | MF公司 | 6 | 416 | 2.71 | 0.013 |
GO:0016909号 | SAP激酶活性 | MF公司 | 5 | 31 | 2.67 | 0.010 |
GO:0019238号 | 环水解酶活性 | MF公司 | 4 | 40 | 2.61 | 0.027 |
GO:0019209号 | 激酶激活物活性 | MF公司 | 9 | 70 | 2.31 | 0.014 |
GO:0043552号 | 磷脂酰肌醇3-激酶活性的正调控 | 英国石油公司 | 4 | 454 | 2.29 | 0.009 |
GO:0046339号 | 二酰甘油代谢过程 | 英国石油公司 | 5 | 45 | 2.18 | 0.039 |
GO:0021782号 | 胶质细胞发育 | 英国石油公司 | 7 | 118 | 2.07 | 0.015 |
GO:0048709号 | 少突胶质细胞分化 | 英国石油公司 | 5 | 143 | 2.07 | 0.017 |
GO:0014037编号 | 雪旺细胞分化 | 英国石油公司 | 5 | 37 | 2.07 | 0.027 |
去:0030325 | 肾上腺发育 | 英国石油公司 | 5 | 23 | 2.07 | 0.031 |
GO:0001936号 | 内皮细胞增殖的调节 | 英国石油公司 | 5 | 27 | 2.07 | 0.035 |
去:0009894 | 分解代谢过程的调节 | 英国石油公司 | 10 | 20 | 1.94 | 0.017 |
去:0006970 | 渗透胁迫反应 | 英国石油公司 | 6 | 298 | 1.84 | 0.010 |
通:0004602 | 谷胱甘肽过氧化物酶活性 | MF公司 | 6 | 44 | 1.80 | 0.012 |
GO:0042176号 | 蛋白质分解代谢过程的调节 | 英国石油公司 | 9 | 21 | 1.77 | 0.018 |
去:0006265 | DNA拓扑变化 | 英国石油公司 | 8 | 38 | 1.75 | 0.027 |
GO:0015020编号 | 葡萄糖醛酸转移酶活性 | MF公司 | 9 | 34 | 1.66 | 0.016 |
GO:0000149号 | SNARE绑定 | MF公司 | 15 | 584 | 1.55 | 0.014 |
去:0030295 | 蛋白激酶激活剂活性 | MF公司 | 7 | 75 | 1.51 | 0.016 |
甲状腺肿. | 期限. | 本体论. | 测试的基因. | 统计的问. | 中值的Z轴. | P(P)-价值. |
---|
去:0051010 | 微管plus-end结合 | MF公司 | 4 | 136 | 3.07 | 0.022 |
去:0004683 | 钙调素调节蛋白激酶活性 | MF公司 | 8 | 161 | 2.79 | 0.011 |
去:0005391 | 钠:钾交换ATP酶活性 | MF公司 | 6 | 416 | 2.71 | 0.013 |
GO:0016909号 | SAP激酶活性 | MF公司 | 5 | 31 | 2.67 | 0.010 |
GO:0019238号 | 环水解酶活性 | MF公司 | 4 | 40 | 2.61 | 0.027 |
GO:0019209号 | 激酶激活物活性 | MF公司 | 9 | 70 | 2.31 | 0.014 |
GO:0043552号 | 磷脂酰肌醇3-激酶活性的正调控 | 英国石油公司 | 4 | 454 | 2.29 | 0.009 |
GO:0046339号 | 二酰甘油代谢过程 | 英国石油公司 | 5 | 45 | 2.18 | 0.039 |
GO:0021782号 | 胶质细胞发育 | 英国石油公司 | 7 | 118 | 2.07 | 0.015 |
GO:0048709号 | 少突胶质细胞分化 | 英国石油公司 | 5 | 143 | 2.07 | 0.017 |
GO:0014037编号 | 雪旺细胞分化 | 英国石油公司 | 5 | 37 | 2.07 | 0.027 |
电话:0030325 | 肾上腺发育 | 英国石油公司 | 5 | 23 | 2.07 | 0.031 |
GO:0001936号 | 内皮细胞增殖的调节 | 英国石油公司 | 5 | 27 | 2.07 | 0.035 |
去:0009894 | 分解代谢过程的调节 | 英国石油公司 | 10 | 20 | 1.94 | 0.017 |
去:0006970 | 渗透胁迫反应 | 英国石油公司 | 6 | 298 | 1.84 | 0.010 |
通:0004602 | 谷胱甘肽过氧化物酶活性 | MF公司 | 6 | 44 | 1.80 | 0.012 |
GO:0042176号 | 蛋白质分解代谢过程的调节 | 英国石油公司 | 9 | 21 | 1.77 | 0.018 |
去:0006265 | DNA拓扑变化 | 英国石油公司 | 8 | 38 | 1.75 | 0.027 |
GO:0015020编号 | 葡萄糖醛酸转移酶活性 | MF公司 | 9 | 34 | 1.66 | 0.016 |
GO:0000149号 | SNARE绑定 | MF公司 | 15 | 584 | 1.55 | 0.014 |
去:0030295 | 蛋白激酶激活剂活性 | MF公司 | 7 | 75 | 1.51 | 0.016 |
GOID公司. | 期限. | 本体论. | 测试的基因. | 统计的问. | 中值的Z轴. | P(P)-价值. |
---|
去:0051010 | 微管plus-end结合 | MF公司 | 4 | 136 | 3.07 | 0.022 |
去:0004683 | 钙调素调节蛋白激酶活性 | MF公司 | 8 | 161 | 2.79 | 0.011 |
去:0005391 | 钠:钾交换ATP酶活性 | MF公司 | 6 | 416 | 2.71 | 0.013 |
GO:0016909号 | SAP激酶活性 | MF公司 | 5 | 31 | 2.67 | 0.010 |
GO:0019238号 | 环水解酶活性 | MF公司 | 4 | 40 | 2.61 | 0.027 |
GO:0019209号 | 激酶激活物活性 | MF公司 | 9 | 70 | 2.31 | 0.014 |
GO:0043552号 | 磷脂酰肌醇3-激酶活性的正调控 | 英国石油公司 | 4 | 454 | 2.29 | 0.009 |
GO:0046339号 | 二酰甘油代谢过程 | 英国石油公司 | 5 | 45 | 2.18 | 0.039 |
转到:0021782 | 胶质细胞发育 | 英国石油公司 | 7 | 118 | 2.07 | 0.015 |
GO:0048709号 | 少突胶质细胞分化 | 英国石油公司 | 5 | 143 | 2.07 | 0.017 |
GO:0014037编号 | 雪旺细胞分化 | 英国石油公司 | 5 | 37 | 2.07 | 0.027 |
去:0030325 | 肾上腺发育 | 英国石油公司 | 5 | 23 | 2.07 | 0.031 |
GO:0001936号 | 内皮细胞增殖的调节 | 英国石油公司 | 5 | 27 | 2.07 | 0.035 |
去:0009894 | 分解代谢过程的调节 | 英国石油公司 | 10 | 20 | 1.94 | 0.017 |
去:0006970 | 渗透胁迫反应 | 英国石油公司 | 6 | 298 | 1.84 | 0.010 |
通:0004602 | 谷胱甘肽过氧化物酶活性 | MF公司 | 6 | 44 | 1.80 | 0.012 |
GO:0042176号 | 蛋白质分解代谢过程的调节 | 英国石油公司 | 9 | 21 | 1.77 | 0.018 |
去:0006265 | DNA拓扑变化 | 英国石油公司 | 8 | 38 | 1.75 | 0.027 |
GO:0015020编号 | 葡萄糖醛酸转移酶活性 | MF公司 | 9 | 34 | 1.66 | 0.016 |
GO:0000149号 | SNARE绑定 | MF公司 | 15 | 584 | 1.55 | 0.014 |
去:0030295 | 蛋白激酶激活剂活性 | MF公司 | 7 | 75 | 1.51 | 0.016 |
测序深度对差异表达基因检测的影响
在开发深度测序技术之前,构建一个包含多达10万个规范标签的大规模SAGE库通常需要1年的时间和大量的财政投资。这样一个库中的标签数量比我们在3天的实验中为每组样本获得的标签数量少60倍。为了说明增加的测序深度的效果,我们将我们的结果与模拟SAGE实验的结果进行了比较,该实验仅包括随机抽取的原始DGE读取数的1/60。在模拟SAGE实验中,检测到的差异表达基因数量减少了15倍,从3179个原始读取数减少到200个(贝叶斯错误率<0.05)。在我们的深度测序实验中,显著检测到的差异表达转录物的最低丰度为0.8 t.p.m,而在模拟SAGE实验中为91 t.p.m。如前所述(26),许多表达变化最显著的基因是低丰度基因,在典型的SAGE实验中无法识别。
与微阵列和qPCR的比较
之前已经通过五种不同的全基因组表达微阵列平台分析了完全相同的RNA样本:Applied Biosystems、Affymetrix、Agilent、Illumina和家庭盆栽寡核苷酸阵列(9). 在将所有规范标签和微阵列探针映射到ENSEMBL转录数据库后,我们比较了DGE和微阵列实验的结果。在DGE中,我们检测到15 189个ENSEMBL转录物,其丰度>2 t.p.m.。在大多数微阵列平台中,较低数量的转录物发出背景以上的信号,但安捷伦除外,在安捷伦,交叉杂交可能会产生相当大的背景信号(表4). Affymetrix与DGE共有的转录本百分比最高。一般来说,不太丰富的转录物更难用微阵列检测。DGE而非任何微阵列平台检测到的538个转录物的中位表达丰度仅为4 t.p.m,而所有平台检测的转录物中位丰度为106 t.p.m。
站台. | DGE公司. | ABI公司. | 阿菲. | 安捷伦. | Illumina公司. | LGTC公司. |
---|
可检测 | 15 189 | 13 331 | 11 683年 | 22 510 | 13 376 | 2017 |
使用DGE检测 | 100% | 78% | 89% | 61% | 82% | 83% |
站台. | DGE公司. | ABI公司. | 阿菲. | 安捷伦. | Illumina公司. | LGTC公司. |
---|
可检测 | 15 189 | 13 331 | 11 683 | 22 510 | 13 376 | 2017 |
检测到DGE | 100% | 78% | 89% | 61% | 82% | 83% |
站台. | DGE公司. | ABI公司. | 阿菲. | 安捷伦. | Illumina公司. | LGTC公司. |
---|
可检测 | 15 189 | 13 331 | 11 683 | 22 510 | 13 376 | 2017 |
使用DGE检测 | 100% | 78% | 89% | 61% | 82% | 83% |
站台. | DGE公司. | ABI公司. | 阿菲. | 安捷伦. | Illumina公司. | LGTC公司. |
---|
可检测 | 15 189 | 13 331 | 11 683 | 22 510 | 13 376 | 2017 |
使用DGE检测 | 100% | 78% | 89% | 61% | 82% | 83% |
图3显示了绝对转录物丰度与微阵列探针强度之间的相关性。与其他报告一致(27–29),我们观察到微阵列杂交信号强度与测序标签数量之间存在合理的相关性。Affymetrix芯片的相关性最高(Pearson相关性:0.63)。对于Affymetrix数据,将11个完全匹配的探针的强度总结为一个值。事实上,每个转录本使用11个不同的探针,与其他平台的每个转录本单个探针相比,应该可以消除探针特异性杂交特征。检测到的转录本中的相关性高于先前发现的SAGE或MPSS与Affymetrix的相关性(30,31),主要是因为用DGE排序的标签数量较多。
图3。
绝对表达水平(DGE)和微阵列信号强度之间的相关性。标记丰度的相关性(平方根转换;x个-轴)和强度(9)]在五个微阵列平台上(年-轴)用于匹配ENSEMBL转录本,用于野生型样本1。图表中显示了皮尔逊相关性。ABI:应用生物系统;AFF:Affymetrix;ILL:照明;AGL:安捷伦;LGTC:家庭盆栽长寡核苷酸阵列。
技术重复测量用于比较DGE和微阵列的精度。正如Irizarry提出的那样,作为精度测量,我们确定了野生型和转基因样品之间对数比率独立重复测量值之间的差异分布等。(1).图4A显示了DGE和两个精度最高和最低的微阵列平台(分别为安捷伦和家庭封装寡核苷酸阵列)的这些差异的分布。DGE的分布比安捷伦(IQR:0.61)和原位点阵列(IQR:0.75)窄(四分位间距(IQR):0.51),表明DGE比微阵列具有更高的精度。
图4。
评估DGE的精度和准确性。(A)来自野生型和转基因池的样品在三个不同的通道中进行测序。我们计算了转基因和野生型样品(技术复制品)之间的三个可能的独立对数比率。为了测量精度,我们确定了这些技术复制品之间的成对差异。这些差异的分布绘制为密度函数(黑线)。这也适用于安捷伦(红色)和家庭盆栽(蓝色)微阵列上测定的野生型与转基因比率的三个技术复制。我们通过随机选择21886个特征来平衡每个平台的观测数量。(B)作为准确性的测量,我们将DGE获得的转基因小鼠与野生型小鼠的表达记录比率进行了关联(x个-轴)相对于qPCR获得的结果(年-轴)。所有数据和引物序列都可以在补充表3.
通过DGE,我们发现,与微阵列平台相比,密切相关的小鼠组之间的fold变化分布更广,其中测得的最高fold变化为2。通过DGE,我们观察到1491个差异表达的标签(错误率<0.05),绝对折叠变化>2(图2). 只有三个基因在所有微阵列平台上显著,并通过qRT-PCR证实,Plac9,D14Ertd449e和加布里2,在DGE中也显著(贝叶斯错误率为2.0·10−48, 3.5·10−47和3.9·10−12)。为了比较DGE和qPCR,我们从DGE实验中选择了29个重要基因(随机选择,涵盖整个显著性范围(错误率之间的贝叶斯错误率为1.10−47和fold-changes),以及来自微阵列分析的33个基因显著性基因(9). 结果见补充表3和显示在中图4B.从曲线斜率可以明显看出,DGE获得的褶皱变化通常也比定量PCR获得的更极端。在检测的62个基因中,43个基因的DGE和qPCR显示出一致的变化方向,但根据这两种技术,只有5个基因是显著的。
我们对来自DGE和微阵列实验的差异表达基因列表进行了更全面的比较。DGE的差异基因表达是用如上所述的Vencio算法建立的(估计FDR 8.5%),微阵列的差异基因表达是用经验贝叶斯模型LIMMA建立的(32)(估计FDR为10%)。有关DGE标签计数和微阵列之间对应关系的完整结果,请参见表5。最大的重叠是在Affymetrix平台上发现的(P(P)= 1.2·10−5; 齐方检验):31个转录本在两个平台上均显著,表达变化方向相同。此外,在评估转基因小鼠和野生型小鼠之间表达的相关性时,发现Affymetrix芯片与DGE的相关性比其他微阵列平台更好(Pearson相关性:0.25)(补充图7). DGE差异表达转录物的数量与安捷伦平台检测到的数量最接近(2414和2710)。然而,这些成绩单之间的重叠几乎没有超出预期,而且在变化方向上几乎没有对应关系。
. | 差异表达 . | 统计 . | 方向 . |
---|
. | 妈妈. | DGE公司. | 重叠. | 方形. | P值. | 相同. | 对面. |
---|
ABI公司 | 8 | 2088 | 4 | 6 | 1.4E-02型 | 4 | 0 |
楼面竣工标高 | 153 | 2041 | 41 | 19.2 | 1.2E-05 | 31 | 10 |
生病 | 52 | 2404 | 17 | 13.9 | 1.9E-04号机组 | 14 | 3 |
航空地面照明 | 2701 | 2414 | 400 | 1.9 | 1.7E-01号机组 | 189 | 211 |
LGTC公司 | 33 | 1864 | 7 | 0.9 | 3.5E-01型 | 6 | 1 |
. | 差异表达 . | 统计 . | 方向 . |
---|
. | 妈妈. | DGE公司. | 重叠. | 方形. | P值. | 相同. | 对面. |
---|
ABI公司 | 8 | 2088 | 4 | 6 | 1.4E-02型 | 4 | 0 |
楼面竣工标高 | 153 | 2041 | 41 | 19.2 | 1.2E-05 | 31 | 10 |
伊利诺伊州 | 52 | 2404 | 17 | 13.9 | 1.9E-04号机组 | 14 | 3 |
航空地面照明 | 2701 | 2414 | 400 | 1.9 | 1.7E-01号机组 | 189 | 211 |
LGTC公司 | 33 | 1864 | 7 | 0.9 | 3.5E-01型 | 6 | 1 |
. | 差异表达 . | 统计 . | 方向 . |
---|
. | 妈妈. | DGE公司. | 重叠. | 方形. | P值. | 相同. | 对面. |
---|
ABI公司 | 8 | 2088 | 4 | 6 | 1.4E-02型 | 4 | 0 |
楼面竣工标高 | 153 | 2041 | 41 | 19.2 | 2005年12月 | 31 | 10 |
伊利诺伊州 | 52 | 2404 | 17 | 13.9 | 1.9E-04号机组 | 14 | 3 |
航空地面照明 | 2701 | 2414 | 400 | 1.9 | 1.7E-01号机组 | 189 | 211 |
LGTC公司 | 33 | 1864 | 7 | 0.9 | 3.5E-01型 | 6 | 1 |
. | 差异表达 . | 统计 . | 方向 . |
---|
. | 妈妈. | DGE公司. | 重叠. | 方形. | P值. | 相同. | 对面. |
---|
ABI公司 | 8 | 2088 | 4 | 6 | 1.4E-02型 | 4 | 0 |
楼面竣工标高 | 153 | 2041 | 41 | 19.2 | 1.2E-05 | 31 | 10 |
伊利诺伊州 | 52 | 2404 | 17 | 13.9 | 第1.9页至第04页 | 14 | 3 |
航空地面照明 | 2701 | 2414 | 400 | 1.9 | 1.7E-01号机组 | 189 | 211 |
LGTC公司 | 33 | 1864 | 7 | 0.9 | 3.5E-01型 | 6 | 1 |
讨论
深度测序是鉴定差异表达转录物的有力技术。较大的测序深度明显提高了对低丰度转录物差异表达的检测,这些转录物远远超出了经典SAGE的范围。Solexa/Illumina DGE技术的测序深度优于Lynx Therapeutics早期的MPSS系统[7·105每次运行的顺序(7)]和罗氏[454测序器,3.105每次运行的顺序(33)],与polony基因表达的多重分析相当(34).
最近发表的一些论文描述了随机鸟枪RNA测序(RNASeq)的使用,而不是对SAGE标签进行测序(27–29,35–38). 这克服了基于tag的方法在检测远离3′末端区域的转录物选择性剪接时的局限性,并使检测等位基因特异性转录成为可能。随着以更低成本读取数量的不断增加,RNASeq将成为标准差异基因表达分析的负担能力。然而,在目前的吞吐量下,当目的是检测较大样本组中的细微表达差异时,最好使用为每个转录物提供特定标记的方法:我们证明,需要约200万个标记才能用DGE可靠地检测低丰度基因,而RNASeq要求每个样本至少有2000万个标签才能获得大多数转录本的合理覆盖率(29,36).
我们已经实现了一种专门的贝叶斯方法来识别两组生物复制之间显著差异表达的基因。在大多数以前发表的分析基于计数的数据中差异基因表达的报告中,所应用的统计检验没有考虑组内变异(28,34). 我们证明了正确估计组内和组间变异的重要性,因为经典测试可以识别出由于存在单一血液污染样本而导致的假阳性基因。在早期的深度测序报告中(27)与微阵列数据分析类似,分位数归一化和t吨-使用R包Limma中实现的统计来发现差异表达基因。我们认为,我们的方法更适合于独立序列库的比较,因为该测试的固有特性之一是,它对测序深度更大的样本施加了更大的权重。
生物复制测量的可用性允许我们使用全球测试(11)它考虑了单个样本中的表达水平,用于检测几种生物途径中的干扰。鉴于DCLK1蛋白的功能,几个已确定的途径高度相关(8,23–25). 使用相同的统计测试,这些途径没有被任何微阵列识别(9).
我们的结果证明了DGE相对于表达微阵列技术的许多优点:(i)DGE对转录组给出了无偏见的观点,不受用于确定阵列内容的表达转录物预测的限制;(ii)DGE检测到高水平的差异聚腺苷酸化和反义转录,而这些是标准微阵列无法检测到的;(iii)DGE数据比微阵列数据更精确;(iv)DGE数据分析需要较少的预处理步骤(如背景校正和归一化),这有助于实验室间的比较;(v) DGE数据的实验室间可比性很高,可能是因为避免了杂交过程,而杂交过程是出了名的难以标准化(1);和(vi)DGE在检测低丰度转录物和基因表达微小变化方面更为敏感。这可能是由于缺乏背景信号和饱和效应,这是微阵列比率压缩的主要原因(39). 在比较基于标记的方法(SAGE、MPSS)和微阵列数据的早期文献中已经讨论了这些优点(2,26,30,31,40–45). 更高的DGE测序深度和避免费力的克隆步骤增加了DGE相对于这些旧方法的推测优越的精确度和准确性,特别是当考虑低丰度转录物时,这使得DGE成为一种更实用的技术。
DGE和微阵列之间以及DGE和qPCR检测之间的相关性是明确的,但适度的。根据先前在SAGE或MPSS与微阵列之间的比较中报告的内容(31,40)对于低丰度转录物,基于tag的方法和微阵列之间的相关性特别差。不同技术之间相关性相对较低的一个重要原因是我们的两个样本集非常相似。基因表达的微小差异很难用微阵列检测出来,最近公布的相同样本的微阵列间比较也表明了这一点(9)以及qPCR分析。基因表达差异较大的样本,如MAQC联合体分析的样本(46),相关性可能更高。我们认为,除了敏感性差异外,一个重要原因是不同的平台检测不同的转录物。在许多情况下,微阵列探针和qPCR检测到不同转录物的混合(1),其中DGE可以区分具有不同3′端的转录本;标准的qPCR分析将检测正、反义转录物的累积存在。事实上,当所有DGE标记的行为都类似时加布里2我们在DCLK小鼠中发现了6个标记,减少了约2.5倍(4个来自正链,2个来自反链,参见补充表4),DGE结果与所有微阵列平台和qPCR一致(参见补充图8). 在许多其他情况下,交替剪接的转录物或正反义转录物之间没有共同调节,尤其是在低丰度情况下,这将导致与微阵列和qPCR的相关性较差。除了DGE和微阵列检测到的转录物的有限重叠外,许多转录物仅由一个或几个平台检测到。对于DGE,一些转录物的缺失数据可能归因于缺乏CATG或独特的标签序列(估计频率:1%的鼠RefSeq RNA);对于微阵列来说,这是由于探针设计不足。我们还注意到,与DGE获得的fold-changes相比,qPCR和微阵列获得的fold变化具有更高的一致性。除了上述解释外,这可能是由于DGE测量绝对表达水平,DGE数据是泊松分布的(47)而qPCR和微阵列提供相对表达水平,呈对数正态分布。
我们发现,DGE结果与Affymetrix结果相比,与其他微阵列平台更为一致,这与早期的研究一致(31,42)MPSS结果与Affymetrix的相关性优于其他阵列。我们认为这取决于每个基因使用多个探针,这应该会抵消大多数探针特异性影响。之前已经描述过不同技术中的序列偏差。SAGE和微阵列的对比分析表明,微阵列探针的GC含量对检测灵敏度和跨技术相关性很重要(26,30,41,43–45). 我们调查了DGE标签中的GC偏差。在我们的标签中观察到的总GC百分比是42%。这低于经典SAGE或MPSS(44)更好地反映了3'-UTR相对较低的GC含量(48). 通过从高丰度到低丰度对标签进行排序,我们发现较高丰度标签中的Ts百分比较高(补充图9). 这支持了早期的观察,即高表达基因比低表达基因含有更多富含T的3′-UTR(48). 因此,DGE中的GC偏倚似乎是有限的,但还需要进一步研究,这也要考虑到最近发表的一项研究,其中在Solexa/Illumina的重测序实验中观察到大量GC-rich序列的过度表达(49).
我们预计测序深度的进一步增强仍将提高准确性,特别是对于低丰度转录本。全转录测序(RNAseq)是向前迈出的又一步。这些进展,再加上目前在灵敏度、分辨率以及特别是实验室间一致性方面取得的改进,将极大地推动表达谱分析领域的发展。多中心生物银行和罕见疾病研究中,生物材料稀缺且广泛传播,法律和后勤限制可能会阻碍源材料的共享,如果能更好地整合结果,将大大受益。此外,基础研究和比较基因组学领域也将从数据可移植性的重大改进中受益匪浅,这些领域一直受到广泛而漫长的标准化问题的阻碍。
基金
荷兰基因组学倡议/荷兰科学研究组织(NGI/NWO);荷兰科学研究组织的VENI拨款(NWO向P.a.C.'tH拨款2005/03808/ALW)。
利益冲突声明。未声明。
致谢
我们要感谢Irina Khrebtukova和Gary Schroth(Illumina Inc.,Hayward,CA)提供的样品制备协议、合并样品分析和数据分析协助。Michiel van Galen和Mattias den Hollander(LUMC和Hogeschool Leiden)被公认为在生物信息学方面提供了娴熟的帮助。我们要感谢杰尔·戈曼(Jelle Goeman)的有益评论,感谢西尔维尔·范德马雷尔(Silveère van der Maarel)教授和鲁恩·弗朗茨(Rune Frants)教授批判性地阅读了手稿。
参考文献
1, , , , , , , , , 等微阵列平台的多实验室比较
, 自然方法
, 2005
,卷。 2
(第345
-350
) 2, . 基于标签的转录组研究和基因组注释方法
, 自然方法
, 2005
,卷。 2
(第495
-502
) 3, , , , , , , , , 等基于微珠阵列的大规模并行签名测序(MPSS)基因表达分析
, 自然生物技术。
, 2000
,卷。 18
(第630
-634
) 4, , , , , , , , , 等微加工高密度微柱反应器中的基因组测序
, 自然
, 2005
,卷。 437
(第376
-380
) 5, , , , , , , , , . 进化细菌基因组的精确多重极性测序
, 科学类
, 2005
,卷。 309
(第1728
-1732
) 6. 全基因组重新排序
, 货币。操作。遗传学。开发。
, 2006
,卷。 16
(第545
-552
) 7, , , , , , , , , 等大规模并行签名测序对人类细胞系基因表达的全面采样
, 程序。美国国家科学院。科学。美国
, 2003
,卷。 100
(第4702
-4705
) 8, , , , . 两种DCLK拼接变体之间的功能差异
, 大脑研究摩尔大脑研究。
, 2004
,卷。 120
(第103
-114
) 9, , , , , , , , , 等基因表达的细微变化可以用不同的微阵列平台一致地检测到吗?
, BMC公司。基因组学
, 2008
,卷。 9
第页。 124
10, , , . 基因表达序列分析中类内生物变异的贝叶斯模型
, BMC公司。生物信息学。
, 2004
,卷。 5
第页。 119
11, , , . 基因组的全球测试:与临床结果的测试关联
, 生物信息学。
, 2004
,卷。 20
(第93
-99
) 12, , , , , , , , , 等人类转录组分析
, 自然遗传学。
, 1999
,卷。 23
(第387
-388
) 13, , , , . 哺乳动物mRNA序列中多聚腺苷酸裂解位点的异质性:对SAGE分析的影响
, 核酸研究。
, 2001
,卷。 29
(第1690
-1694
) 14, , , , . 人类基因中不同聚腺苷酸化信号的使用模式
, 基因组研究。
, 2000
,卷。 10
(第1001
-1010
) 15, , , , , , , , , 等反义转录在人类基因组中广泛存在
, 自然生物技术。
, 2003
,卷。 21
(第379
-386
) 16, , , , . LongSAGE检测到大量新的人类反义转录物
, 生物信息学。
, 2006
,卷。 22
(第2475
-2479
) 17, , , , . DNA阵列上反义转录物的表达谱分析
, 生理学。基因组学
, 2007
,卷。 28
(第294
-300
) 18, , , , , , , , , 等哺乳动物转录组中的反义转录
, 科学类
, 2005
,卷。 309
(第1564
-1566
) 19, , , . 多细胞动物间反义转录物丰度变化的证据,但反义转录与生物体复杂性无关
, 基因组研究。
, 2006
,卷。 16
(第922
-933
) 20, , , . 用放线菌素D解决转录组微阵列实验中的反义伪影
, 核酸研究。
, 2007
,卷。 35
第页。 e128(电子128)
21, , . SAGE库的统计评估:对实验设计的影响
, 生理学。基因组学
, 2002
,卷。 11
(第37
-44
) 22, . . 计数的平方根变换
, 统计方法。
, 1989
新泽西州霍博肯
布莱克威尔出版社
(第287
-288
) 23, , , , . DCAMKL1编码一种与调节微管聚合的双重皮质醇同源的蛋白激酶
, 《神经科学杂志》。
, 2000
,卷。 20
(第9152
-9161
) 24, , , , , . 双皮质素和双皮质素样激酶在神经元迁移和轴突生长中的遗传相互作用
, 神经元
, 2006
,卷。 49
(第41
-53
) 25, , , , . 双皮质醇激酶-1的催化和调节域
, 生物化学
, 2003
,卷。 42
(第2185
-2194
) 26, , , , , , . 基因芯片分析短和长攻击力小鼠海马基因表达谱:技术和生物学意义
, 《神经科学杂志》。物件。
, 2003
,卷。 74
(第701
-716
) 27, , , , , , , , , 等通过大规模mRNA测序进行干细胞转录组分析
, 自然方法
, 2008
,卷。 5
(第613
-619
) 28, , , , . RNA-seq:技术再现性评估和与基因表达阵列的比较
, 基因组研究。
, 2008
,卷。 18
(第1509
-1517
) 29, , , , , , , , . 在单核苷酸分辨率下调查的真核转录组的动态库
, 自然
, 2008
,卷。 453
(第1239
-1243
) 30, , , , . SAGE、长SAGE和寡核苷酸芯片产生的基因表达谱的比较
, 基因组学
, 2004
,卷。 84
(第631
-636
) 31, , , , , , , . 基于杂交和序列分析的基因表达技术在生物复制中的比较
, BMC基因组学
, 2007
,卷。 8
第页。 153
32. , , , , . Limma:微阵列数据的线性模型
, 使用R和生物导体的生物信息学和计算生物学解决方案。
, 2005
纽约
施普林格
(第397
-420
) 33, , . DeepSAGE–具有高灵敏度、简单实验协议和样品多路复用的数字转录组学
, 核酸研究。
, 2006
,卷。 34
第页。 e133(电子133)
34, , , , , , , . 小鼠肥厚性心肌病基因表达的Polony多重分析
, 科学类
, 2007
,卷。 316
(第1481
-1484
) 35, , , . 大规模并行测序的基因表达谱分析
, 基因组研究。
, 2008
,卷。 18
(第172
-177
) 36, , , , . 利用RNA-Seq对哺乳动物转录体进行定位和量化
, 自然方法
, 2008
,卷。 5
(第621
-628
) 37, , , , , , . RNA测序确定的酵母基因组转录图谱
, 科学类
, 2008
,卷。 320
(第1344
-1349
) 38, , , , , , , , , 等通过人类转录组的深度测序了解基因活性和选择性剪接的全局视图
, 科学类
, 2008
,卷。 321
(第956
-960
) 39, , , , , , , , , 等用定量基因表达平台评估DNA微阵列结果
, 自然生物技术。
, 2006
,卷。 24
(第1115
-1122
) 40, , , , , , , . 使用SAGE分析评估大鼠海马组织中Affymetrix基因芯片的敏感性。基因表达的系列分析
, 《欧洲神经科学杂志》。
, 2002
,卷。 16
(第409
-413
) 41, , , . 离散脑区的大规模基因表达谱:攻击性行为遗传学的潜力、局限性和应用
, 贝哈夫。基因。
, 2003
,卷。 33
(第537
-548
) 42, , , , , , , , , 等基于MPSS和阵列表达数据建立正常和恶性乳腺细胞上皮特异性转录组
, 乳腺癌研究。
, 2006
,卷。 8
第页。 56兰特
43, , , , , , . 基因芯片和SAGE在转录谱分析中定量准确性的直接比较
, 基因组学
, 2000
,卷。 68
(第136
-143
) 44, , , , , . 大规模基因表达谱数据中的序列偏差
, 核酸研究。
, 2006
,卷。 34
第页。 e83(电子83)
45, , , , , , . SAGE和Affymetrix基因芯片估计基因表达数据的相似性评估
, BMC公司。基因组学
, 2005
,卷。 6
第页。 91
46, , , , , , , , , 等微阵列质量控制(MAQC)项目显示了基因表达测量的平台间和平台内再现性
, 自然生物技术。
, 2006
,卷。 24
(第1151
-1161
) 47, . 用截断gamma-Poisson模型建模Sage数据
, BMC公司。生物信息学。
, 2006
,卷。 7
第页。 157
48, , , . 【酵母高表达基因功能区的上下文组织】
, 分子生物学。(莫斯科)
, 2002
,卷。 36
(第1026
-1034
) 49, , , . 高通量DNA测序的超短读数据集中的重大偏差
, 核酸研究。
, 2008
,卷。 36
第页。 e105(电子105)
©2008作者
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.0/uk/)它允许在任何媒体上无限制地非商业性使用、分发和复制原始作品,前提是正确引用了原始作品。