跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

网站是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2010年2月18日11时94分。
doi:10.186/1471-2105-11-94。

mRNA-Seq实验中归一化和差异表达的统计方法评估

附属公司

mRNA-Seq实验中归一化和差异表达的统计方法评估

詹姆斯·H·布拉德等。 BMC生物信息学. .

摘要

背景:高通量测序技术,如Illumina基因组分析仪,是研究广泛生物和医学问题的强大新工具。统计和计算方法是从测序器生成的大量复杂数据集中得出有意义和准确结论的关键。我们对Illumina转录组测序(mRNA-Seq)数据的归一化和差异表达(DE)分析的统计方法进行了详细评估。

结果:我们比较了两种生物样本中检测显著DE基因的统计方法,发现测试统计数据处理低计数基因的方式存在显著差异。我们评估了DE结果如何受到测序平台特征的影响,例如不同的基因长度、碱基调用校准方法(有和没有phi X对照通道)以及流动细胞/文库制备效果。我们研究了读取计数归一化方法对DE结果的影响,并表明通过总车道数(例如RPKM)进行缩放的标准方法可能会对DE估计值产生偏差。我们提出了更通用的基于分位数的归一化过程,并证明了DE检测的改进。

结论:我们的结果对mRNA-Seq实验的设计和分析具有重要的实用性和方法学意义。他们强调了归一化和DE推断的适当统计方法的重要性,以说明测序平台可能影响结果准确性的特征。它们还揭示了在发展mRNA-Seq的统计和计算方法方面需要进一步研究。

PubMed免责声明

数字

图1
图1
差异表达统计比较:ROC曲线(a)所有DE统计,无基因过滤。(b)基于GLM的似然比统计和t吨-统计数据显示,在去除大脑或UHR中读取少于20个的基因之前和之后。在这两个图中,如果一个基因的qRT-PCR绝对对数比小于0.2,则该基因被宣布为非DE基因,如果其绝对对数比大于2.0,则被宣布为DE基因。注意,根据mRNA-Seq和qRT-PCR,我们要求真阳性在同一方向上差异表达(见表1和方法)。
图2
图2
差异表达式统计,按长度脑和UHR中至少250bp长且具有非零计数的UI基因的DE统计等级与基因长度的方框图。(a) Delta方法t吨-统计数据。(b) Delta方法t吨-由基因长度平方根的倒数加权的统计学。
图3
图3
基线校准方法对读数映射的影响.四种生物样品(脑、UHR)和流-细胞(F2、F3)组合中每一种的每一条通道的平均读取计数条形图,包括φX校准和不带φX校准。读取分为三个嵌套类别:纯净过滤完全匹配读取(FPM);具有0、1或2个不匹配的纯过滤读取(FMM);0、1或2不匹配的未筛选读取(MM)。
图4
图4
生物、文库制备和流细胞效应的比较UHR与脑生物效应的估计对数变化箱线图([附加文件2:补充表S4]中的GLM 2)、针对生物调整的流细胞效应(GLM 4)、流细胞内的库制备效应(GLM7)。给出了总计数(黑色)和上四分位(蓝色)标准化的估计值。
图5
图5
高表达基因的影响(a)脑(绿色)和UHR(紫色)样本总读取计数的累计百分比,从带有最高读取计数(跨越七条Brain或UHR通道)。累计读取计数标记为5%、10%、20%和30%的高表达基因。(b) 非正常计数的UHR/Brain表达fold-change的运行值,从带有最低的所有14条车道的总数。水平线对应于:所有基因的计数比率(黑色)、POLR2A基因的计数比例(红色)以及在至少一条通道中读取的基因的计数百分比上限四分位的比率(蓝色)。
图6
图6
mRNA-Seq和微阵列差异表达调用qRT-PCR的比较:ROC曲线所有三种平台通用的基因,用于qRT-PCR和测序(参见[附加文件2:补充章节S6])。如果它们的qRT-PCR绝对对数比(a)大于2或(b)大于0.5,则评估并宣布DE;如果基因的绝对对数比小于0.2,则该基因被宣布为非DE基因。测序数据采用基于GLM的似然比检验。为mRNA-Seq提供了两种归一化程序:总计数(黑色)和上四分位(蓝色)归一化。使用RMA(灰色)对微阵列数据进行标准化。注意,我们需要根据信使核糖核酸序列和qRT-PCR在同一方向上差异表达真阳性(见表1和方法)。
图7
图7
信使核糖核酸序列和微阵列差异表达测量与qRT-PCR的比较差异散点图,将来自qRT-PCR的UHR/脑表达对数比的估计值与来自(a)使用标准总计数标准化的信使核糖核酸序列和(b)使用标准RMA标准化的微阵列的UHR/脑表达对数比的估计值进行比较。图中显示了所有三个平台之间共享的基因,根据mRNA-Seq和qRT-PCR,这些基因都存在于大脑和UHR中(参见[附加文件2:补充部分S1]),并且qRT-PCR绝对表达对数比小于4。(a)中的水平线表示测序数据经过标准总计数归一化(黑色)、POLR2A归一化(红色)、分位数归一化处理(黄色)、上四分位数归一处理(蓝色)后的中位数UHR/Brain log-ratio;(b)中的水平线显示了标准RMA标准化(黑色)和POLR2A标准化(红色)后微阵列数据的中位数UHR/Brain log-ratio。
图8
图8
归一化过程的比较:泊松模型的拟合优度在(a)总数、(b)POLR2A、(c)上四分位数和(d)分位数归一化后,乘法泊松模型([附加文件2:补充表S4]中的GLM 1)适用于MAQC-2实验中的七个脑区。计算并显示了优良率统计数据χ2分位数-分位数图。在基因的最高分位数中具有良好的fit统计信息的基因χ2-使用彩色绘图符号显示分布:红色(1,5]%、紫色(.1,1]%、金色[0,1]%。UHR的类似绘图显示相同的模式。

类似文章

引用人

工具书类

    1. Chiang DY、Getz G、Jaffe DB、O'Kelly MJT、Zhao X、Carter SL、Russ C、Nusbaum C、Meyerson M、Lander ES。用大规模平行测序进行拷贝数变化的高分辨率绘图。自然方法。2009年;6:99–103. doi:10.1038/nmeth.1276。-内政部-项目管理咨询公司-公共医学
    1. Dohm JC、Lottaz C、Borodina T、Himmelbauer H。高通量DNA测序的超短读数据集中的重大偏差。核酸研究。2008;36(16):e105。doi:10.1093/nar/gkn425。-内政部-项目管理咨询公司-公共医学
    1. Hoen PAC、Ariyurek Y、Thygesen HH、Vreugdenhil E、Vossen RHAM、de Menezes RX、Boer JM、van Ommen GJB、den Dunnen JT。基于深度序列的表达分析表明,在五种微阵列平台上,在稳健性、分辨率和实验室间可移植性方面取得了重大进展。核酸研究。2008;36(21):e141。doi:10.1093/nar/gkn705。-内政部-项目管理咨询公司-公共医学
    1. Lee A、Hansen KD、Bullard J、Dudoit S、Sherlock G。通过拼接微阵列和超高通量测序揭示的酵母中新的低丰度和瞬时RNA在密切相关的酵母物种中并不保守。PLoS遗传学。2008;4(12):e1000299。doi:10.1371/journal.pgen.1000299。-内政部-项目管理咨询公司-公共医学
    1. Li H,Lovci MT,Kwon YS,Rosenfeld MG,Fu XD,Yeo GW.数字转录组分析所需标记密度的测定:应用于雄激素敏感性前列腺癌模型。美国国家科学院。2008;105(51):20179–20184. doi:10.1073/pnas.0807121105。-内政部-项目管理咨询公司-公共医学

出版物类型

LinkOut-更多资源