Evaluation of statistical methods for normalization and differential expression in mRNA-Seq experiments

doi:10.1186/1471-2105-11-94

.2010年2月18日11时94分。

doi:10.186/1471-2105-11-94。

mRNA-Seq实验中归一化和差异表达的统计方法评估

詹姆斯·H·布拉德¹, 伊丽莎白·普多姆, 卡斯珀·德汉森, 桑德琳·杜多特

附属公司

PMID： 20167110
预防性维修识别码：项目经理2838869
内政部： 10.1186/1471-2105-11-94

mRNA-Seq实验中归一化和差异表达的统计方法评估

詹姆斯·H·布拉德等。 BMC生物信息学. 2010.

.2010年2月18日11:94。

doi:10.186/1471-2105-11-94。

作者

詹姆斯·H·布拉德¹, 伊丽莎白·普多姆, 卡斯珀·德汉森, 桑德琳·杜多特

附属

¹美国加州大学伯克利分校生物统计学系。bullard@berkeley.edu

PMID： 20167110
预防性维修识别码：项目经理2838869
内政部： 10.1186/1471-2105-11-94

摘要

背景：高通量测序技术，如Illumina基因组分析仪，是研究广泛生物和医学问题的强大新工具。统计和计算方法是从测序器生成的大量复杂数据集中得出有意义和准确结论的关键。我们对Illumina转录组测序（mRNA-Seq）数据的归一化和差异表达（DE）分析的统计方法进行了详细评估。

结果：我们比较了两种生物样本中检测显著DE基因的统计方法，发现测试统计数据处理低计数基因的方式存在显著差异。我们评估了DE结果如何受到测序平台特征的影响，例如不同的基因长度、碱基调用校准方法（有和没有phi X对照通道）以及流动细胞/文库制备效果。我们研究了读取计数归一化方法对DE结果的影响，并表明通过总车道数（例如RPKM）进行缩放的标准方法可能会对DE估计值产生偏差。我们提出了更通用的基于分位数的归一化过程，并证明了DE检测的改进。

结论：我们的结果对mRNA-Seq实验的设计和分析具有重要的实用性和方法学意义。他们强调了归一化和DE推断的适当统计方法的重要性，以说明测序平台可能影响结果准确性的特征。它们还揭示了在发展mRNA-Seq的统计和计算方法方面需要进一步研究。

PubMed免责声明

数字

图1
**差异表达统计比较：ROC曲线**（a）所有DE统计，无基因过滤。（b）基于GLM的似然比统计和t吨-统计数据显示，在去除大脑或UHR中读取少于20个的基因之前和之后。在这两个图中，如果一个基因的qRT-PCR绝对对数比小于0.2，则该基因被宣布为非DE基因，如果其绝对对数比大于2.0，则被宣布为DE基因。注意，根据mRNA-Seq和qRT-PCR，我们要求真阳性在同一方向上差异表达（见表1和方法）。

图2
**差异表达式统计，按长度**脑和UHR中至少250bp长且具有非零计数的UI基因的DE统计等级与基因长度的方框图。（a） Delta方法t吨-统计数据。（b） Delta方法t吨-由基因长度平方根的倒数加权的统计学。

图3
**基线校准方法对读数映射的影响**.四种生物样品（脑、UHR）和流-细胞（F2、F3）组合中每一种的每一条通道的平均读取计数条形图，包括φX校准和不带φX校准。读取分为三个嵌套类别：纯净过滤完全匹配读取（FPM）；具有0、1或2个不匹配的纯过滤读取（FMM）；0、1或2不匹配的未筛选读取（MM）。

图4
**生物、文库制备和流细胞效应的比较**UHR与脑生物效应的估计对数变化箱线图（[附加文件2:补充表S4]中的GLM 2）、针对生物调整的流细胞效应（GLM 4）、流细胞内的库制备效应（GLM7）。给出了总计数（黑色）和上四分位（蓝色）标准化的估计值。

图5
**高表达基因的影响**（a）脑（绿色）和UHR（紫色）样本总读取计数的累计百分比，从带有最高读取计数（跨越七条Brain或UHR通道）。累计读取计数标记为5%、10%、20%和30%的高表达基因。（b）非正常计数的UHR/Brain表达fold-change的运行值，从带有*最低的*所有14条车道的总数。水平线对应于：所有基因的计数比率（黑色）、POLR2A基因的计数比例（红色）以及在至少一条通道中读取的基因的计数百分比上限四分位的比率（蓝色）。

图6
**mRNA-Seq和微阵列差异表达调用qRT-PCR的比较：ROC曲线**所有三种平台通用的基因，用于qRT-PCR和测序（参见[附加文件2:补充章节S6]）。如果它们的qRT-PCR绝对对数比（a）大于2或（b）大于0.5，则评估并宣布DE；如果基因的绝对对数比小于0.2，则该基因被宣布为非DE基因。测序数据采用基于GLM的似然比检验。为mRNA-Seq提供了两种归一化程序：总计数（黑色）和上四分位（蓝色）归一化。使用RMA（灰色）对微阵列数据进行标准化。注意，我们需要根据信使核糖核酸序列和qRT-PCR在同一方向上差异表达真阳性（见表1和方法）。

图7
**信使核糖核酸序列和微阵列差异表达测量与qRT-PCR的比较**差异散点图，将来自qRT-PCR的UHR/脑表达对数比的估计值与来自（a）使用标准总计数标准化的信使核糖核酸序列和（b）使用标准RMA标准化的微阵列的UHR/脑表达对数比的估计值进行比较。图中显示了所有三个平台之间共享的基因，根据mRNA-Seq和qRT-PCR，这些基因都存在于大脑和UHR中（参见[附加文件2：补充部分S1]），并且qRT-PCR绝对表达对数比小于4。（a）中的水平线表示测序数据经过标准总计数归一化（黑色）、POLR2A归一化（红色）、分位数归一化处理（黄色）、上四分位数归一处理（蓝色）后的中位数UHR/Brain log-ratio；（b）中的水平线显示了标准RMA标准化（黑色）和POLR2A标准化（红色）后微阵列数据的中位数UHR/Brain log-ratio。

图8
**归一化过程的比较：泊松模型的拟合优度**在（a）总数、（b）POLR2A、（c）上四分位数和（d）分位数归一化后，乘法泊松模型（[附加文件2:补充表S4]中的GLM 1）适用于MAQC-2实验中的七个脑区。计算并显示了优良率统计数据χ²分位数-分位数图。在基因的最高分位数中具有良好的fit统计信息的基因χ²-使用彩色绘图符号显示分布：红色（1,5]%、紫色（.1,1]%、金色[0,1]%。UHR的类似绘图显示相同的模式。

请参阅PMC中的此图像和版权信息

类似文章

使用来自726只果蝇个体的RNA-Seq数据进行归一化和差异表达分析的比较。
Lin Y、Golovnina K、Chen ZX、Lee HN、Negron YL、Sultana H、Oliver B、Harbison ST。林毅等。 BMC基因组学。2016年1月5日；17:28. doi:10.1186/s12864-015-2353-z。 BMC基因组学。2016 PMID：26732976 免费PMC文章。
deGPS是检测RNA测序研究中差异表达的有力工具。
楚C、方Z、华X、杨Y、陈E、考利·AW Jr、梁M、刘鹏、陆毅。 Chu C等人。 BMC基因组学。2015年6月13日；16(1):455. doi:10.1186/s12864-015-1676-0。 BMC基因组学。2015 PMID：26070955 免费PMC文章。
从假设的角度选择样本RNA-Seq归一化方法。
Evans C、Hardin J、Stoebel DM。 Evans C等人。简要生物信息。2018年9月28日；19(5):776-792. doi:10.1093/bib/bbx008。简要生物信息。2018 PMID：28334202 免费PMC文章。
基于RNA-seq的差异表达基因的统计检测：从生物复制到系统发育复制。
古X。古X。简要生物信息。2016年3月；17（2）：243-8。doi:10.1093/bib/bbv035。Epub 2015年6月24日。简要生物信息。2016 PMID：26108230 审查。
使用RNA-seq数据表征和注释基因组。
陈刚，史涛，石磊。 Chen G等。中国生命科学。2017年2月；60(2):116-125. doi:10.1007/s11427-015-0349-4。Epub 2016年6月13日。中国生命科学。2017 PMID：27294835 审查。

查看所有类似文章

引用人

保留鸟类从出生羽毛到幼年羽毛过渡的调节开关。
Chen CK、Chang YM、Jiang TX、Yue Z、Liu TY、Lu J、Yu Z、Lin JJ、Vu TD、Huang TY、Harn HI、Ng CS、Wu P、Chuong CM、Li WH。 Chen CK等。国家公社。2024年5月16日；15(1):4174. doi:10.1038/s41467-024-48303-3。国家公社。2024 PMID：38755126 免费PMC文章。
数据规范化用于解决单细胞转录组数据集分析中的挑战。
Cuevas-Diaz Duran R、Wei H、Wu J。 Cuevas-Diaz Duran R等人。 BMC基因组学。2024年5月6日；25(1):444. doi:10.1186/s12864-024-10364-5。 BMC基因组学。2024 PMID：38711017 免费PMC文章。审查。
低水平外翻刺激对保留射血分数心力衰竭患者心脏代谢的影响：一项基于转录组学的分析。
Chakraborty P、Niewiadomska M、Farhat K、Morris L、Whyte S、Humphries KM、Stavrakis S。 Chakraborty P等人。国际分子科学杂志。2024年4月13日；25(8):4312. doi:10.3390/ijms25084312。国际分子科学杂志。2024 PMID：38673896 免费PMC文章。
生物信息学非专家RNA测序分析简要指南。
Lee GY、Ham S、Lee SV。 Lee GY等人。摩尔细胞。2024年4月16日；47(5):100060. doi:10.1016/j.mocell.2024.100060。打印前在线。摩尔细胞。2024 PMID：38614390 免费PMC文章。
大豆荚螟染色体水平基因组组装：了解幼虫对表达杀虫Cry1Ac蛋白的转基因大豆的转录反应。
王毅，姚毅，张毅，钱X，郭D，科茨理学学士。王毅等。 BMC基因组学。2024年4月9日；25(1):355. doi:10.1186/s12864-024-10216-2。 BMC基因组学。2024 PMID：38594617 免费PMC文章。

查看所有“被引用”文章

工具书类

1. Chiang DY、Getz G、Jaffe DB、O'Kelly MJT、Zhao X、Carter SL、Russ C、Nusbaum C、Meyerson M、Lander ES。用大规模平行测序进行拷贝数变化的高分辨率绘图。自然方法。2009年；6:99–103. doi:10.1038/nmeth.1276。-内政部-项目管理咨询公司-公共医学
1. Dohm JC、Lottaz C、Borodina T、Himmelbauer H。高通量DNA测序的超短读数据集中的重大偏差。核酸研究。2008;36（16）：e105。doi:10.1093/nar/gkn425。-内政部-项目管理咨询公司-公共医学
1. Hoen PAC、Ariyurek Y、Thygesen HH、Vreugdenhil E、Vossen RHAM、de Menezes RX、Boer JM、van Ommen GJB、den Dunnen JT。基于深度序列的表达分析表明，在五种微阵列平台上，在稳健性、分辨率和实验室间可移植性方面取得了重大进展。核酸研究。2008;36（21）：e141。doi:10.1093/nar/gkn705。-内政部-项目管理咨询公司-公共医学
1. Lee A、Hansen KD、Bullard J、Dudoit S、Sherlock G。通过拼接微阵列和超高通量测序揭示的酵母中新的低丰度和瞬时RNA在密切相关的酵母物种中并不保守。PLoS遗传学。2008;4（12）：e1000299。doi:10.1371/journal.pgen.1000299。-内政部-项目管理咨询公司-公共医学
1. Li H，Lovci MT，Kwon YS，Rosenfeld MG，Fu XD，Yeo GW.数字转录组分析所需标记密度的测定：应用于雄激素敏感性前列腺癌模型。美国国家科学院。2008;105(51):20179–20184. doi:10.1073/pnas.0807121105。-内政部-项目管理咨询公司-公共医学

出版物类型

行动
行动
行动
行动

MeSH术语

行动
行动
行动
行动
行动

物质

行动

赠款和资金

U01 HG004271/HG/NGHRI NIH HHS/美国

LinkOut-更多资源

全文源
其他文献来源
- 镜片-专利引文

[1] Chiang DY、Getz G、Jaffe DB、O'Kelly MJT、Zhao X、Carter SL、Russ C、Nusbaum C、Meyerson M、Lander ES。用大规模平行测序进行拷贝数变化的高分辨率绘图。自然方法。2009年；6:99–103. doi:10.1038/nmeth.1276。-内政部-项目管理咨询公司-公共医学

[2] Chiang DY、Getz G、Jaffe DB、O'Kelly MJT、Zhao X、Carter SL、Russ C、Nusbaum C、Meyerson M、Lander ES。用大规模平行测序进行拷贝数变化的高分辨率绘图。自然方法。2009年；6:99–103. doi:10.1038/nmeth.1276。-内政部-项目管理咨询公司-公共医学

[3] Dohm JC、Lottaz C、Borodina T、Himmelbauer H。高通量DNA测序的超短读数据集中的重大偏差。核酸研究。2008;36（16）：e105。doi:10.1093/nar/gkn425。-内政部-项目管理咨询公司-公共医学

[4] Dohm JC、Lottaz C、Borodina T、Himmelbauer H。高通量DNA测序的超短读数据集中的重大偏差。核酸研究。2008;36（16）：e105。doi:10.1093/nar/gkn425。-内政部-项目管理咨询公司-公共医学

[5] Hoen PAC、Ariyurek Y、Thygesen HH、Vreugdenhil E、Vossen RHAM、de Menezes RX、Boer JM、van Ommen GJB、den Dunnen JT。基于深度序列的表达分析表明，在五种微阵列平台上，在稳健性、分辨率和实验室间可移植性方面取得了重大进展。核酸研究。2008;36（21）：e141。doi:10.1093/nar/gkn705。-内政部-项目管理咨询公司-公共医学

[6] Hoen PAC、Ariyurek Y、Thygesen HH、Vreugdenhil E、Vossen RHAM、de Menezes RX、Boer JM、van Ommen GJB、den Dunnen JT。基于深度序列的表达分析表明，在五种微阵列平台上，在稳健性、分辨率和实验室间可移植性方面取得了重大进展。核酸研究。2008;36（21）：e141。doi:10.1093/nar/gkn705。-内政部-项目管理咨询公司-公共医学

[7] Lee A、Hansen KD、Bullard J、Dudoit S、Sherlock G。通过拼接微阵列和超高通量测序揭示的酵母中新的低丰度和瞬时RNA在密切相关的酵母物种中并不保守。PLoS遗传学。2008;4（12）：e1000299。doi:10.1371/journal.pgen.1000299。-内政部-项目管理咨询公司-公共医学

[8] Lee A、Hansen KD、Bullard J、Dudoit S、Sherlock G。通过拼接微阵列和超高通量测序揭示的酵母中新的低丰度和瞬时RNA在密切相关的酵母物种中并不保守。PLoS遗传学。2008;4（12）：e1000299。doi:10.1371/journal.pgen.1000299。-内政部-项目管理咨询公司-公共医学

[9] Li H，Lovci MT，Kwon YS，Rosenfeld MG，Fu XD，Yeo GW.数字转录组分析所需标记密度的测定：应用于雄激素敏感性前列腺癌模型。美国国家科学院。2008;105(51):20179–20184. doi:10.1073/pnas.0807121105。-内政部-项目管理咨询公司-公共医学

[10] Li H，Lovci MT，Kwon YS，Rosenfeld MG，Fu XD，Yeo GW.数字转录组分析所需标记密度的测定：应用于雄激素敏感性前列腺癌模型。美国国家科学院。2008;105(51):20179–20184. doi:10.1073/pnas.0807121105。-内政部-项目管理咨询公司-公共医学

将引文保存到文件

电子邮件引文

添加到集合

添加到我的书目

您保存的搜索

为外部引文管理软件创建文件

您的RSS源

mRNA-Seq实验中归一化和差异表达的统计方法评估

附属

mRNA-Seq实验中归一化和差异表达的统计方法评估

作者

附属

摘要

数字

类似文章

引用人

工具书类

出版物类型

MeSH术语

物质

赠款和资金

LinkOut-更多资源

全文源

其他文献来源

摘要

数字

类似文章

引用人

工具书类

出版物类型

MeSH术语

物质

相关信息

赠款和资金

LinkOut-更多资源

全文源

其他文献来源