Differential expression analysis for sequence count data

doi:10.1186/gb-2010-11-10-r106

.2010;11（10）：R106。

doi:10.1186/gb-2010-11-10-r106。 Epub 2010年10月27日。

序列计数数据的差异表达分析

西蒙·安德斯¹, 弗冈·胡贝尔

附属公司

PMID： 20979621
PMCID公司：项目经理3218662
内政部： 10.1186/gb-2010-11-10-r106

序列计数数据的差异表达分析

西蒙·安德斯等。基因组生物学. 2010.

.2010;11（10）：R106。

doi:10.1186/gb-2010-11-10-r106。 Epub 2010年10月27日。

作者

西蒙·安德斯¹, 弗冈·胡贝尔

附属

¹欧洲分子生物学实验室，Mayerhofstraße 1，69117 Heidelberg，Germany。桑德斯@fs.tum.de

PMID： 20979621
预防性维修识别码：项目经理3218662
内政部： 10.1186/gb-2010-11-10-r106

摘要

高通量测序分析，如RNA-Seq、ChIP-Seq或条形码计数，以计数数据的形式提供定量读数。为了正确推断此类数据中的差分信号并具有良好的统计能力，需要估计整个动态范围内的数据可变性和合适的误差模型。我们提出了一种基于负二项分布的方法，通过局部回归将方差和均值联系起来，并将DESeq实现为R/Bioconductor包。

PubMed免责声明

数字

图1
**方差对条件均值的依赖性A类空中RNA-Seq数据**（a）散点图显示了根据通用尺度平均值绘制的通用尺度样本方差（方程（7））（方程（6））。橙色线条最适合w个(q个). 紫色线表示两个样本中每个样本的泊松分布隐含的方差，即：， ${\hat{秒}}_{j个} {\hat{q个}}_{我, A类}$ 。橙色虚线是使用的方差估计值*边缘R*.（b）与（a）中的数据相同年-轴重新缩放以显示平方变化系数（SCV），即所有数量除以平均值的平方。在（b）中，橙色实线包含了附加文件1补充注释C中所述的偏差校正。（该图仅显示范围[0,0.2]内的SCV值。有关全范围的缩小，请参阅附加文件1中的补充图S9。）

图2
**I类错误控制**面板显示了以下方面的经验累积分布函数（ECDF）*P（P）*一个复制条件的比较值A类将飞行RNA-Seq数据与另一个数据进行比较。没有真正差异表达的基因，ECDF曲线（蓝色）应保持在对角线以下（灰色）。面板（a）：顶行对应于*DESeq公司*，中行到*边缘R*和底行到基于泊松的χ²测试。右栏显示所有基因的分布，左栏和中栏分别显示平均值100以下和100以上的基因的分布。面板（b）显示相同的数据，但放大到较小的范围*P（P）*值。这些图表明*边缘R*和*DESeq公司*控制类型I误差为（实际上略低于）标称速率，而泊松基χ²测试未能做到这一点。*边缘R*有少量过量*P（P）*低计数值：蓝线位于对角线上方。然而，对于高计数，该方法更为保守，从而补偿了这一超额。所有方法都显示点质量第页=1，这是由于数据的离散性，其影响在低计数时尤为明显。

图3
**测试条件之间的差异表达A类和B类：原木散点图₂比率（倍数变化）与平均值**当使用Benjamini-Hochberg多重测试调整时，检测到的红色标记基因以10%的错误发现率差异表达。图的上下边界的符号表示具有非常大或无限对数倍变化的基因。相应的火山图如附加文件2中的补充图S8所示。

图4
**动态范围内的命中分布**.通用尺度平均值的密度*q个_我*对于苍蝇数据中的所有基因（灰色线，按比例缩小七倍），以及*DESeq公司*（红线）和*边缘R*错误发现率为10%（深蓝色线：采用标签分散估计；浅蓝色线：普通分散模式）。

图5
**Kasowski等人神经细胞数据的样本聚类**. [18]. 对所有样本估计共同的方差函数，并将其用于应用方差稳定变换。热图显示了欧几里德距离矩阵的假彩色表示（从零距离的深蓝色到大距离的橙色），而树状图表示层次聚类*全球导航系统*样本来自同一患者（标记为“（*）”），显示出最高程度的相似性。另外两个*全球导航系统*样品（包括一个带有非典型大细胞的样品，标记为“（L）”）与前者的差异与两者的差异一样大*NS公司*样品。

图6
**应用于ChIP-Seq数据**。所示为的ECDF曲线*P（P）*由同一个体的重复之间（第一列和第二列）和两个不同个体之间（第三列和第四列）的Pol II ChIP-Seq数据的比较产生的值。上面一行对应于分析*DESeq公司*（“D”），下一行基于泊松GLM（“P”）。如果不存在真正的差异占领（即在比较复制品时），ECDF（蓝色）应保持在对角线（灰色）以下，这对应于均匀*P（P）*值。在第一列中，HapMap个体GM12878的两个重复(*A1类*)与同一个体的另外两个重复进行比较(*A2类*). 类似地，在第二列中，单个GM12891的两个副本(*地下一层*)与同一个体的另外两个重复进行比较(*地下二层*). 对于*DESeq公司*，无过量低*P（P）*在比较复制品时，如预期的那样看到了值。相比之下，泊松GLM分析产生了小*P（P）*价值观；这是数据过度分散的反映，也就是说，数据中的方差大于泊松GLM假设的值（另请参见第节*分销的选择*). 第三列比较单个GM12878的两个重复(*A1类*)对抗另一个人的两个(*地下一层*). 预计存在真正的职业差异，这两种方法都会导致小P值的增加。第四列显示了GM12878的四个复制品的比较(*A1类*与*A2类*)对照四个GM12891复制品(*地下一层*,*地下二层*); 增加样本量会导致更高的检测能力，因此更小*P（P）*值。

图7
**Nagalakshmi数据的噪声估计等**. [1]. 数据允许评估技术变异性（来自同一酵母培养液等分样品的库制剂之间）和生物变异性（两个独立生长的培养液之间）。蓝色曲线描述了普通比例尺下的平方变异系数，*w个_ρ*(q个)/q个²（见方程式（9）），对于技术复制，生物复制的红色曲线（实线，*数据传输*数据集，虚线，右侧数据集）。数据密度由顶部面板中的直方图显示。紫色区域标记数据集中大小因子范围的散粒噪声范围。可以看出，技术复制之间的噪声严格遵循散粒噪声限值，而生物复制之间的噪音已经超过了低计数值的散粒噪声。

请参阅PMC中的此图像和版权信息

类似文章

使用BioWardrobe分析ChIP-Seq和RNA-Seq数据。
Vallabh S、Kartashov AV、Barski A。 Vallabh S等人。方法分子生物学。2018;1783:343-360. doi:10.1007/9781-4939-7834-2_17。方法分子生物学。2018 PMID：29767371 免费PMC文章。
聚酯：具有差异转录表达的模拟RNA-seq数据集。
Frazee AC、Jaffe AE、Langmead B、Leek JT。 Frazee AC等人。生物信息学。2015年9月1日；31(17):2778-84. doi:10.1093/bioinformatics/btv272。Epub 2015年4月28日。生物信息学。2015 PMID：25926345 免费PMC文章。
一个灵活的计数数据模型，以适应广泛重复的RNA-seq实验产生的广泛多样性表达谱。
Esnaola M、Puig P、Gonzalez D、Castelo R、Gonsalez JR。 Esnaola M等人。 BMC生物信息学。2013年8月21日；14:254. doi:10.1186/1471-2105-14-254。 BMC生物信息学。2013 PMID：23965047 免费PMC文章。
RNA-seq阅读差异表达分析：概述、分类和工具。
Chowdhury HA，Bhattacharyya DK，Kalita JK。 Chowdhury HA等人。 IEEE/ACM Trans-Comput生物信息。2020年3月至4月；17(2):566-586. doi:10.1109/TCBB.2018.2873010。Epub 2018年10月1日。 IEEE/ACM Trans-Comput生物信息。2020 PMID：30281477 审查。
单细胞RNA-Seq数据分析的归一化。
巴赫·R·。巴赫·R·。方法分子生物学。2019;1935:11-23. doi:10.1007/978-1-4939-9057-32。方法分子生物学。2019 PMID：30758817 审查。

查看所有类似文章

引用人

紫绀型先天性心脏病婴儿代谢适应的性别差异。
芬德利TO、巴利AC、赵KS、赵Z、石C、马哈詹G、科诺AF、萨拉查J、麦卡洛L。芬德利·TO等人。《儿科研究》2024年6月5日。doi:10.1038/s41390-024-03291-4。打印前在线。《2024年儿科研究》。 PMID：38839995
施用有机肥促进土壤氮循环和植物淀粉、蔗糖代谢，提高半夏产量。
Wei L，Li J，Qu K，Chen H，Wang M，Xia S，Cai H，Long XE，Miao Y，Liu D。 Wei L等人。科学报告2024年6月3日；14(1):12722. doi:10.1038/s41598-024-63564-0。科学报告2024。 PMID：38830940 免费PMC文章。
高海拔地区长期居民等位基因特异性表达的研究。
何C，朱斌，高伟，吴强，张C。 He C等人。进化生物信息在线。2024年5月30日；20:11769343241257344。doi:10.1177/11769343241257344。eCollection 2024年。进化生物信息在线。2024 PMID：38826865 免费PMC文章。
转录因子优先排序的基准工具。
桑塔纳LS、雷耶斯A、霍尔施S、费雷罗E、科尔特C、高利斯S、斯坦豪泽S。桑塔纳LS等人。《计算结构生物技术杂志》2024年5月11日；23:2190-2199. doi:10.1016/j.csbj.2024.05.016。eCollection 2024年12月。计算结构生物技术杂志2024。 PMID：38817966 免费PMC文章。
maedi-visna病毒感染肺组织的差异基因表达和免疫细胞浸润。
石X、张毅、陈S、杜X、张P、段X、方H、刘S。施X等。 BMC基因组学。2024年5月30日；25(1):534. doi:10.1186/s12864-024-10448-2。 BMC基因组学。2024 PMID：38816794 免费PMC文章。

查看所有“被引用”文章

工具书类

1. Nagalakshmi U，Wang Z，Waern K，Shou C，Raha D，Gerstein M，Snyder M。通过RNA测序确定的酵母基因组转录图谱。科学。2008;320:1344–1349. doi:10.1126/science.1158441。-内政部-项目管理委员会-公共医学
1. Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628. doi:10.1038/nmeth.1226。-内政部-公共医学
1. Robertson G、Hirst M、Bainbridge M、Bilenky M、Zhao Y、Zeng T、Eukilchen G、Bernier B、Varhol R、Delaney A、Thiessen N、Griffith OL、He A、Marra M、Snyder M、Jones S.使用染色质免疫沉淀和大规模平行测序对STAT1 DNA关联的全基因组图谱进行分析。自然方法。2007;4:651–657. doi:10.1038/nmeth1068。-内政部-公共医学
1. Licatalosi DD、Mele A、Fak JJ、Ule J、Kayikci M、Chi SW、Clark TA、Schweitzer AC、Blume JE、Wang X、Darnell JC、Darnill RB。HITS-CLIP产生了对大脑替代RNA处理的全基因组见解。自然。2008;456:464–469. doi:10.1038/nature07488。-内政部-项目管理委员会-公共医学
1. Smith AM、Heisler LE、Mellor J、Kaper F、Thompson MJ、Chee M、Roth FP、Giaever G、Nislow C.通过深度条形码测序进行定量表型分析。基因组研究2009；19:1836–1842. doi:10.1101/gr.093955.109。-内政部-项目管理委员会-公共医学

出版物类型

行动

MeSH术语

行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动
行动

LinkOut-更多资源

[1] Nagalakshmi U，Wang Z，Waern K，Shou C，Raha D，Gerstein M，Snyder M。通过RNA测序确定的酵母基因组转录图谱。科学。2008;320:1344–1349. doi:10.1126/science.1158441。-内政部-项目管理委员会-公共医学

[2] Nagalakshmi U，Wang Z，Waern K，Shou C，Raha D，Gerstein M，Snyder M。通过RNA测序确定的酵母基因组转录图谱。科学。2008;320:1344–1349. doi:10.1126/science.1158441。-内政部-项目管理委员会-公共医学

[3] Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628. doi:10.1038/nmeth.1226。-内政部-公共医学

[4] Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628. doi:10.1038/nmeth.1226。-内政部-公共医学

[5] Robertson G、Hirst M、Bainbridge M、Bilenky M、Zhao Y、Zeng T、Eukilchen G、Bernier B、Varhol R、Delaney A、Thiessen N、Griffith OL、He A、Marra M、Snyder M、Jones S.使用染色质免疫沉淀和大规模平行测序对STAT1 DNA关联的全基因组图谱进行分析。自然方法。2007;4:651–657. doi:10.1038/nmeth1068。-内政部-公共医学

[6] Robertson G、Hirst M、Bainbridge M、Bilenky M、Zhao Y、Zeng T、Eukilchen G、Bernier B、Varhol R、Delaney A、Thiessen N、Griffith OL、He A、Marra M、Snyder M、Jones S.使用染色质免疫沉淀和大规模平行测序对STAT1 DNA关联的全基因组图谱进行分析。自然方法。2007;4:651–657. doi:10.1038/nmeth1068。-内政部-公共医学

[7] Licatalosi DD、Mele A、Fak JJ、Ule J、Kayikci M、Chi SW、Clark TA、Schweitzer AC、Blume JE、Wang X、Darnell JC、Darnill RB。HITS-CLIP产生了对大脑替代RNA处理的全基因组见解。自然。2008;456:464–469. doi:10.1038/nature07488。-内政部-项目管理委员会-公共医学

[8] Licatalosi DD、Mele A、Fak JJ、Ule J、Kayikci M、Chi SW、Clark TA、Schweitzer AC、Blume JE、Wang X、Darnell JC、Darnill RB。HITS-CLIP产生了对大脑替代RNA处理的全基因组见解。自然。2008;456:464–469. doi:10.1038/nature07488。-内政部-项目管理委员会-公共医学

[9] Smith AM、Heisler LE、Mellor J、Kaper F、Thompson MJ、Chee M、Roth FP、Giaever G、Nislow C.通过深度条形码测序进行定量表型分析。基因组研究2009；19:1836–1842. doi:10.1101/gr.093955.109。-内政部-项目管理委员会-公共医学

[10] Smith AM、Heisler LE、Mellor J、Kaper F、Thompson MJ、Chee M、Roth FP、Giaever G、Nislow C.通过深度条形码测序进行定量表型分析。基因组研究2009；19:1836–1842. doi:10.1101/gr.093955.109。-内政部-项目管理委员会-公共医学

将引文保存到文件

电子邮件引文

添加到集合

添加到我的书目

您保存的搜索

为外部引文管理软件创建文件

您的RSS源

序列计数数据的差异表达分析

附属

序列计数数据的差异表达分析

作者

附属

摘要

数字

类似文章

引用人

工具书类

出版物类型

MeSH术语

LinkOut-更多资源

全文源

其他文献来源

分子生物学数据库

摘要

数字

类似文章

引用人

工具书类

出版物类型

MeSH术语

相关信息

LinkOut-更多资源

全文源

其他文献来源

分子生物学数据库