跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https公司

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2010;11(10):R106。
doi:10.1186/gb-2010-11-10-r106。 Epub 2010年10月27日。

序列计数数据的差异表达分析

附属公司

序列计数数据的差异表达分析

西蒙·安德斯等。 基因组生物学. 2010.

摘要

高通量测序分析,如RNA-Seq、ChIP-Seq或条形码计数,以计数数据的形式提供定量读数。为了正确推断此类数据中的差分信号并具有良好的统计能力,需要估计整个动态范围内的数据可变性和合适的误差模型。我们提出了一种基于负二项分布的方法,通过局部回归将方差和均值联系起来,并将DESeq实现为R/Bioconductor包。

PubMed免责声明

数字

图1
图1
方差对条件均值的依赖性A类空中RNA-Seq数据(a)散点图显示了根据通用尺度平均值绘制的通用尺度样本方差(方程(7))(方程(6))。橙色线条最适合w个(q个). 紫色线表示两个样本中每个样本的泊松分布隐含的方差,即:,^j个q个^,A类。橙色虚线是使用的方差估计值边缘R.(b)与(a)中的数据相同-轴重新缩放以显示平方变化系数(SCV),即所有数量除以平均值的平方。在(b)中,橙色实线包含了附加文件1补充注释C中所述的偏差校正。(该图仅显示范围[0,0.2]内的SCV值。有关全范围的缩小,请参阅附加文件1中的补充图S9。)
图2
图2
I类错误控制面板显示了以下方面的经验累积分布函数(ECDF)P(P)一个复制条件的比较值A类将飞行RNA-Seq数据与另一个数据进行比较。没有真正差异表达的基因,ECDF曲线(蓝色)应保持在对角线以下(灰色)。面板(a):顶行对应于DESeq公司,中行到边缘R和底行到基于泊松的χ2测试。右栏显示所有基因的分布,左栏和中栏分别显示平均值100以下和100以上的基因的分布。面板(b)显示相同的数据,但放大到较小的范围P(P)值。这些图表明边缘RDESeq公司控制类型I误差为(实际上略低于)标称速率,而泊松基χ2测试未能做到这一点。边缘R有少量过量P(P)低计数值:蓝线位于对角线上方。然而,对于高计数,该方法更为保守,从而补偿了这一超额。所有方法都显示点质量第页=1,这是由于数据的离散性,其影响在低计数时尤为明显。
图3
图3
测试条件之间的差异表达A类B类:原木散点图2比率(倍数变化)与平均值当使用Benjamini-Hochberg多重测试调整时,检测到的红色标记基因以10%的错误发现率差异表达。图的上下边界的符号表示具有非常大或无限对数倍变化的基因。相应的火山图如附加文件2中的补充图S8所示。
图4
图4
动态范围内的命中分布.通用尺度平均值的密度q个对于苍蝇数据中的所有基因(灰色线,按比例缩小七倍),以及DESeq公司(红线)和边缘R错误发现率为10%(深蓝色线:采用标签分散估计;浅蓝色线:普通分散模式)。
图5
图5
Kasowski等人神经细胞数据的样本聚类. [18]. 对所有样本估计共同的方差函数,并将其用于应用方差稳定变换。热图显示了欧几里德距离矩阵的假彩色表示(从零距离的深蓝色到大距离的橙色),而树状图表示层次聚类全球导航系统样本来自同一患者(标记为“(*)”),显示出最高程度的相似性。另外两个全球导航系统样品(包括一个带有非典型大细胞的样品,标记为“(L)”)与前者的差异与两者的差异一样大NS公司样品。
图6
图6
应用于ChIP-Seq数据。所示为的ECDF曲线P(P)由同一个体的重复之间(第一列和第二列)和两个不同个体之间(第三列和第四列)的Pol II ChIP-Seq数据的比较产生的值。上面一行对应于分析DESeq公司(“D”),下一行基于泊松GLM(“P”)。如果不存在真正的差异占领(即在比较复制品时),ECDF(蓝色)应保持在对角线(灰色)以下,这对应于均匀P(P)值。在第一列中,HapMap个体GM12878的两个重复(A1类)与同一个体的另外两个重复进行比较(A2类). 类似地,在第二列中,单个GM12891的两个副本(地下一层)与同一个体的另外两个重复进行比较(地下二层). 对于DESeq公司,无过量低P(P)在比较复制品时,如预期的那样看到了值。相比之下,泊松GLM分析产生了小P(P)价值观;这是数据过度分散的反映,也就是说,数据中的方差大于泊松GLM假设的值(另请参见第节分销的选择). 第三列比较单个GM12878的两个重复(A1类)对抗另一个人的两个(地下一层). 预计存在真正的职业差异,这两种方法都会导致小P值的增加。第四列显示了GM12878的四个复制品的比较(A1类A2类)对照四个GM12891复制品(地下一层,地下二层); 增加样本量会导致更高的检测能力,因此更小P(P)值。
图7
图7
Nagalakshmi数据的噪声估计. [1]. 数据允许评估技术变异性(来自同一酵母培养液等分样品的库制剂之间)和生物变异性(两个独立生长的培养液之间)。蓝色曲线描述了普通比例尺下的平方变异系数,w个ρ(q个)/q个2(见方程式(9)),对于技术复制,生物复制的红色曲线(实线,数据传输数据集,虚线,右侧数据集)。数据密度由顶部面板中的直方图显示。紫色区域标记数据集中大小因子范围的散粒噪声范围。可以看出,技术复制之间的噪声严格遵循散粒噪声限值,而生物复制之间的噪音已经超过了低计数值的散粒噪声。

类似文章

引用人

工具书类

    1. Nagalakshmi U,Wang Z,Waern K,Shou C,Raha D,Gerstein M,Snyder M。通过RNA测序确定的酵母基因组转录图谱。科学。2008;320:1344–1349. doi:10.1126/science.1158441。-内政部-项目管理委员会-公共医学
    1. Mortazavi A、Williams BA、McCue K、Schaeffer L、Wold B.通过RNA-Seq对哺乳动物转录体进行定位和量化。自然方法。2008;5:621–628. doi:10.1038/nmeth.1226。-内政部-公共医学
    1. Robertson G、Hirst M、Bainbridge M、Bilenky M、Zhao Y、Zeng T、Eukilchen G、Bernier B、Varhol R、Delaney A、Thiessen N、Griffith OL、He A、Marra M、Snyder M、Jones S.使用染色质免疫沉淀和大规模平行测序对STAT1 DNA关联的全基因组图谱进行分析。自然方法。2007;4:651–657. doi:10.1038/nmeth1068。-内政部-公共医学
    1. Licatalosi DD、Mele A、Fak JJ、Ule J、Kayikci M、Chi SW、Clark TA、Schweitzer AC、Blume JE、Wang X、Darnell JC、Darnill RB。HITS-CLIP产生了对大脑替代RNA处理的全基因组见解。自然。2008;456:464–469. doi:10.1038/nature07488。-内政部-项目管理委员会-公共医学
    1. Smith AM、Heisler LE、Mellor J、Kaper F、Thompson MJ、Chee M、Roth FP、Giaever G、Nislow C.通过深度条形码测序进行定量表型分析。基因组研究2009;19:1836–1842. doi:10.1101/gr.093955.109。-内政部-项目管理委员会-公共医学

出版物类型