跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2014;15(12):550.
doi:10.1186/s13059-014-0550-8。

利用DESeq2对RNA-seq数据的折叠变化和离散度进行适度估计

利用DESeq2对RNA-seq数据的折叠变化和离散度进行适度估计

迈克尔我爱等。 基因组生物学. 2014.

摘要

在比较高通量测序分析中,一项基本任务是分析计数数据,如RNA-seq中每个基因的读取计数,以寻找实验条件下系统变化的证据。小重复数、离散性、大动态范围和离群值的存在需要合适的统计方法。我们提出了DESeq2,这是一种计数数据的差异分析方法,使用收缩率估计来估计离散和折叠变化,以提高估计的稳定性和可解释性。这使得可以进行更为定量的分析,重点放在强度上,而不仅仅是差异表达的存在。DESeq2软件包位于http://www.bioconductor.org/packages/release/bioc/html/DESeq2.html网络引用。

PubMed免责声明

数字

图1
图1
离散度的收缩率估计。平均表达强度的离散估计图(A)对于Bottomly等。[16] 数据集,包含两组中的六个样本(B)Pickrell的五个样品等。[17] 数据集,仅拟合截距项。首先,仅使用相应基因的数据(黑点)获得基因型MLE。然后,将一条曲线(红色)拟合到最大似然估计,以捕捉弥散-平均相关性的总体趋势。此拟合用作第二轮估计的先验平均值,从而得出离散度的最终MAP估计值(箭头)。这可以被理解为向红线表示的一致性收缩(沿着蓝色箭头)的噪声基因估算。用蓝色圈出的黑点被检测为分散离群值,不会收缩到之前的值(收缩将沿着虚线)。为了清楚起见,只显示了基因的一个子集,这是为离散异常值而富集的。附加文件1:图S1显示了相同的数据,但显示了所有基因的分散性。最大MAP后部; MLE,最大似然估计。
图2
图2
收缩对对数褶皱变化估计的影响。(A)MLE(即无收缩)和(B)小鼠菌株引起的LFC的MAP估计值(即收缩率)高于Bottomly的10个与11个样本比较的平均表达强度等。[16] 数据集。绘图顶部和底部的小三角形表示将落在绘图窗口之外的点。两个平均计数和MLE对数倍变化相似的基因用绿色和紫色圆圈突出显示。(C)计数(按尺寸系数标准化 j个)对于这些基因,显示绿色基因的低分散性和紫色基因的高分散性。(D)绿色和紫色基因的可能性(实线,缩放为1)和后验概率(虚线)以及前验概率(实线黑线)的密度图:由于紫色基因的分散度较高,其可能性更大,峰值较少(表示信息较少),先验对其后验的影响大于对绿色基因的影响。绿色后验曲线在其最大值处的曲率越强,则MAP LFC估计值的报告标准误差越小(水平误差条)。调整,调整;LFC,对数褶皱变化;最大MAP后部; MLE,最大似然估计。
图3
图3
对数褶皱变化的稳定性。 DESeq2公司在Bottomly数据的平分上运行等。[16] ,并且两半的LFC相互绘制。(A)MLE,即无LFC收缩。(B)MAP估算,即收缩。左上象限和右下象限中的点表示LFC符号发生变化的基因。红点表示基因已调整P(P)值<0.1。图例显示了与第二组估计值相比,第一组估计值的平方根误差。LFC,对数倍数变化;最大MAP后部; MLE,最大似然估计;RMSE,根-平方误差。
图4
图4
涉及非零阈值的假设检验。图中所示为使用Bottomly软件进行的10倍与11倍比较的估计折叠变化与平均表达强度(“减去平均值”或MA-plots)的关系图等。[16] 数据集,突出显示的点表示低调整P(P)值。另一种假设是对数(以2为基数)折叠变化为(A)绝对值大于1或(B)绝对值小于1。调整后的。
图5
图5
rlog变换后的方差稳定和聚类。对锤子的计数进行了两次变换等。[26]数据集:标准化计数的对数加上伪计数,即。(f)(K ij公司)=log2(K ij公司/ j个+1) 和rlog。转换值的基因型标准偏差在使用对数的计数平均值范围内是可变的(A),虽然使用rlog相对稳定(B).使用rlog对欧氏距离和完整链接进行层次聚类(D)转换后的数据将样本聚类为按治疗和时间定义的组,同时使用对数转换计数(C)产生更模糊的结果。sd,标准偏差。
图6
图6
样本大小和效果大小组合中算法的灵敏度和精度。 DESeq2公司边缘R在控制FDR的那些算法中,通常具有最高的灵敏度,即位于垂直黑线上或左边的那些算法。关于假阳性率而非FDR的灵敏度图,请参见附加文件1:图S8,关于灵敏度对计数平均值的依赖性,请参见额外文件1:表S9。请注意EB序列过滤低计数基因(详见正文)。
图7
图7
假阳性呼叫的基准。显示的是对P(P)(P(P)值<0.01)。FPR是P(P)小于0.01的值除以测试总数,从Pickrell的五个样本与五个样本中随机选择比较等。[17] 数据集,没有已知条件划分样本。I类错误控制要求工具基本上不超过标称值0.01(黑线)。EB序列结果不包括在该图中,因为它返回了后验概率,这与P(P)在零假设下,不期望值均匀分布。FPR,假阳性率。
图8
图8
根据实验再现性估计灵敏度。评估集(方框图)中的每个算法的灵敏度都是使用验证集中的其他算法的调用进行评估的(带有灰色标签的面板)。
图9
图9
根据实验再现性估计精度。评估集(方框图)中的每个算法的精度都是使用验证集中的其他算法的调用进行评估的(带有灰色标签的面板)。

类似文章

引用人

工具书类

    1. Lönnstedt I,Speed T.复制微阵列数据。中国统计局。2002;12:31–46.
    1. Robinson医学博士、Smyth GK。用于评估标记丰度差异的适度统计测试。生物信息学。2007;23:2881–2887. doi:10.1093/bioinformatics/btm453。-内政部-公共医学
    1. McCarthy DJ、Chen Y、Smyth GK。生物变异方面多因子RNA-seq实验的差异表达分析。核酸研究,2012;40:4288–4297. doi:10.1093/nar/gks042。-内政部-项目管理咨询公司-公共医学
    1. Anders S,Huber W.序列计数数据的差异表达分析。基因组生物学。2010;11:106. doi:10.1186/gb-2010-11-10-r106。-内政部-项目管理咨询公司-公共医学
    1. 周Y-H,夏K,赖特FA。一种强大而灵活的RNA序列计数数据分析方法。生物信息学。2011;27:2672–2678. doi:10.1093/bioinformatics/btr449。-内政部-项目管理咨询公司-公共医学

出版物类型