摘要: 编码器是一个R(右)差异表达分析方法的基准测试包,特别是用于分析RNA-seq数据的方法。该软件包提供了模拟真实RNA-seq计数数据集的功能、几种最常用的差异表达分析方法的接口以及评估和比较真实和模拟数据上不同方法的广泛功能。

可用性和实施: 编码器可从以下位置获得http://www.bioconductor.org/packages/release/bioc/html/compcodeR.html

联系人: 夏洛特·索内森@isb-sib.chcharlottesoneson@gmail.com

1简介

利用RNA-seq进行转录组分析研究,目的是发现不同条件下差异表达(DE)的基因,这在当前的科学文献中是丰富的,随着下一代测序技术变得更便宜、更容易获得,预计这一研究将更加丰富。RNA-seq实验产生了数以百万计的短读,这些短读与一个参考序列对齐,以产生一个基因集合或其他特征表达水平的定量测量。通常,处理的数据表示为计数矩阵,它构成许多微分表达式方法的输入。

在过去几年中,提出了许多适用于从RNA-seq实验中获得的计数矩阵的新型差分表达方法(例如,Anders和Huber,2010年;Hardcastle和Kelly,2010年;罗宾逊等。, 2010;塔拉索纳等。, 2011). 在这一点上,这些方法的用户和开发人员都将从新方法和现有方法的客观和标准化基准测试和特征描述中受益匪浅。已经发表了一些比较研究(例如。罗伯斯等。, 2012;Soneson和Delorenzi,2013年). 然而,新方法和更新方法的提出速度很快,用户的目标也各不相同,因此需要一种工具,以便以标准化的方式评估和比较来自多个不同方面的方法集合。在本应用说明中,我们提供了这样一个工具。编码器(基于COunt的差分表达式分析方法与R的比较)是一个基准R(右)软件包,通过几个步骤,用户可以使用与Soneson和Delorenzi(2013)。随附的是大量模拟和实际基准测试数据集,以及20多种不同方法获得的差分表达式结果(可从http://bcf.isb-sib.ch/data/compcodeR). 确切地说R(右)其中包括用于运行每个差异表达式分析的代码,可以重新运行以再现结果。总之,该软件包为用户提供了一个教学界面,以理解和比较差异表达方法,并为开发人员提供了一个可访问的工具,用于新开发方法的标准化基准测试。

2示例

本节概述了编码器首先,该软件包包含一个生成合成RNA-seq计数矩阵的函数,使用的方法如下所述罗伯斯等。(2012年)Soneson和Delorenzi(2013)用户定义数据集的属性,例如基因和样本的数量、真正的DE基因的比例及其效应大小分布、控制包括异常值计数和滤波器阈值的几个参数。下面的代码模拟了一个数据集,该数据集由两种情况下的五个样本和12500个基因的负二项分布数据组成,其中10%是真正的DE。

图解的

该代码生成类的对象compData公司,保存到名为mydata_5spc.rds。通过使用重新运行数据模拟回复id设置为不同的值时,可以为给定的模拟设置生成多个重复数据集,这可以使方法比较更加健壮和信息丰富。

其次,该软件包为RNA-seq数据差异表达分析的几种最常用方法提供了接口。其目的不是覆盖所有可用方法或利用其所有可能性,用户可以轻松地包含新方法。下面的代码应用了edgeR中实现的差异表达式测试(罗宾逊等。, 2010)并保存一个新的compData公司对象还包含测试结果。微分表达式方法列表编码器提供了可以使用函数获取的接口列表创建Cmd. The运行DiffExp函数自动包含执行的代码以及R(右)结果对象中的控制台。代码可以通过生成代码HTML功能。

图解的

该包的第三个支柱是用于比较通过不同方法获得的差分表达式结果的大量度量。许多指标都是通用的,也可以应用于其他类型数据的测试结果,例如微阵列。一些,例如通过不同方法发现的DE基因集之间的重叠,与基因的真正差异表达状态无关,因此可以应用于任何数据集。其他方法,如不同方法观察到的错误发现率的比较,仅在每个基因的真正差异表达状态已知时才适用。这15个比较指标在软件包vignette中有更详细的描述。下面的代码启动比较。

图解的

功能运行比较GUI扫描提供的输入目录以查找结果对象,并打开图形用户界面(GUI),用户可以在其中选择要进行比较的数据集、要比较的方法以及要使用的比较指标。为了便于包含在自动分析管道中,可以绕过GUI,并且可以使用函数直接执行比较运行比较。比较结果将写入保存在指定输出目录中的HTML报告。图1显示了此类报告中五个示例图的摘录。
图1。

摘自compcodeR在四种差异表达方法的表征和比较中生成的五个示例图。比较基于四种方法的结果,这四种方法应用于两种样本大小(每个条件三个和五个样本)的10个合成数据集副本。()错误发现曲线,描述了在逐一查看按重要性排序的基因列表时遇到的错误阳性数。(b条)基因得分的分布(在这种情况下,定义为1减去标称值P(P)-值),作为模拟中引入的异常值计数的函数。(c(c))观察到的错误发现率是装箱平均表达水平的函数。(d日)MA图,描述了相对于平均表达水平的对数倍变化,显著的DE基因用颜色标记。(e(电子))在每种方法中,称为显著DE的基因部分。每个箱线图总结了所有10个数据集复制的结果

确认

作者要感谢毛罗·德罗伦齐、萨拉·格斯特、埃多瓦多·米西亚利亚和乔瓦尼·达里奥的宝贵意见。

利益冲突:未声明。

参考文献

安德斯
 
S公司
 
胡贝尔
 
W公司
 
序列计数数据的差异表达分析
 
基因组生物学。
 
2010
 
11
 
106兰特

哈德卡斯尔
 
TJ公司
 
凯莉
 
灵魂
 
baySeq:识别序列计数数据中差异表达的经验贝叶斯方法
 
BMC生物信息学
 
2010
 
11
 
422

罗宾逊
 
医学博士
 
edgeR:用于数字基因表达数据差异表达分析的Bioconductor软件包
 
生物信息学
 
2010
 
26
 
139
 
140

罗伯斯
 
青年成就组织
 
利用RNA测序检测差异表达的有效实验设计和分析策略
 
BMC基因组学
 
2012
 
13
 
484

索内松
 
C类
 
Delorenzi公司
 
M(M)
 
RNA-seq数据差异表达分析方法的比较
 
BMC生物信息学
 
2013
 
14
 
91

塔拉索纳
 
S公司
 
RNA-seq的差异表达:深度问题
 
基因组研究。
 
2011
 
21
 
2213
 
2223

作者注释

副主编:Ivo Hofacker