compcodeR—an R package for benchmarking differential expression methods for RNA-seq data

Soneson, Charlotte

doi:10.1093/bioinformatics/btu324

摘要： 编码器是一个R（右）差异表达分析方法的基准测试包，特别是用于分析RNA-seq数据的方法。该软件包提供了模拟真实RNA-seq计数数据集的功能、几种最常用的差异表达分析方法的接口以及评估和比较真实和模拟数据上不同方法的广泛功能。

可用性和实施： 编码器可从以下位置获得http://www.bioconductor.org/packages/release/bioc/html/compcodeR.html

联系人： 夏洛特·索内森@isb-sib.ch或charlottesoneson@gmail.com

1简介

利用RNA-seq进行转录组分析研究，目的是发现不同条件下差异表达（DE）的基因，这在当前的科学文献中是丰富的，随着下一代测序技术变得更便宜、更容易获得，预计这一研究将更加丰富。RNA-seq实验产生了数以百万计的短读，这些短读与一个参考序列对齐，以产生一个基因集合或其他特征表达水平的定量测量。通常，处理的数据表示为计数矩阵，它构成许多微分表达式方法的输入。

在过去几年中，提出了许多适用于从RNA-seq实验中获得的计数矩阵的新型差分表达方法（例如，Anders和Huber，2010年;Hardcastle和Kelly，2010年;罗宾逊等。, 2010;塔拉索纳等。, 2011). 在这一点上，这些方法的用户和开发人员都将从新方法和现有方法的客观和标准化基准测试和特征描述中受益匪浅。已经发表了一些比较研究（例如。罗伯斯等。, 2012;Soneson和Delorenzi，2013年). 然而，新方法和更新方法的提出速度很快，用户的目标也各不相同，因此需要一种工具，以便以标准化的方式评估和比较来自多个不同方面的方法集合。在本应用说明中，我们提供了这样一个工具。编码器（基于COunt的差分表达式分析方法与R的比较）是一个基准R（右）软件包，通过几个步骤，用户可以使用与Soneson和Delorenzi（2013）。随附的是大量模拟和实际基准测试数据集，以及20多种不同方法获得的差分表达式结果（可从http://bcf.isb-sib.ch/data/compcodeR). 确切地说R（右）其中包括用于运行每个差异表达式分析的代码，可以重新运行以再现结果。总之，该软件包为用户提供了一个教学界面，以理解和比较差异表达方法，并为开发人员提供了一个可访问的工具，用于新开发方法的标准化基准测试。

2示例

本节概述了编码器首先，该软件包包含一个生成合成RNA-seq计数矩阵的函数，使用的方法如下所述罗伯斯等。（2012年）和Soneson和Delorenzi（2013）用户定义数据集的属性，例如基因和样本的数量、真正的DE基因的比例及其效应大小分布、控制包括异常值计数和滤波器阈值的几个参数。下面的代码模拟了一个数据集，该数据集由两种情况下的五个样本和12500个基因的负二项分布数据组成，其中10%是真正的DE。

该代码生成类的对象compData公司，保存到名为mydata_5spc.rds。通过使用重新运行数据模拟回复id设置为不同的值时，可以为给定的模拟设置生成多个重复数据集，这可以使方法比较更加健壮和信息丰富。

其次，该软件包为RNA-seq数据差异表达分析的几种最常用方法提供了接口。其目的不是覆盖所有可用方法或利用其所有可能性，用户可以轻松地包含新方法。下面的代码应用了edgeR中实现的差异表达式测试(罗宾逊等。, 2010)并保存一个新的compData公司对象还包含测试结果。微分表达式方法列表编码器提供了可以使用函数获取的接口列表创建Cmd. The运行DiffExp函数自动包含执行的代码以及R（右）结果对象中的控制台。代码可以通过生成代码HTML功能。

该包的第三个支柱是用于比较通过不同方法获得的差分表达式结果的大量度量。许多指标都是通用的，也可以应用于其他类型数据的测试结果，例如微阵列。一些，例如通过不同方法发现的DE基因集之间的重叠，与基因的真正差异表达状态无关，因此可以应用于任何数据集。其他方法，如不同方法观察到的错误发现率的比较，仅在每个基因的真正差异表达状态已知时才适用。这15个比较指标在软件包vignette中有更详细的描述。下面的代码启动比较。

功能运行比较GUI扫描提供的输入目录以查找结果对象，并打开图形用户界面（GUI），用户可以在其中选择要进行比较的数据集、要比较的方法以及要使用的比较指标。为了便于包含在自动分析管道中，可以绕过GUI，并且可以使用函数直接执行比较运行比较。比较结果将写入保存在指定输出目录中的HTML报告。图1显示了此类报告中五个示例图的摘录。

图1。

摘自compcodeR在四种差异表达方法的表征和比较中生成的五个示例图。该比较基于四种方法的结果，这些方法应用于两种样本量的合成数据集的10个重复（每个条件下有三个和五个样本）。（a）错误发现曲线，描述了在逐一查看按重要性排序的基因列表时遇到的错误阳性数。（b）由一种评估方法分配的基因评分分布（在这种情况下，定义为1减去标称P值），作为模拟中引入的异常值计数数量的函数。（c）观察到的错误发现率是装箱平均表达水平的函数。（d） MA图，描述了相对于平均表达水平的对数倍变化，显著的DE基因用颜色标记。（e）在每种方法中，称为显著DE的基因部分。每个箱线图总结了所有10个数据集复制的结果

新标签中打开下载幻灯片

摘自compcodeR在四种差异表达方法的表征和比较中生成的五个示例图。比较基于四种方法的结果，这四种方法应用于两种样本大小（每个条件三个和五个样本）的10个合成数据集副本。(一)错误发现曲线，描述了在逐一查看按重要性排序的基因列表时遇到的错误阳性数。(b条)基因得分的分布（在这种情况下，定义为1减去标称值P（P）-值），作为模拟中引入的异常值计数的函数。(c（c）)观察到的错误发现率是装箱平均表达水平的函数。(d日)MA图，描述了相对于平均表达水平的对数倍变化，显著的DE基因用颜色标记。(e（电子）)在每种方法中，称为显著DE的基因部分。每个箱线图总结了所有10个数据集复制的结果

确认

作者要感谢毛罗·德罗伦齐、萨拉·格斯特、埃多瓦多·米西亚利亚和乔瓦尼·达里奥的宝贵意见。

利益冲突：未声明。

参考文献

安德斯

S公司

胡贝尔

W公司

序列计数数据的差异表达分析

基因组生物学。

2010

11

106兰特

哈德卡斯尔

TJ公司

凯莉

灵魂

baySeq：识别序列计数数据中差异表达的经验贝叶斯方法

BMC生物信息学

2010

11

422

罗宾逊

医学博士

等

edgeR：用于数字基因表达数据差异表达分析的Bioconductor软件包

生物信息学

2010

26

139

140

罗伯斯

青年成就组织

等

利用RNA测序检测差异表达的有效实验设计和分析策略

BMC基因组学

2012

13

484

索内松

C类

Delorenzi公司

M（M）

RNA-seq数据差异表达分析方法的比较

BMC生物信息学

2013

14

91

塔拉索纳

S公司

等

RNA-seq的差异表达：深度问题

基因组研究。

2011

21

2213

2223

作者注释

副主编：Ivo Hofacker

下载所有幻灯片

月份：	总浏览次数：
2017年1月	6
2017年2月	22
2017年3月	19
2017年4月	6
2017年5月	20
2017年6月	15
2017年7月	14
2017年8月	21
2017年9月	三
2017年10月	11
2017年11月	30
2017年12月	28
2018年1月	35
2018年2月	21
2018年3月	40
2018年4月	37
2018年5月	31
2018年6月	52
2018年7月	25
2018年8月	30
2018年9月	24
2018年10月	19
2018年11月	32
2018年12月	15
2019年1月	22
2019年2月	34
2019年3月	34
2019年4月	41
2019年5月	29
2019年6月	9
2019年7月	50
2019年8月	31
2019年9月	25
2019年10月	30
2019年11月	42
2019年12月	27
2020年1月	17
2020年2月	16
2020年3月	35
2020年4月	24
2020年5月	16
2020年6月	11
2020年7月	24
2020年8月	24
2020年9月	7
2020年10月	21
2020年11月	13
2020年12月	11
2021年1月	20
2021年2月	22
2021年3月	25
2021年4月	16
2021年5月	37
2021年6月	17
2021年7月	44
2021年8月	14
2021年9月	36
2021年10月	42
2021年11月	60
2021年12月	31
2022年1月	38
2022年2月	31
2022年3月	30
2022年4月	33
2022年5月	49
2022年6月	34
2022年7月	30
2022年8月	33
2022年9月	18
2022年10月	40
2022年11月	14
2022年12月	20
2023年1月	56
2023年2月	28
2023年3月	37
2023年4月	21
2023年5月	13
2023年6月	24
2023年7月	26
2023年8月	27
2023年9月	30
2023年10月	17
2023年11月	27
2023年12月	30
2024年1月	26
2024年2月	53
2024年3月	25
2024年4月	48
2024年5月	17

文章内容

compcodeR-RNA-seq数据差异表达方法基准测试的R包

1简介

2示例

确认

参考文献

作者注释

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

文章内容

compcodeR-RNA-seq数据差异表达方法基准测试的R包

1简介

2示例

确认

参考文献

作者注释

引文

意见

海拔高度

电子邮件警报

通过引用文章

最新的

阅读次数最多

被引用次数最多

寻找你的下一个机会？

此功能仅对订阅服务器可用