副主编:Ivo Hofacker
Charlotte Soneson,compcodeR-RNA-seq数据差异表达方法基准测试的R包,生物信息学,第30卷,第17期,2014年9月,第2517–2518页,https://doi.org/10.1093/bioinformatics/btu324
摘要: 编码器是一个R(右)差异表达分析方法的基准测试包,特别是用于分析RNA-seq数据的方法。该软件包提供了模拟真实RNA-seq计数数据集的功能、几种最常用的差异表达分析方法的接口以及评估和比较真实和模拟数据上不同方法的广泛功能。
可用性和实施: 编码器可从以下位置获得http://www.bioconductor.org/packages/release/bioc/html/compcodeR.html
联系人: 夏洛特·索内森@isb-sib.ch或charlottesoneson@gmail.com
利用RNA-seq进行转录组分析研究,目的是发现不同条件下差异表达(DE)的基因,这在当前的科学文献中是丰富的,随着下一代测序技术变得更便宜、更容易获得,预计这一研究将更加丰富。RNA-seq实验产生了数以百万计的短读,这些短读与一个参考序列对齐,以产生一个基因集合或其他特征表达水平的定量测量。通常,处理的数据表示为计数矩阵,它构成许多微分表达式方法的输入。
在过去几年中,提出了许多适用于从RNA-seq实验中获得的计数矩阵的新型差分表达方法(例如,Anders和Huber,2010年;Hardcastle和Kelly,2010年;罗宾逊等。, 2010;塔拉索纳等。, 2011). 在这一点上,这些方法的用户和开发人员都将从新方法和现有方法的客观和标准化基准测试和特征描述中受益匪浅。已经发表了一些比较研究(例如。罗伯斯等。, 2012;Soneson和Delorenzi,2013年). 然而,新方法和更新方法的提出速度很快,用户的目标也各不相同,因此需要一种工具,以便以标准化的方式评估和比较来自多个不同方面的方法集合。在本应用说明中,我们提供了这样一个工具。编码器(基于COunt的差分表达式分析方法与R的比较)是一个基准R(右)软件包,通过几个步骤,用户可以使用与Soneson和Delorenzi(2013)。随附的是大量模拟和实际基准测试数据集,以及20多种不同方法获得的差分表达式结果(可从http://bcf.isb-sib.ch/data/compcodeR). 确切地说R(右)其中包括用于运行每个差异表达式分析的代码,可以重新运行以再现结果。总之,该软件包为用户提供了一个教学界面,以理解和比较差异表达方法,并为开发人员提供了一个可访问的工具,用于新开发方法的标准化基准测试。
本节概述了编码器首先,该软件包包含一个生成合成RNA-seq计数矩阵的函数,使用的方法如下所述罗伯斯等。(2012年)和Soneson和Delorenzi(2013)用户定义数据集的属性,例如基因和样本的数量、真正的DE基因的比例及其效应大小分布、控制包括异常值计数和滤波器阈值的几个参数。下面的代码模拟了一个数据集,该数据集由两种情况下的五个样本和12500个基因的负二项分布数据组成,其中10%是真正的DE。
该代码生成类的对象compData公司,保存到名为mydata_5spc.rds。通过使用重新运行数据模拟回复id设置为不同的值时,可以为给定的模拟设置生成多个重复数据集,这可以使方法比较更加健壮和信息丰富。
其次,该软件包为RNA-seq数据差异表达分析的几种最常用方法提供了接口。其目的不是覆盖所有可用方法或利用其所有可能性,用户可以轻松地包含新方法。下面的代码应用了edgeR中实现的差异表达式测试(罗宾逊等。, 2010)并保存一个新的compData公司对象还包含测试结果。微分表达式方法列表编码器提供了可以使用函数获取的接口列表创建Cmd. The运行DiffExp函数自动包含执行的代码以及R(右)结果对象中的控制台。代码可以通过生成代码HTML功能。
该包的第三个支柱是用于比较通过不同方法获得的差分表达式结果的大量度量。许多指标都是通用的,也可以应用于其他类型数据的测试结果,例如微阵列。一些,例如通过不同方法发现的DE基因集之间的重叠,与基因的真正差异表达状态无关,因此可以应用于任何数据集。其他方法,如不同方法观察到的错误发现率的比较,仅在每个基因的真正差异表达状态已知时才适用。这15个比较指标在软件包vignette中有更详细的描述。下面的代码启动比较。
摘自compcodeR在四种差异表达方法的表征和比较中生成的五个示例图。比较基于四种方法的结果,这四种方法应用于两种样本大小(每个条件三个和五个样本)的10个合成数据集副本。(一)错误发现曲线,描述了在逐一查看按重要性排序的基因列表时遇到的错误阳性数。(b条)基因得分的分布(在这种情况下,定义为1减去标称值P(P)-值),作为模拟中引入的异常值计数的函数。(c(c))观察到的错误发现率是装箱平均表达水平的函数。(d日)MA图,描述了相对于平均表达水平的对数倍变化,显著的DE基因用颜色标记。(e(电子))在每种方法中,称为显著DE的基因部分。每个箱线图总结了所有10个数据集复制的结果
作者要感谢毛罗·德罗伦齐、萨拉·格斯特、埃多瓦多·米西亚利亚和乔瓦尼·达里奥的宝贵意见。
利益冲突:未声明。
安德斯 S公司 胡贝尔 W公司
谷歌学者
书目数据库
哈德卡斯尔 TJ公司 凯莉 灵魂
罗宾逊 医学博士 等
罗伯斯 青年成就组织 等
索内松 C类 Delorenzi公司 M(M)
塔拉索纳 S公司 等
登录或创建帐户
此PDF仅供订阅者使用
要完全访问此pdf,请登录现有帐户或购买年度订阅。