生物信息学。2010年1月1日;26(1): 139–140.
边缘R:用于数字基因表达数据差异表达分析的Bioconductor软件包
,1,2,*† ,2,†和2 马克·D·罗宾逊
1新南威尔士州达林赫斯特维多利亚街384号Garvan医学研究所癌症项目,2010年2澳大利亚维多利亚州帕克维尔1G皇家游行中心Walter and Eliza Hall医学研究所生物信息学部,邮编3052
戴维斯·麦卡锡
1新南威尔士州达林赫斯特维多利亚街384号Garvan医学研究所癌症项目,2010年2澳大利亚维多利亚州帕克维尔1G皇家游行中心Walter and Eliza Hall医学研究所生物信息学部,邮编3052
戈登·斯迈思
1新南威尔士州达林赫斯特维多利亚街384号Garvan医学研究所癌症项目,2010年2澳大利亚维多利亚州帕克维尔1G皇家游行中心Walter and Eliza Hall医学研究所生物信息学部,邮编3052
1新南威尔士州达林赫斯特维多利亚街384号Garvan医学研究所癌症项目,2010年2澳大利亚维多利亚州帕克维尔1G皇家游行中心Walter and Eliza Hall医学研究所生物信息学部,邮编3052
通讯作者。 *信件的收件人
†作者希望知道,在他们看来,前两位作者应被视为联合第一作者。
副主编:Joaquin Dopazo
收到日期:2009年3月29日;2009年10月19日修订;2009年10月23日接受。
摘要
总结:预计在不久的将来,新兴的数字基因表达(DGE)技术将在许多功能基因组学应用中取代微阵列技术。一项基本的数据分析任务,尤其是基因表达研究,涉及确定是否有证据表明计数对于转录本或外显子,在不同的实验条件下有显著差异。边缘R是一个用于检查重复计数数据差异表达的Bioconder软件包。过度分散的泊松模型用于解释生物和技术变异性。经验贝叶斯方法用于调节转录本之间的过度分散程度,提高推断的可靠性。只要复制至少一种表型或实验条件,即使复制水平最低,也可以使用该方法。除测序数据外,该软件还可能具有其他应用,如蛋白质组肽计数数据。
可利用性:根据LGPL许可证,该包装可从Bioconductor网站免费获得(http://bioconductor.org).
联系人: ua.ude.ihew@nosniborm公司
1简介
现代分子生物学数据对用于检测差异表达的统计方法提出了重大挑战,例如需要多个测试程序,以及越来越多的经验贝叶斯或类似方法,这些方法在所有观测中共享信息以改进推断。对于微阵列,特定转录物的丰度被测量为荧光强度,这实际上是一个连续的响应,而对于数字基因表达(DGE)数据,丰度被观察为计数。因此,微阵列数据成功的程序并不直接适用于DGE数据。
本说明描述了软件包边缘R(DGE的实证分析R(右))构成生物导体项目的一部分(绅士等。,2004).边缘R用于分析复制的基于计数的表达数据,是Robinson和Smyth开发的方法学的实现(2007,2008). 虽然最初开发用于基因表达的系列分析(SAGE),但该方法和软件应同样适用于RNA-seq(Li等。,2008; 马里奥尼等。,2008)产生数字表达数据。边缘R在其他产生计数的实验中也可能有用,例如ChIP-seq,在蛋白质组学实验中,光谱计数用于总结肽丰度(Wong等。,2008)或在数了几个物种的条形码实验中(安德森等。,2008). 当至少一个组具有重复测量时,该软件用于查找两个或多个组之间的变化。
2型号
生物信息学研究人员从微阵列数据的分析中学到了很多东西。例如,通过在所有探针之间共享信息,可以提高检测差异表达的能力,减少错误发现。其中一个程序是利马(史密斯,2004),其中使用经验贝叶斯模型来调节探索性方差。缓和方差替换t吨-和F类-统计计算。在一个非常类似但数学上更复杂的过程中,边缘R模型使用过度分散的泊松模型计算数据,并使用经验贝叶斯程序来调节跨基因的过度分散程度。
我们假设数据可以总结成一个计数表,其中的行对应于基因(或标签、外显子或转录物),而列对应于样本。对于RNA-seq实验,这些可能是外显子、转录物或基因水平的计数。我们将数据建模为负二项式(NB)分布,
对于基因克和样品我.给,M(M)我是库大小(读取总数),克是分散度和第页吉是基因的相对丰度克在实验组j个到哪个样品我属于。我们使用NB参数化,其中平均值为μ吉=M(M)我第页吉方差为μ吉(1+μ吉ϕ克). 对于微分表达式分析,感兴趣的参数是第页吉.
NB分布在以下情况下减小为泊松克=0.在某些DGE应用中,技术变化可以视为泊松。一般来说,克表示样本之间生物变异的变异系数。通过这种方式,我们的模型能够将生物变异与技术变异区分开来。
边缘R以该基因(Smyth和Verbyla,1996). 使用经验贝叶斯程序将离散度缩小到一致值,有效地借用了基因之间的信息(Robinson和Smyth,2007). 最后,使用与Fisher精确测试类似的精确测试评估每个基因的差异表达,但适用于过度分散的数据(Robinson和Smyth,2008).
3特点
所需的输入边缘R是计数表和注释样本的两个矢量:库大小的矢量(即读取总数)和指定每个样本的实验组或条件的因子。
对于的用户利马,的边缘R这个包有许多类似的功能。一旦数据得到处理,离散度估计值得到缓和topTags(顶部标签)函数可用于将顶部差异表达基因(或标签或外显子等)制成表格。此外,还可以使用plotSmear公司功能,允许对DGE数据进行与微阵列数据分析相同的可视化().
DGE数据可以可视化为“MA”图(对数比率与丰度),就像微阵列数据一样,每个点代表一个基因。该图显示了DHT刺激与对照LNCaP细胞的RNA-seq基因表达,如Li等。(2008). 左侧点的涂片表示仅在一组重复样本中观察到基因,标记为“×”的点表示前500个差异表达基因。
许多功能已添加到边缘R自最初发布以来的包。最初的方法仅适用于两组比较。对估计和调节多组离散度的扩展很简单,最近已经实现。目前,差分表达式测试仅支持两两比较;用户必须指定要比较的两个组。我们目前正在调查更多普通病例的测试。
许多早期RNA-seq数据集涉及从技术复制品(例如,相同来源的RNA)中读取序列,而不是从生物复制品中读取序列(例如,来自不同个体的RNA)。技术复制通常比生物复制具有更低的可变性,根据我们的经验边缘R)可能没有必要。对于技术复制实验,数据可以通过泊松分布很好地拟合,如Marioni所示等。(2008). 由于泊松分布是NB分布的一种特殊情况(ξ=0),边缘R可以执行基于泊松的分析。两两精确测试程序对这些数据集仍然有用。
4讨论
我们开发了生物导体包边缘R这解决了基于计数的表达数据的基本下游数据分析任务之一:确定差异表达。该软件包和方法是通用的,可以处理其他计数数据源,例如条形码实验和肽计数。据作者所知,边缘R是目前唯一用于SAGE或DGE数据的软件,当只有一个或两个重复样本时,它可以解释生物变异性。
基金:国家卫生和医学研究委员会项目(向G.K.S.拨款406657);NHMRC,独立研究机构基础设施支持计划(拨款361646);维多利亚州政府OIS拨款(授予WEHI);墨尔本国际研究奖学金(授予M.D.R.);Belz、Harris和IBS荣誉奖学金(授予D.J.M.)。
利益冲突:未声明。
参考文献
- Andersson AF等人。通过条形码焦磷酸测序对人类肠道微生物群进行比较分析。《公共科学图书馆·综合》。2008;三:e2836。 [PMC免费文章][公共医学][谷歌学者]
- Gentleman RC等人,《生物导体:计算生物学和生物信息学的开放软件开发》。基因组生物学。2004;5:R80。 [PMC免费文章][公共医学][谷歌学者]
- Li H,等。数字转录组分析所需标签密度的测定:应用于雄激素敏感性前列腺癌模型。程序。美国国家科学院。科学。美国。2008;105:20179–20184. [PMC免费文章][公共医学][谷歌学者]
- Marioni JC等人。RNA-seq:技术再现性评估和与基因表达阵列的比较。基因组研究。2008;18:1509–1517. [PMC免费文章][公共医学][谷歌学者]
- Robinson医学博士、Smyth GK。用于评估标记丰度差异的适度统计测试。生物信息学。2007;23:2881–2887.[公共医学][谷歌学者]
- Robinson医学博士、Smyth GK。负二项离散度的小样本估计及其在SAGE数据中的应用。生物统计学。2008;9:321–332。[公共医学][谷歌学者]
- Smyth GK公司。用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。统计应用程序。遗传学。分子生物学。2004;1第3条。[公共医学][谷歌学者]
- Smyth GK,Verbyla AP公司。广义线性模型中残差最大似然估计的条件方法。J.R.Stat.Soc.B.公司。1996;58:565–572。 [谷歌学者]
- Wong JWH等。无标签LCn-MS实验中蛋白质比较定量的计算方法。简介。生物信息。2008;9:156–165.[公共医学][谷歌学者]