跳到内容
获得许可 未经许可 需要身份验证 发布人:德古意特出版社 2013年7月17日

高维基因组数据的一般功率和样本量计算

  • 马尔滕·范·伊特森 电子邮件徽标 , 马克·范·德维尔 , 朱迪思·波尔 勒内·德梅内泽斯

摘要

在设计微阵列或下一代测序实验时,选择适当数量的生物复制品至关重要。通常,差异表达基因的数量及其影响大小很小,重复次数太少将导致检测这些基因的能力不足。另一方面,过多不必要的重复会导致高昂的实验成本。功率和样本量分析可以指导实验人员选择适当数量的生物复制品。最近针对微阵列数据提出了几种功率和样本量分析方法。然而,其中大多数仅限于两组比较,并且需要用户定义的效果大小。在这里,我们提出了一种基于先导数据的功率和样本容量分析方法,该方法可以处理更一般的实验设计,并使用先导数据获得效应大小的估计值。该方法还可以处理χ2分布式测试统计,能够对更广泛的模型进行功率和样本量计算,包括用于RNA-seq数据分析的高维广义线性模型。使用来自几个微阵列和下一代测序实验的模拟和实验数据评估了该方法的性能。此外,我们将我们提出的从试点数据中估计效应大小密度的方法与最近提出的针对两组比较的方法进行了比较。


通讯作者:荷兰莱顿HB奈梅亨6500号莱顿大学医学中心人类和临床遗传学中心Maarten van Iterson,邮政信箱9101

这项工作是在荷兰基因组倡议/荷兰科学研究组织(NGI/NWO)设立的医疗系统生物学中心(CMSB)内进行的,该中心是荷兰生物信息中心(NBIC)生物范围计划的一部分,由荷兰基因组计划(NGI)的BSIK拨款支持。

_

利益冲突声明:未申报。

附录A:两个样本的影响大小t吨-测试,F类-检验和似然比统计

这里我们将获得效果大小的表达式θ和样本大小N个在线性或广义线性模型设置中测试假设时。

首先,我们回顾了涉及二分响应变量的线性模型推理的特殊情况:两个样本t吨-测试。考虑两个正态分布随机变量的独立样本的简单情况X(X)~N个(μX(X), σ2)和Y(Y)j个~N个(μY(Y),σ2),带有=1, …,N个x个j个=1, …,N个Y(Y).测试的常用统计数据H(H)0:μx个–μY(Y)=0对H(H):μx个–μY(Y)≠0是两个样本t吨-测试统计量

哪里

代表各组的样本均值S公司第页合并样本方差。效应大小定义为平均值之间的标准化差异θ=σ–1(μX(X)–μY(Y)). 如果各组的平均值相同,则影响大小为零(θ=0)并且测试统计数据具有中心学生t吨-分配。A非中心t吨-非中心参数分布δ当效果大小不同于零时出现(θ≠0).

非中心性参数可以写成

哪里N个=N个X(X)+N个Y(Y)是总样本量θ吸收了群体比例的效果大小第页X(X)第页Y(Y)中试和后续实验的实验设计被认为是相同的,只是样本大小不同,因此组比例是固定的。

现在我们得出的结果是δ与…成比例N个两组设计中的样本总数。对于两个样本t吨-测试学生的非中心性参数t吨分布可以表示为

一些小代数表明,平方表达式可以写成

哪里第页X(X)第页Y(Y)表示组中样本的比例X(X)Y(Y)与样本总数相比。

由此可知

哪里

当涉及多个组时,线性模型的一般假设将导致F类-使用(非)中心进行测试F类-零(替代)假设下的分布。现在我们将明确显示非中心性参数、效应大小和样本大小之间的关系。

考虑线性模型=X(X)β+ε哪里N个×1,X(X)N个×p,β第页×1并假设i.i.d.正常误差。我们将重点讨论可以表示为模型参数线性组合的假设,

哪里L(左)第页×表示对比度矩阵和ψ0是一个×1适合研究问题的常数向量。通过比较空模型和替代模型的平方和的残差,或通过似然比,可以得出测试统计量。两者都会导致F类-测试统计量

哪里

表示误差方差的估计量σ2.测试统计F类分布于H(H)0作为中心F类-分配F类,N–p型和,在H(H),作为非中心F类-分配F类,N–p型(δ)具有非中心性参数

再次假设试点和后续实验的固定设计δ可以表示为总样本量与表示效果大小的部分的乘积δ=θN.

现在,我们提供了一个证据,证明效果大小δ与…成比例N个在多个组中,K(K)-样本设计。写入X(X)=(1N个,X(X)1, …,X(X)K(K)),其中X(X)j个的代码j个第th组:

具有n个j个:组的样本量j个,
1(0)表示向量1的(0的)。然后,X(X)T型X(X)的列的所有内积的结果X(X),它们是:
对于j个k个因此,N个可以计算出X(X)T型X(X)因此也适用于δ:

具有

w个11=1,w个1j个=w个1=w个日本=第页j个,对于i、 j个>1和w个ij公司=0,否则为0。

对于广义线性模型设置中的推断,对于替代假设,只有近似分布已知(Self和Mauritsen,1988;Mauritson等人,1992;Shieh,2000)。

考虑独立随机变量Y(Y),我=1, …,N个,遵循属于指数分布族的概率分布。平均响应E类[Y(Y)]=μ通过链接函数链接线性预测值为μ=–1(X(X)ψ) (McCullagh和Nelder,1989)。推断ψ通常基于似然比统计,其中零假设H(H)0: ψ=ψ0根据备选方案进行测试H(H): ψ≠ψ0,带ψa第页×1矢量。此外,我们假设Y(Y)待查。然后在下面H(H)0似然比统计值大约为χ2-分配第页自由度。Shieh(2000)表明H(H)likelihood比率统计大约遵循一个非中心χ2具有第页自由度和非中心性参数

哪里τ表示规范参数,并且τ*它在某些限制条件下的最大似然估计(Self和Mauritsen,1988;Shieh,2000),并且期望是关于协变量分布的。为了简单起见,我们忽略了一个麻烦参数的可能性[这是Shieh(2000)结果的简化]。我们不需要明确地指定协变分布;对我们来说唯一重要的是,这个表达式再次是样本大小乘以一个我们称之为效应大小的因子;δ=θN。

附录B:混合料密度和分布函数的通用公式

这里我们给出了混合密度和分布函数的一般公式。在这些公式中,我们将重点关注非中心性参数,而忽略其他参数,如存在自由度。

B.1对称零分布

测试统计量的对称零分布混合物的累积分布函数如下所示

产品θN表示非中心性参数,其中N个是反映样本大小的参数。测试统计量的对称零分布混合物的概率密度函数如下所示

因为可以用微分交换积分(支配收敛定理),所以方程(21)很容易从方程(20)中导出。F类(f)即普通人和学生的t吨分布和密度函数。下标=0表示零和下的密度或分布函数=备选方案下的1。

由于零分布已知,因此可以构造p值混合物的等效累积分布或概率密度函数。对于对称零分布,计算双侧p值,因此基于p值的混合物的累积分布函数变为

p值对称混合的概率密度函数由下式给出

B.2非对称零分布

具有非对称零分布的混合物的累积分布函数如下所示

非对称混合检验统计量的概率密度函数如下所示

对于非对称零分布,计算单侧p值,因此累积分布函数变为

p值非对称混合物的概率密度函数如下所示

附录C:反问题的离散化

通过微分方程(20)的两边,并观察到微分与积分可以互换(根据支配收敛定理,因为两者都是F类(f)Θ有界和的导数F类关于t吨存在)可以导出以下方程

其中积分极限表示θ的支持。从观察到的一组测试统计数据中估计(f)属于(f)建造,例如通过在t吨对于=1, …,此外,总是可以通过求和来近似积分。例如,使用带Δ的中点规则θ=(b条)(J型–1)和θj个=+(j个–1)Δθ对于j个=1, …,J、,方程(28)成为方程组

对于=1, …,使用矩阵表示法,这个方程组可以简洁地表示为

哪里A类×(J型+1)是具有第一列的矩阵(f)0(t吨)和剩余J型(f)(t吨, θj个N个θ对于=1, …,b条×1是包含元素的列向量(f)(t吨)的=1, …,.未知系数的列向量,x个(J型+1)×1,表示

方程(30)看起来像一个普通的回归问题,但不幸的是矩阵A类是病态的,且逆函数不存在。特别是当积分在精细网格上近似时(Δθ小型或J型大),连续两列A类变得几乎相同,A类ij公司A类ij公司+1((f)(t吨, θj个N个)≈(f)(t吨, θj个N个)+ΔθN))、和A类不是全列秩。在两个或多个协变量高度相关的多元回归模型中也会出现同样的问题。

附录D:对数尺度上AIC和GCV之间的相似性

对数尺度上的GCV与Akaike的信息准则密切相关。AIC由

哪里S公司λ=A类(A类T型A类+λ2)–1A类T型b条。GCV由下式给出

使用以下身份日志(x个)≤x个–1代表0<x个<1,自0起允许<信托收据()≤n个.

Takezawa(2006年,第129页)也描述了这种联系,但推导方式不同:

其中身份1–x个e(电子)x个使用。

GCV和Mallow之间存在类似的等效性C类第页(见Ruppert等人(2003),第5章,第119-120页)。Hastie等人(2001年)也注意到GCV和AIC之间的相似性,但他们使用了近似值1/(1–x个)2≈1+2x个.

附录E:最小二乘问题的解决方案位于Krylov空间

为了证明最小二乘问题的解决方案位于Krylov空间,我们使用了Cayley-Hamilton定理[参见Harville(2008)第575-576页]。凯莱-汉密尔顿定理指出χA类(A类)=0,其中χA类(t吨)=检测(A类)是的特征函数A类例如,给定特征值λ1, …,λn个n个×n个矩阵A类特征函数由下式给出

表示为t吨根据凯莱-汉密尔顿定理,我们可以写出A类作为的有限幂和A类:

现在我们可以重写了x个=A类–1b条x个=(A类T型A类)–1A类T型b条对于一般情况,当A类不是方形矩阵,使用前面的表达式A类–1。得到的解决方案是以下各项的线性组合{A类T型b条, (A类T型A类)A类T型b条, …, (A类T型A类)k个–1A类T型b条}因此位于Krylov空间。

附录F:一些实施细节:

F.1正则化参数的自动选择

L曲线和S曲线是参数化给出的曲线,如

G公司(λ)见方程式(33)。这些曲线的角点可以通过计算曲率来定位,特别是最大值或最小值可以定位角点。

对于以笛卡尔坐标参数表示的平面曲线γ(t吨)=(x个(t) ,年(t吨)),曲率为

其中'表示关于的导数t吨Hansen(2010)推导了L曲线曲率的解析表达式,我们以类似的方式推导了S曲线的表达式。一旦自动获得这些表达式,就可以选择正则化参数。

F.2求解离散反问题:非负共轭梯度

我们从R(R Development Core Team,2012)源代码中修改了共轭梯度算法的cgmin C实现,从而可以添加停止规则。代码可从R/BioConductor包装SSPA中获得。

工具书类

Benjamini,Y.和Y.Hochberg(2000):“关于使用独立统计对多重测试中错误发现率的自适应控制”,J.Educe。行为。统计数据,25、60–83。在谷歌学者中搜索

Calvetti,D.,B.Lewis,L.Reichel和F.Sgallari(2004):“带非负约束的Tikhonov正则化”,电子。事务处理。数值分析,18,153–173。在谷歌学者中搜索

Delaigle,A.和I.Gijbels(2007):“计算积分和优化目标函数的常见问题:密度反褶积的案例研究”,《统计计算》。,2, 7349–7355.在谷歌学者中搜索

Edgar,R.、M.Domrachev和A.Lash(2002):“基因表达综合:NCBI基因表达和杂交阵列数据存储库”,《核酸研究》,第30期,第207–210页。在谷歌学者中搜索

Efron,B.(2009):“大规模预测问题的经验贝叶斯估计”,《美国统计协会期刊》,1041015-1028。在谷歌学者中搜索

Eilers,P.和B.Marx(2010):“样条、节点和惩罚”,《威利跨学科评论:计算统计》,n/a,doi:10.1002/wics.125,1。10.1002/wics.125在谷歌学者中搜索

Ferreira,J.和A.Zwinderman(2006a):“使用Benjamini-Hochberg方法进行近似功率和样本量计算”,国际生物统计杂志。,2, 1.10.2202/1557-4679.1018在谷歌学者中搜索

Ferreira,J.和A.Zwinderman(2006b):“微阵列数据的近似样本大小计算:一个说明”,《统计应用》。遗传学。分子生物学。,5, 1.10.2202/1544-6115.1227在谷歌学者中搜索公共医学

Ferreira,J.和A.Zwinderman(2006年c):“关于本杰明尼-霍伯格方法”,《美国统计年鉴》,第34期,1827-1849页。10.1214/009053606000000425在谷歌学者中搜索

Frank,I.和J.Friedman(1993):“一些化学计量学回归工具的统计观点”,《技术计量学》,35,109–135。10.1080/00401706.1993.10485033在谷歌学者中搜索

Gentleman,R.、V.Carey、D.Bates、B.Bolstad、M.Dettling、S.Dudoit、B.Ellis、L.Gautier、Y.Ge、J.Gentry、K.Hornik、T.Hothorn、W.Huber、S.Iacus、R.Irizarry、F.Leisch、C.Li、M.Maechler、A.Rossini、G.Sawitzki、C.Smith、G.Smyth、L.Tierney、J.Yang和J.Zhang(2004年):“生物导体:计算生物学和生物信息学的开放软件开发”,Genome Biol,5,R80,URLhttp://genomebiology.com/2004/5/10/R80.在谷歌学者中搜索

Golub,G.和C.van Loan(1996):矩阵计算,巴尔的摩和伦敦:约翰·霍普金斯大学出版社。在谷歌学者中搜索

Hanke,M.,J.Nagy和C.Vogel(2000):“非负图像恢复的准牛顿方法”,线性代数应用。,316, 223–236.在谷歌学者中搜索

Hansen,P.(2010):《离散逆问题:洞察力和算法》,SIAM:算法基础系列,费城。10.1137/1.9780898718836在谷歌学者中搜索

Hansen,P.和D.O'Leary(1993):“L曲线在离散病态问题正则化中的应用”,SIAM J.Sci。计算。,14, 1487–1503.在谷歌学者中搜索

Harville,D.(2008):《统计学家视角下的矩阵代数》,纽约:施普林格出版社。在谷歌学者中搜索

Hastie,T.、R.Tibshirani和J.Friedman(2001):《统计学习的要素》,纽约:斯普林格·弗拉格出版社。10.1007/978-0-387-21606-5在谷歌学者中搜索

Hestenes,M.和E.Stiefel(1952):“求解线性系统的共轭梯度方法”,J.Res.Natl。伯尔。支架。,49, 409–436.在谷歌学者中搜索

Hoerl,A.和R.Kennard(1970):“岭回归:非正交问题的有偏估计”,《技术计量学》,第12、55–67页。10.1080/00401706.1970.10488634在谷歌学者中搜索

Jörstad,T.、H.Midelfart和A.Bones(2008):“双样本比较微阵列实验中样本大小估计的混合模型方法”,BMC生物信息学,9,1。10.1186/1471-2105-9-117在谷歌学者中搜索公共医学公共医学中心

Jung,S.(2005):“微阵列数据分析中FDR控制的样本量”,生物信息学,213079-3104。10.1093/生物信息学/bti456在谷歌学者中搜索公共医学

Langaas,M.、B.Lindqvist和E.Ferkingstad(2005):“应用DNA微阵列数据估算真零假设的比例”,J.Roy。Stat.Soc.B 67、555–572号法规。在谷歌学者中搜索

Lee,M.和G.Whitmore(2002):“DNA微阵列研究的力量和样本量”,《统计医学》,第21期,第3543–3570页。在谷歌学者中搜索

Lin,W.,H.Hsueh和J.Chen(2010):“微阵列研究中的功率和样本量估计”,BMC生物信息学,11,48–57。10.1186/1471-2105-11-48在谷歌学者中搜索公共医学公共医学中心

Liu,P.和J.Hwang(2007年):“快速计算样本大小,同时通过应用微阵列控制错误发现率”,生物信息学,26,739–746。10.1093/生物信息学/btl664在谷歌学者中搜索公共医学

Long,Q.,D.Nettleton和J.Dekkers(2012):“从大量t吨-统计学,应用于微阵列数据分析中的错误发现率估计,《生物计量学》,681178-1187。10.1111/j.1541-0420.2012.01764.x在谷歌学者中搜索公共医学

Matsui,S.和H.Noma(2011年):“在微阵列实验中评估差异表达基因的功效大小和样本大小”,《生物计量学》,671225-1235。10.1111/j.1541-0420.2011.01618.x在谷歌学者中搜索公共医学

Mauritsen,R.,J.Ohara和S.Self(1992):“广义线性模型中似然比检验的功率计算”,《生物计量学》,48,31–39。10.2307/2532736在谷歌学者中搜索

McCarthy,D.、Y.Chen和G.Smyth(2012):“生物变异方面多因子rna-seq实验的差异表达分析”,《核酸研究》,第40期,第4288-4297页。在谷歌学者中搜索

McCullagh,P.和J.Nelder(1989):“广义线性模型,”统计学和应用概率专著37,佛罗里达州:查普曼和霍尔。10.1007/978-1-4899-3242-6在谷歌学者中搜索

O'Sullivan,F.(1986):“不适定反问题的统计视角”,《科学统计》。,1, 502–518.在谷歌学者中搜索

Pawitan,Y.、S.Michiels、S.Koscielny、A.Gusnanto和A.Ploner(2005):“微阵列研究的错误发现率、敏感性和样本量”,生物信息学,21,3017-3024。10.1093/生物信息学/bti448在谷歌学者中搜索公共医学

Phatak,A.和F.de Hoog(2002):“利用PLS、Lanczos方法和共轭梯度之间的联系:PLS某些性质的替代证明”,《化学计量学杂志》。,16, 361–367.在谷歌学者中搜索

R开发核心团队(2012):R:统计计算的语言和环境,R统计计算基金会,奥地利维也纳,URL网址:http://www.R-project.org,ISBN 3-900051-07-0。在谷歌学者中搜索

Robinson,M.、D.McCarthy和G.Smyth(2010):“edgeR:数字基因表达数据差异表达分析的生物导体包”,生物信息学,26,139-140。10.1093/生物信息学/btp616在谷歌学者中搜索公共医学公共医学中心

Ruppert,D.、M.Wand和R.Carroll(2003):半参数回归,纽约:剑桥大学出版社。10.1017/CBO9780511755453在谷歌学者中搜索

Ruppert,D.、D.Nettleton和J.Hwang(2007):“探索多测试实验分析和规划中的值信息”,《生物计量学》,63,483-495。10.1111/j.1541-0420.2006.00704.x号在谷歌学者中搜索公共医学

Scheinin,I.、J.Ferreira、S.Knuutila、G.Meijer、M.van de Wiel和B.Ylstra(2010):“Cghpower:探索染色体拷贝数实验的样本大小计算”,BMC生物信息学,11,331-341。10.1186/1471-2105-11-331在谷歌学者中搜索公共医学公共医学中心

Self,S.和R.Mauritsen(1988):“广义线性模型的功率/样本大小计算”,《生物计量学》,44,79–86。10.2307/2531897在谷歌学者中搜索

Shao,Y.和C.Tseng(2007):“微阵列研究中fdr控制的依赖性调整样本量计算”,《统计医学》,26,4219–4237。在谷歌学者中搜索

Shieh,G.(2000):“关于广义线性模型中似然比检验的功率和样本量计算”,《生物计量学》,56,1192-1196。10.1111/j.0006-341X.2000.01192.x在谷歌学者中搜索公共医学

Storey,J.(2003):“正错误发现率:贝叶斯解释和q值”,《统计年鉴》,2013年第31期–2035年。在谷歌学者中搜索

't Hoen,P.,Y.Ariyurek,H.Thygesen,E.Vreugdenhil,R.Vossen,R.de Menezes,J.Boer,G.van Ommen和J.den Dunnen(2008):“基于深度序列的表达分析显示了五种微阵列平台在稳健性、分辨率和跨膜可移植性方面的主要进步,”,《核酸研究》,36,1–11。在谷歌学者中搜索

Takezawa,K.(2006):《非参数回归简介》,新泽西州:Wiley&Sons出版社。10.1002/0471771457在谷歌学者中搜索

Tibshirani,R.(2006):“微阵列实验中评估样本大小的简单方法”,BMC生物信息学,7106–112。10.1186/1471-2105-7-106在谷歌学者中搜索公共医学公共医学中心

Tikhonov,A.(1963):“不正确公式化问题的解决和正则化方法”,苏联数学doklady,151501-504。在谷歌学者中搜索

Tong,T.和H.Zhao(2008):“评估微阵列实验中固定样本大小的功效和错误发现率的实用指南”,《统计医学》,1960-1972年第27期。在谷歌学者中搜索

蔡,C.,S.Wang,D.Chen和J.Chen(2004):“基因表达微阵列实验的样本大小”,生物信息学,211502-1508。10.1093/生物信息学/bti162在谷歌学者中搜索公共医学

van de Wiel,M.和K.Kim(2007):“使用非参数反褶积估计错误发现率”,《生物统计学》,63,806–815。10.1111/j.1541-0420.2006.00736.x号在谷歌学者中搜索公共医学

van Iterson,M.、P.’t Hoen、P.Pedotti、G.Hooiveld、J.den Dunnen、G.van Ommen、J.Boer和R.de Menezes(2009):“基因表达谱数据的相对功率和样本量分析”,BMC基因组学,1439-449。10.1186/1471-2164-10-439在谷歌学者中搜索公共医学公共医学中心

Varah,J.(1983):“线性不适定问题数值解的陷阱”,SIAM:J.Sci。统计计算。,4164-176。在谷歌学者中搜索

在线发布:2013年7月17日
印刷出版:2013-08-01

©2013 Walter de Gruyter Berlin Boston版权所有

2024年5月5日从下载https://www.degruyter.com/document/doi/10.1515/sagmb-2012-0046/html
滚动到顶部按钮