摘要

动机:平铺阵列是一种新型的微阵列,可用于高分辨率测量基因组转录活性和转录因子结合位点。本文的目标是开发有效的统计工具,以识别显示感兴趣的转录或蛋白质结合模式的基因组位点。

结果:提出了一种两步方法,并在TileMap中实现。在第一步中,基于分层经验贝叶斯模型计算每个探针的测试统计数据。在第二步中,使用基因组区域内探针的测试统计数据来推断该区域是否有意义。层次经验贝叶斯模型缩小了方差估计并增加了分析的敏感性。它允许进行复杂的多样本比较,这对于研究不同实验条件下杂交的时间和空间模式至关重要。相邻探针通过移动平均法(MA)或隐马尔可夫模型(HMM)进行组合。提出了非平衡混合减法来估计MA的错误发现率和HMM的模型参数。

可利用性:TileMap在以下网站免费提供:http://biogibs.stanford.edu/~jihk/TileMap/index.htm

联系人: whwong@stanford.edu

补充信息: http://biogibs.stanford.edu/~jihk/TileMap/index.htm(包括所有图形的彩色版本)

1简介

平铺阵列是一种新型的微阵列,用高密度探针检测基因组。在典型的平铺阵列中,探针沿染色体大致均匀分布,密度为每10–100 bp一个探针。当与RNA或染色质免疫沉淀(ChIP)样品杂交时,该阵列将检测显示感兴趣的转录或转录因子结合模式的基因组位点(卡普兰诺夫., 2002,卡普拉诺夫., 2003;考利., 2004;坎帕., 2004). 由于探针的高密度,可以以无偏见的方式以高分辨率测量整个基因组。

识别显示感兴趣的转录或蛋白质结合模式的基因组位点是从平铺阵列实验中消化信息的关键步骤。目前,可用于完成此任务的工具很少。示例包括G-TRANS(坎帕., 2004),移动平均(MA)方法,由凯尔斯. (2004)以及由提出的隐马尔可夫模型(HMM)方法. (2005)现有的工具不足以满足生物界的多样化需求。例如,目前的工具主要依赖于一个样本和两个样本的比较。然而,为了研究一个复杂的发育过程,可能需要在许多不同的发育阶段进行平铺阵列实验,并确定具有特定时间或空间转录或转录因子结合模式的基因组位点。这将不可避免地涉及到当前工具无法处理的复杂的多样本比较。此外,如果希望在多种条件下进行实验,由于成本限制,每个条件下的重复次数将很小。在以往的工作中,没有具体考虑如何有效利用少量重复。

本文的目标是开发有效的统计模型和算法来检测显示感兴趣杂交模式的基因组位点。我们将强调该工具进行灵活的多样本比较和有效利用少量重复数据的能力。提出了一种两步方法,TileMap。在第一步中,基于分层经验贝叶斯模型为每个探针计算测试统计量。在第二步中,结合基因组区域内探针的测试统计数据来推断该区域是否具有感兴趣的杂交模式。当重复次数较少时,层次经验贝叶斯模型缩小了方差估计并增加了分析的敏感性。它还提供了一种灵活的方法来进行复杂的多样本比较。使用两种不同的方法——MA方法和HMM来组合相邻的探针。提出了非平衡混合减法(UMS),以近似估计MA的局部错误发现率和HMM的模型参数。考利.’s(2004)21号染色体和22号染色体的ChIP-ChIP实验数据被用于测试和说明TileMap,它显示了比现有方法改进的性能。

移动平均法最初由凯尔斯. (2004)在分析平铺阵列数据时。除了能够进行多样本比较外,TileMap和Keles的方法还有两个主要区别。首先,为了计算探针级别的测试统计数据,Keles的方法仅使用来自相关探针的数据,而TileMap通过闭合形式的经验Bayes方差收缩估计值将来自阵列中所有探针的信息汇集在一起。最近的研究表明,当实验重复次数较少时,汇集所有探针的信息是提高微阵列实验基因选择敏感性的有效方法(Baldi and Long,2001年;牛顿., 2004;Smyth,2004年)方差是信息池发挥作用的主要因素(H.Ji和W.H.Wong,提交出版)。TileMap将此思想应用于平铺数组分析。其次,TileMap采用了不同的策略来确定拒绝的截止点。Keles的方法使用bootstrap估计其“扫描统计”的零分布,以选择截止点。他们做了一个隐含的等均值假设,即在零假设下H(H)0,在不同的实验条件下,平均杂交强度是相等的。尽管这种假设对于与H(H)0: μ1= μ2,当H(H)0包含一些随机效应,例如。H(H)0: μ1− μ2N个(0,1),以及用于多样本比较的FDR控制,例如突变1(mt1)<野生型(wt)<突变2(mt2)。对于后一种情况,正确的无效假设是H(H)0:NOT{mt1<wt<mt2},而不是H(H)0′:mt1=wt=mt2。H(H)0不仅包括H(H)0′,但也有mt1=wt<mt2,mt1>wt<mt2等。对于这样一个复杂的复合零点,FDR控制是困难的。为了解决这个问题,TileMap采用了一种经验技术,即UMS,来获得局部FDR的近似估计并选择一个截止点。与TileMap和Keles的方法不同,Affymetrix的G-TRANS使用了不同的策略。在G-TRANS中,探针被分组到重叠窗口中,并对每个窗口执行Wilcoxon符号秩或秩和检验。很难将此方法推广到复杂的多样本比较,而且G-TRANS也没有提供FDR估计。最近,. (2005)也提出了一种用于平铺阵列分析的HMM方法,但他们的方法再次局限于两个样本的比较,并且在估计单个探针的方差时没有跨探针汇集信息。

2方法

2.1计算探针级测试统计的层次经验贝叶斯模型

对数据进行适当的预处理后,TileMap的第一步是计算每个探针的测试统计信息。假设有阵列中的探针,在中进行杂交J型不同的条件,有K(K)j个在条件下复制j个.让X(X)ijk公司表示探针的归一化和对数转换PM或PM-MM值处于条件下j个和复制k个。以下模型用于描述X(X)ijk公司:
\[\开始{数组}{c}{X}(X)_{ijk}|{\mu}{ij},{\sigma}{i}^{2}\sim N\左({\mu{ij{,{\sigma}{i{2}\右),\hbox{}i=1,2,\点,i;\hbox{}j=1,2,\点,j;\\k=1,2,\点,{克}_{j} ●●●●。\结束{数组}\]
(1)
\[{\mu}{ij}|{\mu{0},{\tau}{0}^{2}\propto 1,\]
(2)
\[{\sigma}_{i}^{2}|{v}(v)_{0},{\omega}_{0}^{2}\sim\hbox{Inv}-{\chi}^{2\left({v}(v)_{0},{\omega}_{0}^{2}\right)
(3)
定义v(v)= Σj个(K(K)j个− 1),
\({s}_{i} ^{2}={\sum}_{j}{\sum{{k}{({x}_{ijk}-{\上划线{x}}{ij})}^{2}/v\)
,
\(\overline{s}^{2}}={\sum}_{i}{s}_{i} ^{2}/i\)
\(S={\sum}_{i}{[{s}_{我}^{2}-(\上划线{{s}^{2}}\左)\右]}^{2]\)
。计算探测级别统计的基本思想是估计
\({\sigma}_{i}^{2}\hbox{s}\)
通过汇集所有人的信息
\({s}_{i} ^{2}\hbox{s}\)
,然后治疗
\({\sigma}{i}^{2}={\widehat{\sigma}}{i{2})
已知和比较μij公司s的后验分布。
估计
\({\sigma}_{i}^{2}\)
,我们使用了由H.Ji和W.H.Wong(提交出版)根据二次方差函数自然指数族理论提出的以下经验Bayes收缩估计(莫里斯,1983年):
\[{\widehat{\sigma}}_{i}^{2}=\左(1-\ widehat{B}\右){s}_{i} ^{2}+\widehat{B}\overline{s}^{2{}},\]
(4)
\[\widehat{B}=\压裂{2/v}{1+2/v}\压裂{I-1}{I}+\压裂{1}{1x2/v}\left(\压裂{2}{v}\right){\ left(\overline{s}^{2}}\ right)}^{2]\frac{I-1{s}.\]
(5)
第1节“补充材料”概述了估算值的推导。
一次
\({\sigma}_{i}^{2}\)
μ的后验分布ij公司将近似为
\(N({\overline{X}}_{ij},{\widehat{\sigma}}__{i}^{2})/{k}_{j} )\)
,将基于此近似值构造探测级别统计信息。对于两个样本的比较(J型=2),探针级别测试统计为
\[{t}(t)_{i} =\压裂{{\上划线{X}}_{i1}-{\overline{X}}_{i2}}{{\widehat{\sigma}}_1}\sqrt{left(1/{克}_{1} \右)+\左(1+{克}_{2} \右)}}。\]
(6)
用于多样本比较(J型>2),例如(1 >重量)或(2 >重量),探针级测试统计数据将计算如下:(1)绘制μij公司s来自
\(N({\overline{X}}_{ij},{\widehat{\sigma}}__{i}^{2})/{k}_{j} )\)
C类次数;(2) 对于每个探针,计算满足预先指定条件的次数,并将此数字表示为S公司; (3) 使用t吨= 1 − (S公司/C类)作为探测级别摘要。这种基于模拟的方法的优点是其灵活性,使其对研究特别有用,即在发育过程中的特定时间和特定地点进行杂交。

公式(6)上面看起来像t吨-但事实上,它们在分母的推导方式上是不同的。

\({\widehat{\sigma}}{i}\)
在里面公式(6)从所有探测收集信息,而在规范中使用t吨-统计仅使用探测信息估计其自身的标准偏差。汇集信息以估计方差显著提高了该方法的敏感性,因为它可以更好地估计方差的均方误差,并在零假设和替代假设下更好地分离测试统计分布。同样的原理也适用于多样本比较。我们还试图缩小μij公司通过在中设置适当的优先级公式(2)然而,平均值收缩通常不会在灵敏度上提供太多额外增益,而可能会导致大量额外计算。这解释了为什么在公式(2).英寸公式(1),我们假设不同条件下的共同方差,但这个假设并不重要。可以假设方差不相等,并分别对每个条件应用收缩估计量。

在不失一般性的情况下,在下文中,我们假设t吨对应于感兴趣的杂交模式。根据个别研究,这可以通过设置适当的组标签来实现(例如,在ChIP-ChIP实验中,定义

\({\上划线{X}}_{i1}\)
\({\上划线{X}}_{i2}\)
在里面公式(6)分别作为控制样本和IP样本)或进行转换,例如−t吨如有必要。

2.2合并相邻探头的信息

TileMap提供了两种方法来组合来自相邻探测的信息。第一种方法使用MA。换句话说,
\[{米}_{i} =\frac{{sum}_{k=i-w}^{i+w}{t}(t)_{k} }{\左(2w+1\右)}\]
(7)
作为探测的最终摘要统计信息进行计算。这与凯尔斯.的(2004年)扫描统计,除了方式t吨已计算。Keles的方法使用规范t吨-统计信息,而这里我们使用它的修改版本和来自所有探测的池信息来估计方差。Keles的方法只考虑两个样本比较,而TileMap可以处理多个样本比较。取平均值之前,t吨在多样本情况下,将通过日志进行转换[t吨/(1 −t吨)]. 注意,在多样本情况下,t吨是后验概率,属于[0,1];如果t吨=0或1,用ε或1−ε替换,其中ε是一个小数字(例如1×10−6). 对于双样本案例,t吨由提供公式(6)属于(-∞,+∞),将直接用于公式(7).选择w个在中进行了讨论凯尔斯. (2004)而不是这里的焦点。

第二种方法使用HMM。使用HMM的优点是不需要预先选择w个在分析新数据之前。HMM结构如所示图1b更准确地说,让H(H)表示探针的杂交状态.H(H)=1,如果探针显示感兴趣的模式;否则H(H)= 0. 此后,我们假设= 1, …,对应于探针在染色体上的物理顺序。定义d日,j个为探针中心之间的物理距离j个假设(1)P(P)(H(H)=0)=π0,P(P)(H(H)= 1) = π1= 1 − π0; (2) 如果d日,+1d日0,转移概率为P(P)(H(H)+1= 1|H(H)= 0,d日,+1d日0)=0,P(P)(H(H)+1= 0|H(H)=1时,d日,+1d日0)=1; 如果d日,+1>d日0,P(P)(H(H)+1= 0|H(H),d日,+1>d日0) = π0,P(P)(H(H)+1= 1|H(H),d日,+1>d日0) = π1; (3) 探针级测试统计的条件分布是(f)(t吨=t吨|H(H)= 0) =(f)0(t吨),(f)(t吨=t吨|H(H)= 1) =(f)1(t吨). 在这些假设下,一旦d日0, π0,0,1,(f)0(t吨)和(f)1(t吨)已知,可以应用标准的正向-反向算法推断隐藏状态H(H)通过探测级测试统计t吨.

在马萨诸塞州,s用于排列和选择探针以形成目标区域。整套可以看作是混合物分布π的样本0(f)0() + π1(f)1(),其中(f)0()和(f)1()是的分布在下面H(H)=0和H(H)分别=1。我们需要估计π0,(f)0()和(f)1()以控制FDR。在HMM中,t吨s用于推断隐藏状态,并根据的后验概率选择目标区域H(H)= 1. 这个t吨s可以被视为另一混合物π的样品0(f)0(t吨) + π1(f)1(t吨)需要知道π0,(f)0(t吨)和(f)1(t吨)在解码之前,HMM TileMap采用非平衡混合减法来处理这两个类似的问题。

2.3无人值守地面系统

UMS的目标是回收混合物分布的不同成分小时(t吨)选择π0(f)0(t吨) + (1 − π0)(f)1(t吨),其中t吨表示通用统计信息。实际上,小时(t吨)观察到,但π0(f)1(t吨)未知。标准FDR程序假设(f)0(t吨)了解并尝试恢复(f)1(t吨)通过减法(f)0(t吨)来自小时(t吨). 这些程序通常在两个样本比较中工作良好,其中(f)0(t吨)可以通过理论或模拟技术(如排列)获得。然而,它们不能直接应用于以下情况(f)0(t吨)很难获得,例如多样本比较或涉及复合null的比较。为了避免这一困难,UMS利用附加信息(见下文)构建了两个“不平衡”分布。两者都是(f)0(t吨)和(f)1(t吨),但它们的丰度不同(f)1(t吨)组件。然后可以使用这两个“不平衡”混合物来重建π0,(f)0(t吨)和(f)1(t吨)并估算FDR。

UMS如所示图2.我们首先构造两个混合物0(t吨)=第页0(f)0(t吨)+(1−第页0)(f)1(t吨)和1(t吨)=q个0(f)0(t吨) + (1 −q个0)(f)1(t吨),其中第页0> π0q个0.如果可以建造两种此类混合物,并且如果∃t吨0这样的话t吨t吨0,(f)0(t吨)/(f)1(t吨) → ∞, 然后是limt吨t吨01(t吨)/0(t吨)=q个0/第页0第页.一次第页已知,(f)1(t吨)可以通过以下方式获得公式(8).
\[{f}_{1} \左(t\右)=\压裂{{g}_{1} \左(t\右)-r{g}_{0}\左(t\右)}{1-r}.\]
(8)
估计(f)0(t吨),注意π1= 1 − π0通常较小;因此,0(t吨)可以提供近似值(f)0(t吨). 鉴于(f)1(t吨)和0(t吨),π0可以通过拟合进行估算小时(t吨)使用θ00(t吨) + (1 − θ0)(f)1(t吨)这样一来{小时(t吨) − [θ00(t吨) + (1 − θ0)(f)1(t吨)]}2d日t吨被最小化。最终估算值
\({\widehat{\theta}}_{0}={\int\left[h\right(t))-{f}_{1} (t\left)\ right]\ left[{g}_{0}\右(t)-{f}_{1} (t\left)\right]\hbox{d}t\}/\{int{left[{g}_{0}\右(t)-{f}_{1} (t\左)\右]}^{2}\hbox{d}t\}={\pi}{0}/{p}_{0}\ge{\pi}{0}\)
; 因此,
\({\widehat{\pi}}{1}=1-{\wide hat{\theta}}{0})
提供π的保守估计1,如果我们想在检测感兴趣区域时保持相对严格的标准,这是可取的。1,(f)0(t吨)和(f)1(t吨)估计某一点的局部错误发现率t吨可以通过以下方式进行估算
\(\hbox{lfdr}\left(t\right)={\widehat{\pi}}_{0}{\wide hat{f}}_0}\ left(t\right)\left[{\wideshat{pi}}_0{{widehat{f}{0}\ right
]和FDR表示拒绝区域Z轴,例如{t吨t吨},可以使用关系式FDR进行估算(Z轴)=E[lfdr(t吨)|Z轴]。在null分布的特殊情况下(f)0(t吨)已知,我们可以设置第页0= 1,0(t吨)=(f)0(t吨)、和1(t吨)=小时(t吨); 然后UMS简化为中讨论的q值方法Storey和Tibshirani(2003).

构建两种不平衡混合物0(t吨)和1(t吨),我们需要更多信息。如果生物学知识表明某些区域更有可能被正在研究的转录因子转录或结合,则可以使用这条信息,例如,可以将已知转录因子结合基序映射到基因组,以收集潜在感兴趣的区域。如果无法获得此类生物信息,则可以使用平铺阵列本身提供的相关结构来估计0(t吨)和1(t吨)如以下段落所述。

对于HMM,我们使用t吨>t吨(第页),其中t吨(第页)第页-第百分位t吨s.然后,t吨+1,所选探针的直接下游测试统计数据用于形成

\({\波浪线{g}}_{0}\左(t\右)\)
。然后我们用t吨t吨(q个),并使用其下游t吨+1形成
\({\tilde{g}}_{1}\left(t\right)\)
对于MA,t吨+1被替换为+w个+1,并使用类似的过程来构造
\({\波浪线{g}}_{0}\左(m\右)\)
\({\波浪线{g}}{1}\左(m\右)\)
。然后我们使用
\({\波浪线{g}}_{0}(.)\)
\({\波浪线{g}}{1}(.)\)
代孕0(.)和1(.). 这些程序背后的直觉是,如果一个DNA/cDNA片段与探针杂交,它也会倾向于与相邻的探针杂交。因此,如果探针非常小t吨,它的相邻探针比随机探针更有可能具有感兴趣的模式,反之亦然。

为了推广上述过程,我们定义了一个选择统计u个。我们使用

\({\波浪线{g}}{0}\左(t\右)=f({T}(T)_{i} =t|{我}_{\{{u}_{i} \在A\}}=1)\)
到近似值0(t吨)、和
\({\波浪线{g}}{1}\左(t\右)=f({T}(T)_{i} =t|{我}_{\{{u}_{i} \在R\}}中=1)\)
到近似值1(t吨). 对于MA,u个=t吨w个−1,T型=对于HMM,u个=t吨−1,T型=t吨MA和HMM都使用A类= {u个>t吨(第页)}和R(右)= {u个t吨(q个)}. 默认情况下,t吨(第页)=t吨(1)t吨(q个)=t吨(5)(关于选择t吨(第页)t吨(q个)). 如图所示图2提供了一个以这种方式估计HMM参数的实际示例。

可以看出,如果(1)P(P)(H(H)= 0|{u个A类}= 1) > π0, (2)(f)(T型=t吨|H(H),{u个A类}= 1) =(f)(T型=t吨|H(H)),然后

\({\波浪线{g}}_{0}\左(t\右)\)
是的有效代理项0(t吨). 类似地,如果(1)P(P)(H(H)= 0|{u个R(右)}= 1) ≤ π0,(2)(f)(T型=t吨|H(H),{u个R(右)}= 1) =(f)(T型=t吨|H(H)),
\({\波浪线{g}}_{0}\左(t\右)\)
是的有效代理项1(t吨). 通常情况下,条件(1)并不难满足。条件(2)隐含在HMM案例中,但一般来说,由于可能存在的选择偏差或之间的剩余相关性,它只适用于近似或可能不适用u个T型会计核算后H(H)因此,我们在这里将UMS的应用称为“近似”程序,这意味着它只提供了零模型下FDR的粗略且可能不精确或乐观的估计,除非完全满足先前的假设。UMS相对于基于排列的FDR估计(如SAM)的优势(塔瑟., 2001)即,如果条件(1)和(2)确实满足,UMS可以为复杂复合零假设提供FDR估计,例如“notμ1< μ2< μ或μ4< μ5',而后者不能。此外,UMS提供了一个接口,以结合其他信息来源(例如,关于哪些基因/区域更有可能显示所需模式的经验生物学知识)来评估假阳性率。然而,在应用UMS时,重要的是要了解,新的信息来源可能会带来偏见。

对于HMM,还需要确定0,1d日0。人们可以选择1d日0根据杂交的典型长度。例如,在ChIP-ChIP实验中,IP片段通常为~1 kb。如果芯片中的探针密度为1探针/35 bp,典型的杂交将包含~28个探针;相应地,1可以设置为1/28以匹配连续的平均长度H(H)=HMM中的1段,以及d日0可以设置为1000。估计0,假设(π0, π1)是没有间隙(即没有间隙)的马尔可夫链的平稳分布d日,+1>d日0),然后是π1=0/(0+1)、和0可以通过以下方式进行估算

\({\widehat{a}}{1}{\witehat{pi}}{1\(1-{\wide hat{\pi}}}{1})\)
哪里
\({\widehat{\pi}}{1}=1-{\wide hat{\theta}}{0})
.

3实施

TileMap在ANSI C中实现。就计算时间而言,它通常比G-TRANS快10倍以上(参考第2节,补充材料)。TileMap包含执行原始数据规范化、本地重复筛选、探测级别摘要、UMS、MA和HMM的功能。本地重复筛选屏蔽在2 kb本地窗口中多次出现的任何探测。在UMS中,用户可以选择使用自己的选择统计信息。对于MA,还提供了基于排列的FDR估计例程。TileMap的输出包括每个探针的最终摘要和包含选定基因组区域的*.bed文件。后者由MA中的lfdr或后验概率定义H(H)HMM中=0小于用户指定的截止值。

在UMS中,所有统计数据都转换为[0,1],例如。t吨-使用exp转换统计信息(t吨)/[1+经验(t吨)]. [0,1]然后平均分为n个(违约=1000)间隔。0(.)和1(.)在这些区间内使用试验统计的经验分布进行估计。估计第页,我们计算第页t吨= [1 −G公司1(t吨)]/[1 −G公司0(t吨)]的t吨=t吨(50),t吨(51), …,t吨(99).第页然后设置为这50个值的中间值第页t吨s.为了获得对(f)1(.),我们在实现UMS时还假设了单调似然比,即t吨t吨0,(f)0(t吨)/(f)1(t吨)正在增加。

4结果

Tilemap使用ChIP-ChIP实验进行测试,该实验由考利. (2004)以及模拟。在本节中,我们将介绍总体设计和测试的主要结果。补充材料(第3-6节)提供了如何进行测试和模拟的详细信息。考利的实验试图使用Affymetrix染色体21和22拼接阵列来识别三种转录因子的结合区域。他们在芯片A上的cMyc数据和芯片A、B、C上的p53-FL(全长抗体)数据用于测试。为了便于讨论,这里将p53实验中的芯片A、B和C视为组合的单个芯片。对于每个转录因子,在三种不同条件下对两个生物复制品进行杂交:IP、对照GST(C1)和对照输入(C2)。对于每个生物复制和实验条件,获得三个技术复制。每个转录因子共有18个阵列。在分析之前,对原始数据进行分位数标准化(博尔斯塔德., 2003),仅对PM-强度进行对数转换,并针对批量效应进行调整(第3.1节,补充材料)。筛选出局部重复序列。然后将18个阵列随机分为G1、G2和G3三组,以备日后使用。每组包含六个阵列:两个用于IP,两个用于C1,两个用于C2。在每种条件下,这两个阵列来自不同的生物复制品。

4.1基于cMyc数据的敏感性测试

为了了解在小重复情况下,方差收缩如何帮助提高灵敏度,首先将具有方差收缩(MA-S)的MA与不具有方差收缩的MA(MA-N)进行了比较。注意,在两个样本的比较中,MA-N相当于Keles的扫描统计。在比较之前,通过对所有18个阵列应用MA-N来构建金标准,以选择显示IP>C1和IP>C2的探针(第3.2节,补充材料)。金标准包含1654个探针(占所有探针的0.5%),并被分为180个结合区域。为了进行比较,排除了一个或两个G1-G3组。(w个=5)和(w个=5)根据(1)IP>C1仅使用G1–G3组之一对其余阵列进行排列;(2) 仅使用G1–G3组之一的IP>C1和IP>C2;和(3)使用两个G1–G3组的IP>C1和IP>C2。为了简单起见,我们使用s2r2、s3r2和s3r4表示上述三个设置。s2r2代表双样本比较,其中每个样本有两个重复,s3r2代表三个样本两个重复等。在上述三种设置中,每种设置都选择0.5%的排名靠前的探针来形成结合区域。这保证了两种方法对基因组的覆盖率相同。如果两个探针之间的间隔小于500 bp,则将其视为位于单个区域。根据以下最小值对地区进行排名s。然后比较MA-S和MA-N的顶级探针中金标准探针的比例(图3a)以及有多少排名靠前的地区与金本位地区重叠(图3b). 有三种选择一组或两组排除的可能性,这里显示的结果是三种可能性的平均值。根据图3,MA-S确实比MA-N更强大,即使我们定义金标准的方式偏向MA-N。在第二种情况下,效果最为显著。在探针水平,当进行500次拒绝时,正确拒绝率从~0.2增加到~0.85;在结合区水平上,MA-S在前160个区域中确定了70多个金标准区域。随着阵列数量的增加,缩小的收益会减少,但考虑到最常见的是2-3次重复,我们预计在大量实际研究中会从方差缩小中获益。

我们还通过丢弃一半探针,将探针密度从1个探针/35 bp降至1个探针/70 bp。(w个=2)和(w个=2)再次使用减少探针密度的数据进行比较(图3c). 用于图3c与中的相同图3b这是使用所有探针构建的,包括丢弃的探针。方差收缩带来的收益变得更加明显。有趣的是,在s3r2病例中,MA-S在其前160个拒绝中发现了约100个“真”结合区域(图3c). MA-N的灵敏度相同,但探针密度加倍(图3b). 这意味着,在这种情况下,我们只需要MA-S和MA-N的一半探针即可实现相同的灵敏度。如果使用MA-N来调查100个基因,使用相同数量的探针,MA-S可以让我们调查200个基因,而不会失去检测真正靶点的能力。然而,调查更多的基因可以增加发现生物过程中未知参与者的机会。

为了比较G-TRANS、Keles方法、MA-s和HMM,他们被应用于分析cMyc数据,就像我们在图3b使用所有18个阵列构建了两个金标准,即“G–M”和“G–H”(第3.3节,补充材料)。G–M标准包含78个区域,这是由G-TRANS和MA-N标识的区域的交叉点。G–H标准包含73个区域,它是G-TRANS区域和HMM区域的交叉。使用G–M标准在结合区水平上比较了不同的方法(图3d)和G–H标准(补充图S2)。这两个结果相似。当重复次数较少(s2r2、s3r2)时,与G-TRANS和Keles的方法相比,MA-S和HMM的灵敏度明显提高。随着阵列数量的增加(s3r4),所有方法都开始表现出类似的性能。Keles方法和G-TRANS不能用于多样本比较。为了得到IP>C1和IP>C2的汇总统计,用MA-N代替Keles的方法;两次使用G-TRANS进行两个样本的比较,分别为IP>C1和IP>C2,两个样本中的最大值P(P)-每个探针的值被作为其最终汇总统计数据,以导出绑定区域。我们没有将TileMap与. (2005),因为后者在完成此工作时不可用。

接下来,我们比较了不同方法识别的区域中cMyc结合位点的富集情况。cMyc共有结合模式CA[C/T]G[T/C]G被定位到21号染色体,在总共18.3Mb的非重复基因组序列中产生17563个潜在结合位点(TFBS)。在这些TFBS中,4496个位于人类-小鼠-大鼠跨物种保护得分位于整个染色体前30%的区域(第3.4节,补充材料)。G-TRANS、MA-N(Keles)、MA-S和HMM均用于选择前0.5%探针,并使用18个cMyc阵列(s3r6)和简化数据(s2r2、s3r2和s3r4)将其分组为结合区域。统计鉴定区域中TFBS和保守TFBS(cTFBS)的数量。结合位点富集计算为选定区域中TFBS和cTFBS密度与其染色体宽度对应物的比值。不同方法的现场浓缩列于表1根据结果,MA-S和HMM始终显示TFBS和cTFBS的富集程度高于或接近于G-TRANS。在s2r2病例中,它们也显示TFBS的浓缩程度高于MA-N(Keles)。然而,随着更多阵列的加入,差异减小了。

4.2基于p53数据的敏感性测试

通过对18个p53-FL阵列的分析,进一步比较了不同的方法。考利. (2004)用p53_FL或p53_DO1抗体通过qPCR验证了14个p53结合区。这些地区在这里被用作金本位。在不同的设置(s2r2–s3r6)下应用每种方法来选择顶部0.5%的探针并将其分组为结合区域。然后,根据在前10个、前20个和所有选定区域中确定的实验验证区域数量,对方法进行比较。结果列在表2HMM和MA-S在重复次数较少时(如s2r2、s3r2),再次检测到比GTRANS和MA-N(Keles)更多的实验验证区域。我们还通过丢弃三分之二的探针,将探针密度从1/35降低到1/100 bp。再次比较MA-N、MA-S和HMM(表2). 在小复制情况下,MA-S和HMM比MA-N的性能更好(例如s3r2)。此处未对G-TRANS进行比较,因为我们无法使用它来分析一组特定的探针。

4.3无人系统性能

为了了解UMS的工作原理,我们进行了一系列仿真。在所有模拟中,生成了六个阵列,并平均分为三组D1、D2和D3,每组大小为2。每个阵列包含50000个探针。探针强度根据公式(1)(3).v(v)0= 4.64,

\({\omega}_{0}^{2}=0.021)
选择匹配实际数据中观察到的典型值。我们希望确定一些模式D1<D2<D3的结合区域作为靶点(第4.1节,补充材料)。总的来说,这些区域覆盖了50000π1探针。模拟在Δ方面有所不同1= μ2− μ1和Δ2= μ−μ2生成,旨在从不同角度测试UMS。表3列出了模拟I–III的设计。在每次模拟中,生成了10个不同的数据集,下面的结果是10个数据集的平均值。这里,我们使用π1=0.05以说明结果,尽管π1也尝试了=0.01、0.02和0.10,获得了类似的结果。

当UMS的假设成立时,模拟I和模拟II对其进行了测试。在模拟I中,我们测试了D1=D2=D3与D1<D2<D3。探针级测试统计t吨计算三样本比较D1<D2<D3。UMS用于估算π1和lfdr基于t吨在UMS中,t吨(第页)=t吨(1),t吨(q个)已设置为t吨(2),t吨(5),t吨(10)t吨(50)分别将[0,1]分为n个=50个间隔。为了进行比较,还应用了排列检验来估计lfdr。由于我们确切地知道哪些探针是真正的目标,因此可以获得真正的lfdr。通过置换测试获得的真实lfdr和lfdr与UMS估计值一起显示在图4a和b.英寸图4a,估计基于t吨没有方差收缩。正如预期的那样,UMS和置换测试都给出了所需的lfdr,而UMS稍微保守一些。图4b,估计基于t吨方差缩小。令人惊讶的是,置换测试未能提供所需的lfdr,即使这里的无效假设是D1=D2=D3。这是由于排列测试和收缩的联合作用。D1<D2<D3的探针在排列后样本方差趋于增大;因此,所有探针的方差估计都朝着更大的方向发展

\(\上横线{{s}_{2}}\)
当使用收缩估计量时,测试统计量在排列分布中趋于更集中。因此,尾部错误探测的数量被低估,导致对lfdr的乐观估计。然而,与排列测试相比,UMS仍然提供了保守的lfdr估计。

在模拟II(第4.2节,补充材料)中,目标区域外的探针被分配了一些随机变化。这将随机成分,如D1<D2>D3、D1>D2<D3引入到零假设中,该零假设不再是D1=D2=D3。UMS和置换检验均用于估计lfdr,结果基于t吨无方差收缩和有方差收缩图4c和补充图S3b。现在,即使在非收缩的情况下,置换测试也无法为D1<D2<D3提供所需的lfdr。然而,UMS再次提供了非收缩和收缩的保守估计t吨在不同的t吨(q个)设置。

当UMS的条件独立性假设[即。(f)(T型=t吨|H(H),{u个A类}= 1) =(f)(T型=t吨|H(H))]是真的。对考利实验的分析表明,该假设可以提供实际数据的一阶近似值(第5.1节,补充材料)。为了了解UMS在这种假设不成立的情况下的表现,在模拟III-VI中,我们以不同的方式违反了这种假设,从而对UMS提出了挑战。

在模拟III(第4.3节,补充材料)中,我们在背景中引入了一些附加的结合区,其模式为D1=D2<D3或D1<D2=D3。每种类型的新区域也涵盖π1探针总数的%。附加区域属于零假设,不是我们希望检测的目标。该设计打破了以下条件独立性假设H(H)=0,因为与D1=D2=D3相比,D1=D2<D3和D1<D2=D3更有可能生成显著的测试统计数据,并且与模拟II不同,这里来自D1=D2<D3和D1<D2=D3的探针倾向于聚集在一起。该模拟中UMS和置换测试的lfdr估计如所示图4d和补充图S3c。何时t吨(q个)很小(q个% ≤ π1在这种情况下),UMS仍然能够提供合理的lfdr估计。何时t吨(q个)规模变大后,估计变得乐观。然而,在这两种情况下,UMS的表现都比置换测试好得多。UMS为什么在这种情况下工作的理论分析t吨(q个)根据补充材料(第5.2节)给出。

仿真IV–VI(第4.4节,补充材料)分别根据仿真I–III进行裁剪。之间的剩余相关性T型u个被引入结合区域,打破了H(H)= 1. 所得结果如补充图S3所示,与图4,表明这种违反假设的行为对无人系统的性能没有显著影响。

我们进行了额外的理论分析和测试(第4.5–4.8节和第5节,补充材料)。结合这里的模拟,他们表明:(1)当UMS的条件独立性假设成立时,UMS可以提供合理的lfdr和π1估计,并且性能对以下选项是稳健的t吨(第页)t吨(q个); (2) 当假设不成立时,UMS可以提供合理的lfdr和π1估计时间t吨(q个)很小,在这种情况下,UMS的性能对以下选择是稳健的t吨(第页); 然而,如果t吨(q个)大,UMS对以下选择很敏感t吨(第页); (3) UMS在以下情况下运行良好而不是t吨用于估计lfdr。根据我们自己的经验,通过设置t吨(q个)t吨(5)t吨(1)t吨(第页)t吨(20),UMS通常可以提供合理的性能。

最后,当将UMS应用于考利的实验时,在lfdr=0.5水平上,MA分别检测到cMyc(ChipA)和p53-FL数据的30个和19个模式为IP>C1和IP>C2的区域。在后验概率=0.5水平上,HMM检测到168和142个区域。作为比较P(P)-值=0.001水平,G-TRANS报告48和152个区域。HMM倾向于报告比MA更多的区域,其中许多区域短于MA规定的窗口大小,MA没有报告(第6节,补充材料)。HMM发现的较短区域是否更可能是真实信号或噪声,使用当前数据无法清楚地分辨。当我们检查探针强度时,许多这样的区域看起来确实像真正的结合区域(图S8)。需要进一步的实验验证来解决这个问题。

5讨论

与以前的工具相比,TileMap提供了一种在多种实验条件下研究平铺阵列杂交的灵活方法。当重复次数较少时,方差收缩成分增加了寻找感兴趣基因组位点的敏感性。虽然我们只说明了TileMap在ChIP-ChIP实验中的使用,但它也可以用于分析基因组的转录活性。就计算时间而言,TileMap的效率远远高于G-TRANS。

多样本比较的主要困难在于获得零假设下的测试统计量分布,这是FDR控制或HMM解码所需的。TileMap采用一个近似程序UMS来处理此问题。UMS不是一个完美的解决方案。然而,复杂复合零点下零点分布的估计是一个普遍存在的难题,目前还没有很好的解决方案。UMS首次尝试解决这个问题。UMS提供的粗略估计值可用于指导截止值的选择,在许多情况下,由于几个原因,这种不精确的估计值足以用于实际应用。首先,FDR始终依赖于模型,例如假设H(H)0:μ1= μ2H(H)0: μ1− μ2N个(0,1)将导致非常不同的FDR估计。因此,除非统计零模型(例如μ1= μ2)与科学空白相匹配(例如与肿瘤无关),FDR可能会产生误导。其次,与权力相比,如果我们只对少数几个顶级地区感兴趣,那么罗斯福是次要的。我们真正关心的是有更高的机会找到真正科学感兴趣的区域,而不是获得一个统计模型的FDR估计,这可能是对现实世界的过度简化。尽管有这些论点,我们也承认对如何在复合零位下控制FDR的进一步研究就其本身而言值得进一步调查。此类调查将为复杂多样本比较的严格统计推断提供基础。

这里使用的MA和HMM都没有考虑杂交长度的实际分布。目前对此类分布的了解有限。如果可以确定这些分布,则可以对此处的模型进行细化,并提供进一步的分辨率。对于MA,平均值可以替换为加权平均值;对于HMM,可以使用依赖于距离的转移概率。所有这些方面都值得进一步调查。最后,TileMap只是利用平铺数组提供的信息的第一步。将TileMap与集成的未来工作顺式-调控模块的发现、选择性剪接分析等将有助于我们深入了解各种生物系统。

图1

TileMap概述。()TileMap程序的图示。原始数据、TileMap探针级别测试统计、MA摘要和HMM后验概率自上而下显示。在TileMap中,小型测试统计数据对应于感兴趣的混合模式。显示的后验概率是不是目标探针的后验可能性。(b条)TileMap中的HMM结构。

图2

不平衡混合物减法。左面板是一个概念性示例,用于说明UMS。详细说明见第2.3节。右面板是一个应用UMS分析cMyc ChIP-ChIP实验的18个阵列以估计(f)0(t吨)和(f)1(t吨)(第4节)。

图3

cMyc数据分析中MA、HMM、Keles方法和G-TRANS的比较。显示了一定数量的总拒绝中正确拒绝的分数/数量。()在探针水平比较MA-S和MA-N,探针密度=1/35bp;(b条)MA-S和MA-N在结合区水平进行比较,探针密度=1/35bp;(c(c))MA-S和MA-N在结合区水平进行比较,探针密度=1/70bp;(d日)在结合区水平比较了G-TRANS、Keles法(MA-N)、MA-s和HMM,探针密度=1/35bp,以G-M为金标准。

表1

预测结合区的cMyc结合位点富集

方法第二季度第3r2条第3代第4代第3条第6款
GTRANS公司1.2 (0.1)/1.1 (0.1)1.4 (0.1)/1.1 (0.1)1.8(0.1)/1.4(0.1)1.9/1.5/96公里
MA-N/凯尔斯1.6 (0.2)/1.1 (0.1)1.9 (0.3)/1.4 (0.2)2.0 (0.1)/1.5 (0.1)2.0/1.5/150k
MA-S公司1.7 (0.2)/1.3 (0.1)1.9 (0.2)/1.4 (0.1)2.0 (0.1)/1.5 (0.1)2.0/1.5/149k个
隐马尔可夫模型1.9 (0.2)/1.4 (0.1)2.0(0.2)/1.4(0.1)2.0 (0.1)/1.4 (0.1)2.0/1.4/134k个
方法第二季度第3r2条第3代第4代第3条第6款
GTRANS公司1.2 (0.1)/1.1 (0.1)1.4 (0.1)/1.1 (0.1)1.8 (0.1)/1.4 (0.1)1.9/1.5/96公里
MA-N/凯尔斯1.6 (0.2)/1.1 (0.1)1.9 (0.3)/1.4 (0.2)2.0 (0.1)/1.5 (0.1)2.0/1.5/150k
MA-S型1.7 (0.2)/1.3 (0.1)1.9 (0.2)/1.4 (0.1)2.0 (0.1)/1.5 (0.1)2.0/1.5/149k个
隐马尔可夫模型1.9 (0.2)/1.4 (0.1)2.0 (0.2)/1.4 (0.1)2.0 (0.1)/1.4 (0.1)2.0/1.4/134千克

对于简化的数据(s2r2、s3r2和s3r4),保守的TFBS(rc)和TFBS富集(rt)显示为rc(se)/rt(se)。rc和rt是三个独立分析的平均值,se是平均值的标准误差。当分析所有18个阵列时(s3r6),se无法计算,而是显示了预测区域中非重复碱基nb的数量。结果的格式为rc/rt/nb。

表1

预测结合区cMyc结合位点富集

方法第二季度第3r2条第3代第4代第3条第6款
GTRANS公司1.2 (0.1)/1.1 (0.1)1.4 (0.1)/1.1 (0.1)1.8(0.1)/1.4(0.1)1.9/1.5/96公里
MA-N/凯尔斯1.6 (0.2)/1.1 (0.1)1.9 (0.3)/1.4 (0.2)2.0 (0.1)/1.5 (0.1)2.0/1.5/150k
MA-S公司1.7 (0.2)/1.3 (0.1)1.9 (0.2)/1.4 (0.1)2.0 (0.1)/1.5 (0.1)2.0/1.5/149k个
隐马尔可夫模型1.9 (0.2)/1.4 (0.1)2.0 (0.2)/1.4 (0.1)2.0 (0.1)/1.4 (0.1)2.0/1.4/134k个
方法第二季度第3层第2层第3代第4代第3条第6款
GTRANS公司1.2 (0.1)/1.1 (0.1)1.4 (0.1)/1.1 (0.1)1.8 (0.1)/1.4 (0.1)1.9/1.5/96公里
MA-N/凯尔斯1.6 (0.2)/1.1 (0.1)1.9 (0.3)/1.4 (0.2)2.0 (0.1)/1.5 (0.1)2.0/1.5/150k
MA-S公司1.7 (0.2)/1.3 (0.1)1.9 (0.2)/1.4 (0.1)2.0 (0.1)/1.5 (0.1)2.0/1.5/149k个
隐马尔可夫模型1.9 (0.2)/1.4 (0.1)2.0 (0.2)/1.4 (0.1)2.0 (0.1)/1.4 (0.1)2.0/1.4/134千克

对于简化的数据(s2r2、s3r2和s3r4),保守的TFBS(rc)和TFBS富集(rt)显示为rc(se)/rt(se)。rc和rt是三个独立分析的平均值,se是平均值的标准误差。当分析所有18个阵列时(s3r6),se无法计算,而是显示了预测区域中非重复碱基nb的数量。结果的格式为rc/rt/nb。

表2

GTRANS、MA-N、MA-S和HMM对p53数据的敏感性

方法第二季度第3r2条第3代第4代第3条第6款
GTRANS公司3.3/4.7/8.74.3/8.0/11.75.0/9.3/12.36.0/10.0/12.0
MA-N/凯尔斯0.7/1.0/4.06.3/9.0/12.76.0/10.0/13.06.0/10.0/13.0
MA-S公司6.0/10.0/13.06.7/10.0/12.76.0/10.0/13.06.0/10.0/13.0
隐马尔可夫模型7.0/9.7/11.3版6.7/9.0/12.36.3/9.7/13.07.0/10.0/13.0
MA-N/凯尔斯/30.0/0.0/1.33.0/4.3/9.74.3/6.0/12.04.0/5.0/12.0
MA-S/3型3.3/6.0/11.03.7/6.0/11.04.7/5.3/12.04.0/5.0/12.0版本
HMM/3型4.0/5.0/9.05.0/6.3/10.74.3/6.7/10.75.0/7.0/11.0
方法第二季度第3r2条第3代第4代第3条第6款
GTRANS公司3.3/4.7/8.74.3/8.0/11.75.0/9.3/12.36.0/10.0/12.0
MA-N/凯尔斯0.7/1.0/4.06.3/9.0/12.76.0/10.0/13.06.0/10.0/13.0
MA-S公司6.0/10.0/13.06.7/10.0/12.76.0/10.0/13.06.0/10.0/13.0
隐马尔可夫模型7.0/9.7/11.3版6.7/9.0/12.36.3/9.7/13.07.0/10.0/13.0
MA-N/凯尔斯/30.0/0.0/1.33.0/4.3/9.74.3/6.0/12.04.0/5.0/12.0
MA-S/3型3.3/6.0/11.03.7/6.0/11.04.7/5.3/12.04.0/5.0/12.0版本
HMM/3型4.0/5.0/9.05.0/6.3/10.74.3/6.7/10.75.0/7.0/11.0

前10名中实验验证的p53区域数量(n个1) ,前20名(n个2) 和所有地区(n个3) 通过不同的方法进行识别,如下所示n个1/n个2/n个3.对于简化的数据(s2r2、s3r2和s3r4),显示的数字是三次分析的平均值。

表2

GTRANS、MA-N、MA-S和HMM对p53数据的敏感性

方法第二季度第3r2条第3代第4代第3条第6款
GTRANS公司3.3/4.7/8.74.3/8.0/11.75.0/9.3/12.36.0/10.0/12.0
MA-N/凯尔斯0.7/1.0/4.06.3/9.0/12.76.0/10.0/13.06.0年10月13日
MA-S公司6.0/10.0/13.06.7/10.0/12.76.0/10.0/13.06.0/10.0/13.0
隐马尔可夫模型7.0/9.7/11.36.7/9.0/12.36.3/9.7/13.07.0/10.0/13.0
MA-N/凯尔斯/30.0/0.0/1.33.0/4.3/9.74.3年6月12日4.0/5.0/12.0
MA-S/3型3.3/6.0/11.03.7/6.0/11.04.7/5.3/12.04.0/5.0/12.0
HMM/3型4.0/5.0/9.05.0/6.3/10.74.3/6.7/10.75.0/7.0/11.0
方法第二季度第3r2条第3代第4代第3条第6款
GTRANS公司3.3/4.7/8.74.3/8.0/11.75.0/9.3/12.36.0/10.0/12.0
MA-N/凯尔斯0.7/1.0/4.06.3/9.0/12.76.0/10.0/13.06.0年10月13日
MA-S公司6.0/10.0/13.06.7/10.0/12.76.0/10.0/13.06.0/10.0/13.0
隐马尔可夫模型7.0/9.7/11.36.7/9.0/12.36.3/9.7/13.07.0/10.0/13.0
MA-N/凯尔斯/30.0/0.0/1.33.0/4.3/9.74.3年6月12日4.0/5.0/12.0
MA-S/3型3.3/6.0/11.03.7/6.0/11.04.7/5.3/12.04.0/5.0/12.0
HMM/3型4.0/5.0/9.05.0/6.3/10.74.3/6.7/10.75.0/7.0/11.0

前10名中实验验证的p53区域数量(n个1) ,前20名(n个2) 和所有地区(n个3) 通过不同的方法进行识别,如下所示n个1/n个2/n个3.对于简化的数据(s2r2、s3r2和s3r4),显示的数字是三次分析的平均值。

表3

UMS测试的仿真设计

编号目标区域内(H(H)= 1)目标区域外部(H(H)= 0)
I–III通用:Δ1= Δ2= 0
Δ1= |第页1|, Δ2= |第页2|Δ1,Δ2N个(0,0.25)
第页 1,第页2N个(1,0.25)Δij公司s都是独立的
第页 ij公司s都是独立的Δ1= Δ2=0加上两种具有其他图案的绑定区域:
(a) Δ1= 0, Δ2= |第页2|
(b) Δ1= |第页1|, Δ2= 0
第页 1,第页2N个(1,0.25)内径
编号目标区域内(H(H)= 1)目标区域外(H(H)= 0)
I–III通用:Δ1= Δ2= 0
Δ1= |第页1|, Δ2= |第页2|Δ1, Δ2N个(0,0.25)
第页 1,第页2N个(1,0.25)Δij公司s都是独立的
第页 ij公司s都是独立的Δ1= Δ2=0加上两种具有其他图案的绑定区域:
(a) Δ1= 0, Δ2= |第页2|
(b) Δ1= |第页1|, Δ2= 0
第页 1,第页2N个(1,0.25)内径
表3

UMS测试仿真设计

编号在目标区域内(H(H)= 1)目标区域外部(H(H)= 0)
I–III通用:Δ1= Δ2= 0
Δ1= |第页1|, Δ2= |第页2|Δ1, Δ2N个(0,0.25)
第页 1,第页2N个(1,0.25)Δij公司s都是独立的
第页 ij公司s都是独立的Δ1= Δ2=0加上两种具有其他图案的绑定区域:
(a) Δ1= 0, Δ2= |第页2|
(b) Δ1= |第页1|, Δ2= 0
第页 1,第页2N个(1,0.25)内径
编号目标区域内(H(H)= 1)目标区域外部(H(H)=0)
I–III通用:Δ1= Δ2= 0
Δ1= |第页1|, Δ2= |第页2|Δ1, Δ2N个(0,0.25)
第页 1,第页2N个(1,0.25)Δij公司s都是独立的
第页 ij公司s都是独立的Δ1= Δ2=0加上两种具有其他图案的绑定区域:
(a) Δ1= 0, Δ2= |第页2|
(b) Δ1= |第页1|, Δ2= 0
第页 1,第页2N个(1,0.25)内径

图4

模拟I–III中UMS和置换测试的局部错误发现率估计。t吨(第页)=t吨(1).UMS应用于四种不同的t吨(q个)设置:t吨(q个)=第2、第5、第10、第50百分位t吨黑色曲线对应于真实的lfdr。()模拟I,基于t吨方差不收缩;(b条)模拟I,基于t吨方差收缩;(c(c))模拟II,基于t吨方差不收缩;(d日)模拟III,基于t吨方差缩小。

作者感谢Simon Cawley提供了21号和22号染色体的ChIP-ChIP数据,感谢Xiaole S.Liu对使用HMM分析平铺数组进行的有益讨论,感谢两位匿名推荐人对改进论文提出的宝贵建议。这项工作得到了NIH拨款GM-067250的部分支持。支付本文开放存取出版费用的资金由同一笔赠款提供。

利益冲突:没有声明。

参考文献

Baldi,P.和Long,A.D。

2001
微阵列表达数据分析的贝叶斯框架:基因变化的正则化t检验和统计推断。
生物信息学
17
509
–519

Bolstad,B.M.等人。

2003
基于方差和偏差的高密度寡核苷酸阵列数据归一化方法的比较。
生物信息学
19
185
–193

Cawley,S.等人。

2004
人类21号和22号染色体上转录因子结合位点的无偏定位表明非编码RNA的广泛调控。
单元格
116
499
–509

Kampa,D.等人。

2004
通过对人类21号和22号染色体转录组的深入分析鉴定出新的RNA。
基因组研究。
14
331
–342

Kapranov,P.等人。

2002
染色体21和22的大规模转录活性。
科学
296
916
–919

Kapranov,P.等人。

2003
除了表达谱分析:下一代使用高密度寡核苷酸阵列。
简介。功能。基因组学。蛋白质组学。
2
47
–56

Keles,S.、van der Laan,M.J.、Dudoit,S.和Cawley,S.E。

2004
ChIP-ChIP高密度寡核苷酸阵列数据的多种测试方法。
工作论文系列,论文147
加州大学伯克利分校

Li,W.等人。

2005
用于分析基因组平铺阵列上的ChIP芯片实验的隐马尔可夫模型及其在p53结合序列中的应用。
生物信息学
21
补充1,
i274型
–i282

C.N.莫里斯。

1983
具有二次方差函数的自然指数族:统计理论。
统计年鉴
11
515
–529

Newton,M.A.等人。

2004
用半参数分层混合方法检测差异基因表达。
生物统计学
5
155
–176

G.K.史密斯。

2004
用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。
统计应用程序。遗传学。分子生物学。
第3条

Storey,J.D.和Tibshirani,R。

2003
全基因组研究的统计意义。
程序。美国国家科学院。科学。美国
100
9440
–9445

Tusher,V.G.等人。

2001
微阵列用于电离辐射反应的显著性分析。
程序。美国国家科学院。科学。美国
98
5116
–5121

补充数据