复合泊松过程模型
让N个是cDNA文库中用转录物表示的基因的数量。X(X)= {X(X)1, ...,X(X)N个}将是从每个不同的基因物种中观察到的标签数量。If基因我在EST样本中未捕获,则X(X)我= 0. 让,用于j个= 0,1, ......, 是具有j个样品中的EST,D类= ∑j> 0个n个j个是观察到的总数S公司=∑j> 0个jn公司j个为当前EST样本量。估算N个相当于零类大小的估计n个0。我们称之为汇总数据n个= {n个1,n个2, ...}基因簇图谱数据。
让第页我是基因的转录丰度我,即。EST测序中每个基因的EST捕获可被视为泊松过程,其中EST样本大小S公司测量“时间”和第页我起到泊松平均参数率的作用,即观察概率x个我来自基因的EST我等于泊松分布可视为实际二项式分布的近似值箱子(S、 第页我)对于一个大S公司还有一个小小的第页我[31]. 在不损失通用性的情况下,我们将当前样本量视为一个单位时间,并让λ我=服务提供商我.因此,额外取样S公司1EST对应于时间间隔[1,1+t]上的泊松过程,其中吨=S公司1/S公司.考虑到转录物丰度的实质异质性第页我(因此λ我),我们进一步假设λ我遵循未知的非退化分布问(λ) 。The marginal distribution ofX(X)然后遵循复合泊松过程[29,32],即。
让D类是泊松过程中捕获的不同基因的数量[0,1]和D类吨是[1,1+t]上捕获的其他不同基因,那么(D、 D类吨)具有如下多项式分布
哪里
q个1≡q个1(问) = ∫ (1 -e(电子)-λ)dQ公司(λ),q个吨≡q个吨(问) = ∫e(电子)-λ(1 -e(电子)-吨λ)dQ公司(λ).
用文字来说,q个1是在[0,1]上从随机基因中观察到至少一个标签的概率,并且q个吨是指在[0,1]上观察到零标记,但在[1,1+t]上至少观察到1标记。
在EST问题中,一个关注点是期望在时间段内捕获更多不同的基因[1,1+t吨]给定当前EST数据。等式(1)中的分布形式意味着条件捕获D类吨给定当前样本仅取决于D类更明确地说D类吨|D类是二项式(N个-D类,),因此
要计算期望值,需要估计N个和问第一。如果问我们已经知道了
E类(D类) =Nq公司1.
观察到的总数D类是对E类(D类). 最大似然估计N个是[33]. 自问未知,我们可以得到一个估计通过非参数最大似然估计(参见方法)。更换q个1,q个吨通过和N个通过在(2)中给出了E类(D类吨|D类)作为
.
从另一个角度来看,由于E类(D类吨) =编号吨,更换N个通过和q个吨通过给出了无条件平均值的估计E类(D类吨)作为
这与上述推导。换句话说,数量可以用作条件或无条件均值的估计量。在模拟研究部分,我们将研究此估计器在这两个角色方面的性能。
为了测量测序效率,我们定义了预期排序冗余ρ为每个基因的平均EST计数。时间1时ρ的估计+吨将是
![保存图片、插图等的外部文件。对象名为1471-2105-6-300-i17.gif](/pmc/articles/PMC1369009/bin/1471-2105-6-300-i17.gif)
的方法问方法中介绍了估计、置信区间构建和cDNA文库重叠估计。
模拟研究
估计无条件平均值E类(D类吨)
为了研究所提出的复合泊松过程方法(以下称为CPP)作为无条件均值估计量的性能,我们从以下三个设置中创建了三个伪cDNA库:(I)N个=5000,转录物丰度遵循对数正态分布; (II)N个=10000和第页我平均值为0.5的指数分布,即。(f)(圆周率)=2e-2圆周率;和(III)N个=10000和第页我γ分布α=0.2,β=3,即。.
根据转录物的相对丰度,从每个环境中抽取200个蒙特卡洛样本,样本大小S=3000(I),S=6000(II),S=5000(III),即。这三种分布都向右倾斜(见图),这似乎是从大多数EST数据集中观察到的表达模式的合理表征。表中比较了CPP方法的结果由于现有的非参数经验贝叶斯方法[29,34],(已由Susko和Roger实施[21]在EST数据分析程序中伊涅可在获取[35](以下称为SR方法)。
模拟中mRNA转录物的相对丰度分布。(一) 对数正态:(二) 指数:(f)(第页我) = 2e(电子)−2第页我和(III)γ:
表1
无条件均值估计中CPP方法与非参数eB方法的比较E类(D类吨). 理论无条件平均值吨基于复合泊松过程模型计算,即。E类(D类吨) =编号吨哪里q个吨根据CPP模型进行计算。CPP或SR行中的条目是基于200个蒙特卡罗样本的均方根误差(rMSE)(括号内)的平均值和根。A-(-)表示由于SR方法的估计值非常大或为负,因此未计算平均值或rMSE。对于(I),氮q1和S公司分别为5000、0.36和3000;对于(II),分别为10000、0.375、6000和(III)10000、0.221、5000。
| 吨 | 0.5 | 1 | 1.5 | 2 |
(一) | E类(D类吨) | 497 | 873 | 1168 | 1406 |
| 清洁石油产品 | 500(16.4) | 873(35.6) | 1160(58.8) | 1386(85.8) |
| SR公司 | 501(17.3) | 877(43) | -(-) | -(-) |
|
(二) | E类(D类吨) | 988 | 1707 | 2253 | 2682 |
| 清洁石油产品 | 985(21.4) | 1697(48.8) | 2230(83.7) | 2639(125.6) |
| SR公司 | 985(22.1) | 1698(58.4) | 2218(183.3) | -(-) |
|
(三) | E(D
吨
] | 464 | 801 | 1062 | 1273 |
| 清洁石油产品 | 462(15.9) | 793(36.5) | 1045(62.5) | 1242(93.5) |
| SR公司 | 463(16.7) | 799(45.2) | -(-) | -(-) |
三种不同转录物丰度分布下的模拟得出了非常相似的结论。CPP方法为以下方面提供了非常可靠的估计吨≤2,而SR方法仅适用于吨≤1(但在rMSE方面低于CPP方法)。什么时候?吨≤1时,不推荐使用SR方法,因为它经常产生负的或极为可变的估计值。
估计条件平均值E类(D类吨|D类)
由于我们的主要兴趣是在一段时间内可以捕获的额外的不同基因[1,1+吨]以当前捕获为条件D类,即。E类(D类吨|D类),我们现在基于情景(I)和(II)中模拟的两个典型EST样本来研究CPP方法在这方面的性能。
第一个EST集是根据情景(I)以样本大小模拟的S公司= 3000. 由此产生的基因簇剖面数据为n个= (n个1...n个10)=(1162、392、170、63、21、12、8、5、1、1),以及D类=1835占36.7%N个= 5000. 表达基因总数的点估计为=5023,95%引导置信区间(3617,5492)。随着初始样本的固定,我们已经恢复了另外1500、3000、4500和6000个EST的采样(对应于时间吨=0.5、1、1.5、2),各200次。在每个样本中记录额外新基因的实际捕获吨200个蒙特卡洛估计值的样本平均值用于近似真实条件平均值E类(D类吨|D类)以下(注:蒙特卡洛平均值D类吨|D类基于200个样本是对E类(D类吨|D类)自D类吨|D类遵循二项式分布(方程(1))。
我们的方法预测,在这些额外的样本中,预计将捕获大约4958701171和1421个额外的不同基因,置信区间为95%E类(D类吨|D类)分别为(470,514),(801,908),(1043,1227)和(1223,1501),它们很好地覆盖了相应的预期条件平均值502,876,1168和1403。
虽然SR方法伊涅为定义了E类(D类吨)在EST测序中,人们打算使用它来生成条件捕获的近似估计E类(D类吨|D类)考虑到当前的EST样本,这是直接感兴趣的。点估计值和相应的标准误差(在下面的括号中)E类(D类吨)来自伊涅分别为501(17.63)、889(42.67)、1128(144.96)、244(1333.8)吨=0.5,1,1.5,2,95%置信区间(根据±1.96*标准误差)分别为(466536)、(805973)、(8441412)和(02857)。我们将最后一个置信区间的下限设置为零,因为E类(D类吨)必须大于零。点估计值吨SR法的=2为244;这是不合理的,因为它在t=2时预测的基因比在t=0.5时预测的基因更少。
第二个例子是通过设置(II)(S=6000)和基因簇剖面数据生成的n个=(n1...n个10) = (2349, 888, 321,133,50,11,5,1,1,1). 样本基因总数为D类=3760,占37.6%N个估计表达基因总数为8185个,95%的bootstrap置信区间(745510441)。
我们的模型预测,如果增加3000、6000、9000和12000个样本,我们将分别捕获991、1715、2266和2697个不同的基因,置信区间为95%(9541005)、(16261761)、(2118、2375)和(2479、2884),再次很好地覆盖了预期的条件捕获988、1699、2238和2660。
这个伊涅程序给出了点估计E类(D类吨)标准误差(括号中)为986(25.4)、1692(61.3)、2158(202.8)和-718(4082),对应95%置信区间(9361036)、(15721812)(17612555)和(07446)(与第一个示例中的原因相同,最后一个区间的下限设为0)。
在我们进行的许多模拟中,这两个案例研究是典型的,其中丰度分布高度向右倾斜,只有一小部分基因在初始EST样本中被捕获。根据我们的经验,我们发现E类(D类吨|D类)总是很好地掩盖了真正的卑鄙E类(D类吨|D类)(近似于我们模拟中蒙特卡罗样本的平均值)吨≤ 2. 虽然SR方法是为E类(D类吨),它可以用于为条件捕获提供近似估计E类(D类吨|D类)的吨≤1,但通常不建议吨≥ 1.
真实数据
我们现在将提出的方法应用于四个cDNA文库拟南芥包括绿色鳞茎(3'EST)、2-6周的地上器官(5',称为ABGR)、根(5')和花芽(3'),从NCBI dbEST获得(可在补充材料中获得)。所有四个cDNA文库均进行了标准化和大小选择[36]. 使用CAP3和重叠规则对EST进行聚类哦=40 bp,恒等式规则P(P)=90%,其他参数保留默认值。对于ABGR和根数据(5’EST),使用校正矩阵对观察到的聚类计数进行ISO误差校正P(P)10模拟自拟南芥EST数据依据[27](见补充材料)。对于silique和花蕾组(3'),基因簇分布n个直接从CAP3聚类结果中总结。这个n个表中列出了这四组基因的数据和估计表达基因数(基因簇剖面数据的完整列表n个可以在补充材料中找到)。
表2
在四个cDNA文库中表达的基因数量拟南芥该表列出了基因簇概况数据(nj个),EST样本量(EST总计),观察到的基因数(通用obsvd),估计表达基因总数(通用电气标准)和95%置信区间(95%C.一4套EST,包括Silique、ABGR、Root、Flower bud;和2个集合集合,包括ABGR+根(A+R)、Silique+花蕾(S+F)。
n个
j个
| 硅树脂 | ABGR公司 | 根 | 花蕾 | A+R公司 | 标准+F |
n个1 | 2963 | 1969 | 2187 | 1801 | 3333 | 3749 |
n个2 | 994 | 459 | 490 | 367 | 951 | 1270 |
n个三 | 440 | 182 | 133 | 140 | 312 | 566 |
n个4 | 222 | 69 | 121 | 69 | 211 | 295 |
n个5 | 124 | 58 | 37 | 40 | 122 | 182 |
n个6 | 73 | 28 | 51 | 25 | 66 | 109 |
n个7 | 59 | 17 | 22 | 22 | 40 | 80 |
n个8 | 42 | 20 | 19 | 10 | 35 | 49 |
n个9 | 27 | 7 | 7 | 15 | 29 | 48 |
n个10 | 19 | 19 | 8 | 12 | 25 | 33 |
| 130 | 55 | 51 | 63 | 119 | 214 |
|
EST总计 | 12330 | 5812 | 5891 | 5503 | 11529 | 17784 |
通用obsvd | 5093 | 2883 | 3126 | 2564 | 5243 | 6595 |
通用电气标准 | 12005 | 9492 | 9155 | 9232 | 12720 | 15333 |
95%置信区间。 | (11137,15300) | (7823,11585) | (8160,11444) | (778011381) | (1198715579) | (13202,17400) |
表中的结果结果表明,绿色鳞茎组织文库中存在约12005个基因,而ABGR、根和花芽cDNA文库中分别存在9492、9155和9232个基因。这可能是绿色的silique比其他三种表达更多的基因。然而,我们缺乏信心得出结论,因为图书馆筛选(例如尺寸选择)可能会导致这种差异;此外,由于样本量相对较小,后三组数据可能被低估。这四个数据集的95%引导置信区间分别为(1113715300)、(782311585)、(816011444)和(778011381),也不能支持差异的显著性。
在实践中,通常对近期的测序进行预测,例如吨≤2(额外排序≤2S公司EST,其中S公司是原始样本大小)。在这种情况下,即使存在以下偏差,预测也可以足够准确基于我们的经验(详见讨论)。我们现在使用绿色硅片、ABGR、根和花芽数据来预测大小为0.5的额外样本中的基因捕获S公司, 1S公司, 1.5S公司和2S公司(或吨=0.5,1,1.5,2,注:S公司不同的EST集合不同)。结果如表所示.在图中,我们绘制基因捕获图(D类+)与EST样本量(1+吨) *S公司),预期冗余()与预期的基因捕获(D类+)以及预期冗余与EST样本量((1+t)*S)的对比(其他三组的结果相似)。
表3
在0.5S、1S、1.5S和2S大小的额外样本中预测基因捕获。该表显示了对E类(D类吨|D类)尺寸为0.5S、1S、1.5S和2S(或吨=0.5,1,1.5,2),95%引导置信区间(括号内),其中S公司是原始EST样本的样本量。
| 0.5秒 | 1S(秒) | 1.5秒 | 2秒 |
Silique公司 | 1274(12351302) | 2253(21592328) | 3037 (2878,3172) | 3678 (3450,3873) |
ABGR公司 | 883 (854,906) | 1616 (1540,1674) | 2238 (2106,2345) | 2776 (2577,2941) |
根 | 989(964,1011) | 1806 (1737,1863) | 2488(2363,2611) | 3060(28713256) |
花 | 820 (795,837) | 1518(1453,1557) | 2126 (2009,2198) | 2659 (2480,2781) |
绿色silique数据的基因捕获和冗余预测。表达基因总数的估计为= 12005. 图(A)显示了预期的基因捕获E类(D类吨|D类)95%置信限随着EST样本量的增加而增加;图(B)和(C)显示了预期EST冗余ρ1+吨会随着预期的基因捕获而增加(=D类+E类(D类吨|D类))和EST样本量(=(1+吨)S公司)
对于silique数据,如果12330个EST的额外样本(吨=1)测序后,我们预计将捕获2253个不同基因中的额外基因。第二个样本中每EST的平均基因捕获量为0.18(=2253/12330)。对于ABGR、根和花芽组,此数量(在吨=1)分别为0.28、0.31和0.28。图中silique的基因捕获图EST样本量呈凹形,表明随着额外测序,效率预计会下降。测序冗余被定义为每个基因的平均EST计数,在基因捕获中显示出略微凸的关系(图)EST样本量大致呈线性(图). 注意,这四个cDNA文库是在相同的标准化协议下生成的[36]; 对于非标准化库,随着测序的进行,冗余度可能会以更高的速度增加。
现在我们来估计在两对组织中联合表达或共表达的基因数量:角果+花(3')和ABGR+根(5')。如果我们允许D类1,D类2和D类1∪2为文库1、2和集合中观察到的基因总数,则观察到的共表达基因数为D类1∩2=D类1+D类2-D类1∪2,与估计重叠类似.估计N个在silique和花蕾对中为15333,这表明估计有5904(=9232+12005-15333)个基因共同表达,而观察到的是1062(=5093+2564-6595)个基因。也就是说,花芽组织中约64%(5904/9232)的基因实际上是在绿色的鳞片组织中共同表达的,远高于观察到的41%(1062/2564)。对于第二对,集合的估计总数为12720,这表明5927个(=9492+9155-12720)基因的重叠占根组织总数的65%,而观察到的766个(=2883+31265-243)基因的重叠仅为25%。很明显,就共表达基因的百分比而言,真正的库间相似性远高于直接观察到的相似性。