Gene capture prediction and overlap estimation in EST sequencing from one or multiple libraries

Ji-Ping Z Wang; Bruce G Lindsay; Liying Cui; P Kerr Wall; Josh Marion; Jiaxuan Zhang; Claude W dePamphilis

doi:10.1186/1471-2105-6-300

BMC生物信息学。2005; 6: 300.

2005年12月13日在线发布。数字对象标识：10.1186/1471-2105-6-300

预防性维修识别码：项目经理1369009

PMID：16351717

一个或多个文库EST测序中的基因捕获预测和重叠估计

吉平Z王,¹ 布鲁斯·林赛,² 崔丽英,^三 P克尔墙,^三乔什·马里恩,⁴ 张家璇,⁵和克劳德·德帕姆菲利斯^三

作者信息文章注释版权和许可信息 PMC免责声明

摘要

背景

在表达序列标签（EST）测序中，我们通常对在目标大小的EST样本中可以捕获多少基因感兴趣。这些信息为实验设计中的测序效率提供了见解，也为构建文库的组织中表达基因的多样性提供了线索。

结果

我们提出了一个复合泊松过程模型，该模型可以基于初始EST样本准确预测未来EST样本中的基因捕获。它还可以估计一个cDNA文库中或两个cDNA库中共同表达的基因数量。通过仿真研究，确定了新预测方法优于现有方法的优越性能。我们对四个拟南芥EST集表明，在四个不同的cDNA文库中表达的基因数量拟南芥从9155（根）到12005（silique）不等。在两个不同的EST集合中观察到的共表达基因的比例低至25%，就相当于实际重叠比例大于65%。

结论

该方法为EST测序中的基因捕获预测和cDNA文库属性诊断提供了一种方便的工具。

背景

表达序列标签（EST）集调查cDNA库中两类重要信息：转录序列和转录物丰度[1]. 这两者都可以通过EST聚类获得，这是一个识别和组装同胞EST（来自同一基因的EST）的过程[2-8]. 每个簇中EST的组装是一个部分或完全恢复的转录物（如果没有聚类错误），每个簇中的EST数量代表cDNA文库中该转录物或mRNA物种的丰度。序列信息极大地促进了基因组研究中的许多应用，包括基因索引系统的构建、新基因发现、基因组注释、SNP分型、剪接检测和微阵列探针设计[9-18]. EST数据传递的转录物丰度信息已用于基因表达分化和基因发现率估计[19-21].

在本文中，我们考虑了需要对表达数据建模以推断cDNA库属性的多个应用程序。感兴趣的关键问题包括，（a）根据同一文库的当前EST数据，在目标大小的额外样本中可以捕获多少新基因？（b）根据EST数据，一个组织或多个组织中有多少基因表达？（c）两个组织中共表达了多少基因？我们相信，这些问题的答案不仅将提供新的线索，以了解接受EST测序的广泛多样性生物体中表达基因的多样性，还将提供一种预测测序结果的方法。例如，表达基因的重叠可以指示两个组织的功能相似性；从额外样本中捕获的预期基因可能有助于预算未来的测序工作。

作为“表达证据”，EST数据在基因注释和推断生物体转录组中表达基因的数量方面已经发挥了关键作用[22-25]. 然而，仅基于EST数据直接估计基因捕获或组织中表达的基因总数存在两大挑战。第一个挑战来自EST聚类错误。不同来源的错误会使观察到的基因数量增加35%–40%[25-27]. 对于5’EST，假分离错误尤其成问题；同胞EST（来自同一基因的EST）之间的重叠不足可以解释高达80%的聚类错误[27]. 在本文中，5’EST的基因簇剖面数据（定义如下）是在使用[27].

鉴于EST聚类已经产生了良好的数据，准确预测未来测序实验中预期的基因捕获仍然是一个挑战。问题（a）最近由解决[21]其中，在比初始样本大的额外样本中预测基因捕获需要对转录物丰度分布进行参数拟合，以避免估计器的野生变异（即，数据适合于从泊松-伽马设置导出的负二项模型，该设置允许伽马中的α参数<0，另请参见[28,29])。然而，对转录物丰度分布（此处为Gamma）的不当假设可能会导致估计中的系统偏差[30]. 这种方法在EST问题中的性能已经得到了很好的验证。

本文提出了一种复合泊松过程方法，用于准确预测EST测序中的基因捕获。新预测方法的性能优于由实现的现有方法[21]在计算机程序中伊涅通过仿真研究建立。我们讨论了如何应用此方法来估计在一个cDNA文库中表达的基因数量，或在两个文库中共同表达的基因的数量。最后，我们用开花植物的四个EST集合说明了新的预测方法拟南芥.

结果和讨论

复合泊松过程模型

让N个是cDNA文库中用转录物表示的基因的数量。X（X）= {X（X）₁, ...,X（X）_N个}将是从每个不同的基因物种中观察到的标签数量。If基因我在EST样本中未捕获，则X（X）_我= 0. 让 ${n个}_{j个} = \sum_{我 = 1}^{N个} 我 ({X（X）}_{我} = j个)$ ，用于j个= 0,1, ......, 是具有j个样品中的EST，D类= ∑_{j> 0个}n个_j个是观察到的总数S公司=∑_{j> 0个}jn公司_j个为当前EST样本量。估算N个相当于零类大小的估计n个₀。我们称之为汇总数据n个= {n个₁,n个₂, ...}基因簇图谱数据。

让第页_我是基因的转录丰度我，即。 $\sum_{我 = 1}^{N个} {第页}_{我} = 1$ EST测序中每个基因的EST捕获可被视为泊松过程，其中EST样本大小S公司测量“时间”和第页_我起到泊松平均参数率的作用，即观察概率x个_我来自基因的EST我等于 $（f） ({x个}_{我}; S公司, {第页}_{我}) = \frac{{e（电子）}^{- S公司 {第页}_{我}} {(S公司 {第页}_{我})}^{{x个}_{我}}}{{x个}_{我}!}$ 泊松分布可视为实际二项式分布的近似值箱子(S、第页_我)对于一个大S公司还有一个小小的第页_我[31]. 在不损失通用性的情况下，我们将当前样本量视为一个单位时间，并让λ_我=服务提供商_我.因此，额外取样S公司₁EST对应于时间间隔[1，1+t]上的泊松过程，其中吨=S公司₁/S公司.考虑到转录物丰度的实质异质性第页_我（因此λ_我)，我们进一步假设λ_我遵循未知的非退化分布问（λ）。The marginal distribution ofX（X）然后遵循复合泊松过程[29,32]，即。

$（f） (x个; 问) = \int \frac{{e（电子）}^{- λ} λ^{x个}}{x个!} d日问 (λ) .$

让D类是泊松过程中捕获的不同基因的数量[0,1]和D类_吨是[1，1+t]上捕获的其他不同基因，那么(D、 D类_吨)具有如下多项式分布

$（f） (D类, {D类}_{吨}; N个, 问) = (\begin{matrix} N个 \\ D类, {D类}_{吨} \end{matrix}) {q个}_{1}^{D类} {q个}_{吨}^{{D类}_{吨}} {(1 - {q个}_{1} - {q个}_{吨})}^{N个 - D类 - {D类}_{吨}}, (1)$

哪里

q个₁≡q个₁(问) = ∫ (1 -e（电子）^-λ)dQ公司(λ),q个_吨≡q个_吨(问) = ∫e（电子）^-λ(1 -e（电子）^-吨λ)dQ公司(λ).

用文字来说，q个₁是在[0,1]上从随机基因中观察到至少一个标签的概率，并且q个_吨是指在[0，1]上观察到零标记，但在[1，1+t]上至少观察到1标记。

在EST问题中，一个关注点是期望在时间段内捕获更多不同的基因[1,1+t吨]给定当前EST数据。等式（1）中的分布形式意味着条件捕获D类_吨给定当前样本仅取决于D类更明确地说D类_吨|D类是二项式(N个-D类, $\frac{{q个}_{吨}}{1 - {q个}_{1}}$ )，因此

$E类 ({D类}_{吨} | D类) = (N个 - D类) \frac{{q个}_{吨}}{1 - {q个}_{1}} . (2)$

要计算期望值，需要估计N个和问第一。如果问我们已经知道了

E类(D类) =Nq公司₁.

观察到的总数D类是对E类(D类). 最大似然估计N个是 $\hat{N个} = \frac{D类}{{q个}_{1}}$ [33]. 自问未知，我们可以得到一个估计 $\hat{问}$ 通过非参数最大似然估计（参见方法）。更换q个₁,q个_吨通过 ${\hat{q个}}_{1} \equiv {q个}_{1} (\hat{问}), {\hat{q个}}_{吨} \equiv {q个}_{吨} (\hat{问})$ 和N个通过 $\hat{N个} = \frac{D类}{{\hat{q个}}_{1}}$ 在（2）中给出了E类(D类_吨|D类)作为

$\overline{E类 ({D类}_{吨} | D类)} = (\frac{D类}{{\hat{q个}}_{1}} - D类) \frac{{\hat{q个}}_{吨}}{1 - {\hat{q个}}_{1}} = D类 \frac{{\hat{q个}}_{吨}}{{\hat{q个}}_{1}}$ .

从另一个角度来看，由于E类(D类_吨) =编号_吨，更换N个通过 $\hat{N个} = \frac{D类}{{\hat{q个}}_{1}}$ 和q个_吨通过 ${\hat{q个}}_{吨}$ 给出了无条件平均值的估计E类(D类_吨)作为

$\overline{E类 ({D类}_{吨})} = D类 \frac{{\hat{q个}}_{吨}}{{\hat{q个}}_{1}},$

这与 $\overline{E类 ({D类}_{吨} | D类)}$ 上述推导。换句话说，数量 $D类 \frac{{\hat{q个}}_{吨}}{{\hat{q个}}_{1}}$ 可以用作条件或无条件均值的估计量。在模拟研究部分，我们将研究此估计器在这两个角色方面的性能。

为了测量测序效率，我们定义了预期排序冗余ρ为每个基因的平均EST计数。时间1时ρ的估计+吨将是

保存图片、插图等的外部文件。对象名为1471-2105-6-300-i17.gif

的方法问方法中介绍了估计、置信区间构建和cDNA文库重叠估计。

模拟研究

估计无条件平均值E类(D类_吨)

为了研究所提出的复合泊松过程方法（以下称为CPP）作为无条件均值估计量的性能，我们从以下三个设置中创建了三个伪cDNA库：（I）N个=5000，转录物丰度遵循对数正态分布 $（f） ({第页}_{我}) = \frac{{e（电子）}^{- {[我 o个克 ({第页}_{我}) - 2]}^{2} / 2}}{\sqrt{2 π} ({第页}_{我})}$ ; （II）N个=10000和第页_我平均值为0.5的指数分布，即。（f）(圆周率)=2e^-2圆周率;和（III）N个=10000和第页_我γ分布α=0.2，β=3，即。 $（f） ({第页}_{我}) = \frac{三^{0.2}}{Γ (0.2)} {第页}_{我}^{- 0.8} {e（电子）}^{- 三 {第页}_{我}}$ .

根据转录物的相对丰度，从每个环境中抽取200个蒙特卡洛样本，样本大小S=3000（I），S=6000（II），S=5000（III），即。 $\frac{{第页}_{我}}{\sum_{我 = 1}^{N个} {第页}_{我}}$ 这三种分布都向右倾斜（见图图1），1)，这似乎是从大多数EST数据集中观察到的表达模式的合理表征。表中比较了CPP方法的结果表11由于现有的非参数经验贝叶斯方法[29,34]，（已由Susko和Roger实施[21]在EST数据分析程序中伊涅可在获取[35]（以下称为SR方法）。

在单独的窗口中打开

图1

模拟中mRNA转录物的相对丰度分布。（一）对数正态： $（f） ({第页}_{我}) = \frac{{e（电子）}^{- {[我 o个克 ({第页}_{我}) - 2]}^{2} / 2}}{\sqrt{2 π} ({第页}_{我})}$ （二）指数：（f）(第页_我) = 2e（电子）^{−2第页_我}和（III）γ： $（f） ({第页}_{我}) = \frac{三^{0.2}}{Γ (0.2)} {第页}_{我}^{- 0.8} {e（电子）}^{- 三 {第页}_{我}}$

表1

无条件均值估计中CPP方法与非参数eB方法的比较E类(D类_吨). 理论无条件平均值吨基于复合泊松过程模型计算，即。E类(D类_吨) =编号_吨哪里q个_吨根据CPP模型进行计算。CPP或SR行中的条目是基于200个蒙特卡罗样本的均方根误差（rMSE）（括号内）的平均值和根。A-（-）表示由于SR方法的估计值非常大或为负，因此未计算平均值或rMSE。对于（I），氮q₁和S公司分别为5000、0.36和3000；对于（II），分别为10000、0.375、6000和（III）10000、0.221、5000。

	吨	0.5	1	1.5	2
（一）	E类(D类_吨)	497	873	1168	1406
	清洁石油产品	500(16.4)	873(35.6)	1160(58.8)	1386(85.8)
	SR公司	501(17.3)	877(43)	-(-)	-（-）

（二）	E类(D类_吨)	988	1707	2253	2682
	清洁石油产品	985(21.4)	1697(48.8)	2230(83.7)	2639(125.6)
	SR公司	985(22.1)	1698(58.4)	2218(183.3)	-(-)

（三）	E（D_吨]	464	801	1062	1273
	清洁石油产品	462(15.9)	793(36.5)	1045(62.5)	1242(93.5)
	SR公司	463(16.7)	799(45.2)	-(-)	-(-)

在单独的窗口中打开

三种不同转录物丰度分布下的模拟得出了非常相似的结论。CPP方法为以下方面提供了非常可靠的估计吨≤2，而SR方法仅适用于吨≤1（但在rMSE方面低于CPP方法）。什么时候？吨≤1时，不推荐使用SR方法，因为它经常产生负的或极为可变的估计值。

估计条件平均值E类(D类_吨|D类)

由于我们的主要兴趣是在一段时间内可以捕获的额外的不同基因[1，1+吨]以当前捕获为条件D类，即。E类(D类_吨|D类)，我们现在基于情景（I）和（II）中模拟的两个典型EST样本来研究CPP方法在这方面的性能。

第一个EST集是根据情景（I）以样本大小模拟的S公司= 3000. 由此产生的基因簇剖面数据为n个= (n个₁...n个₁₀)=（1162、392、170、63、21、12、8、5、1、1），以及D类=1835占36.7%N个= 5000. 表达基因总数的点估计为 $\hat{N个}$ =5023，95%引导置信区间（3617，5492）。随着初始样本的固定，我们已经恢复了另外1500、3000、4500和6000个EST的采样（对应于时间吨=0.5、1、1.5、2），各200次。在每个样本中记录额外新基因的实际捕获吨200个蒙特卡洛估计值的样本平均值用于近似真实条件平均值E类(D类_吨|D类)以下（注：蒙特卡洛平均值D类_吨|D类基于200个样本是对E类(D类_吨|D类)自D类_吨|D类遵循二项式分布（方程（1））。

我们的方法预测，在这些额外的样本中，预计将捕获大约4958701171和1421个额外的不同基因，置信区间为95%E类(D类_吨|D类)分别为（470，514），（801，908），（1043，1227）和（1223，1501），它们很好地覆盖了相应的预期条件平均值502，876，1168和1403。

虽然SR方法伊涅为定义了E类(D类_吨)在EST测序中，人们打算使用它来生成条件捕获的近似估计E类(D类_吨|D类)考虑到当前的EST样本，这是直接感兴趣的。点估计值和相应的标准误差（在下面的括号中）E类(D类_吨)来自伊涅分别为501（17.63）、889（42.67）、1128（144.96）、244（1333.8）吨=0.5,1,1.5,2，95%置信区间（根据 $\overline{E类 ({D类}_{吨})}$ ±1.96*标准误差)分别为（466536）、（805973）、（8441412）和（02857）。我们将最后一个置信区间的下限设置为零，因为E类(D类_吨)必须大于零。点估计值吨SR法的=2为244；这是不合理的，因为它在t=2时预测的基因比在t=0.5时预测的基因更少。

第二个例子是通过设置（II）（S=6000）和基因簇剖面数据生成的n个=（n₁...n个₁₀) = (2349, 888, 321,133,50,11,5,1,1,1). 样本基因总数为D类=3760，占37.6%N个估计表达基因总数为8185个，95%的bootstrap置信区间（745510441）。

我们的模型预测，如果增加3000、6000、9000和12000个样本，我们将分别捕获991、1715、2266和2697个不同的基因，置信区间为95%（9541005）、（16261761）、（2118、2375）和（2479、2884），再次很好地覆盖了预期的条件捕获988、1699、2238和2660。

这个伊涅程序给出了点估计E类(D类_吨)标准误差（括号中）为986（25.4）、1692（61.3）、2158（202.8）和-718（4082），对应95%置信区间（9361036）、（15721812）（17612555）和（07446）（与第一个示例中的原因相同，最后一个区间的下限设为0）。

在我们进行的许多模拟中，这两个案例研究是典型的，其中丰度分布高度向右倾斜，只有一小部分基因在初始EST样本中被捕获。根据我们的经验，我们发现E类(D类_吨|D类)总是很好地掩盖了真正的卑鄙E类(D类_吨|D类)（近似于我们模拟中蒙特卡罗样本的平均值）吨≤ 2. 虽然SR方法是为E类(D类_吨)，它可以用于为条件捕获提供近似估计E类(D类_吨|D类)的吨≤1，但通常不建议吨≥ 1.

真实数据

我们现在将提出的方法应用于四个cDNA文库拟南芥包括绿色鳞茎（3'EST）、2-6周的地上器官（5'，称为ABGR）、根（5'）和花芽（3'），从NCBI dbEST获得（可在补充材料中获得）。所有四个cDNA文库均进行了标准化和大小选择[36]. 使用CAP3和重叠规则对EST进行聚类哦=40 bp，恒等式规则P（P）=90%，其他参数保留默认值。对于ABGR和根数据（5’EST），使用校正矩阵对观察到的聚类计数进行ISO误差校正P（P）₁₀模拟自拟南芥EST数据依据[27]（见补充材料）。对于silique和花蕾组（3'），基因簇分布n个直接从CAP3聚类结果中总结。这个n个表中列出了这四组基因的数据和估计表达基因数表22（基因簇剖面数据的完整列表n个可以在补充材料中找到）。

表2

在四个cDNA文库中表达的基因数量拟南芥该表列出了基因簇概况数据（n_j个)，EST样本量(EST总计)，观察到的基因数(通用obsvd)，估计表达基因总数(通用电气标准)和95%置信区间（95%C.一4套EST，包括Silique、ABGR、Root、Flower bud；和2个集合集合，包括ABGR+根（A+R）、Silique+花蕾（S+F）。

n个_j个	硅树脂	ABGR公司	根	花蕾	A+R公司	标准+F
n个₁	2963	1969	2187	1801	3333	3749
n个₂	994	459	490	367	951	1270
n个_三	440	182	133	140	312	566
n个₄	222	69	121	69	211	295
n个₅	124	58	37	40	122	182
n个₆	73	28	51	25	66	109
n个₇	59	17	22	22	40	80
n个₈	42	20	19	10	35	49
n个₉	27	7	7	15	29	48
n个₁₀	19	19	8	12	25	33
${n个}_{11}^{+}$	130	55	51	63	119	214

EST总计	12330	5812	5891	5503	11529	17784
通用obsvd	5093	2883	3126	2564	5243	6595
通用电气标准	12005	9492	9155	9232	12720	15333
95%置信区间。	(11137,15300)	(7823,11585)	(8160,11444)	（778011381）	（1198715579）	(13202,17400)

在单独的窗口中打开

表中的结果表22结果表明，绿色鳞茎组织文库中存在约12005个基因，而ABGR、根和花芽cDNA文库中分别存在9492、9155和9232个基因。这可能是绿色的silique比其他三种表达更多的基因。然而，我们缺乏信心得出结论，因为图书馆筛选（例如尺寸选择）可能会导致这种差异；此外，由于样本量相对较小，后三组数据可能被低估。这四个数据集的95%引导置信区间分别为（1113715300）、（782311585）、（816011444）和（778011381），也不能支持差异的显著性。

在实践中，通常对近期的测序进行预测，例如吨≤2（额外排序≤2S公司EST，其中S公司是原始样本大小）。在这种情况下，即使存在以下偏差，预测也可以足够准确 $\hat{N个}$ 基于我们的经验（详见讨论）。我们现在使用绿色硅片、ABGR、根和花芽数据来预测大小为0.5的额外样本中的基因捕获S公司, 1S公司, 1.5S公司和2S公司（或吨=0.5,1,1.5,2，注：S公司不同的EST集合不同）。结果如表所示表3。三.在图中图2，2，我们绘制基因捕获图(D类+ $\overline{E类 ({D类}_{吨} | D类)}$ )与EST样本量（1+吨) *S公司)，预期冗余( ${\hat{ρ}}_{1 + 吨}$ )与预期的基因捕获(D类+ $\overline{E类 ({D类}_{吨} | D类)}$ )以及预期冗余与EST样本量（（1+t）*S）的对比（其他三组的结果相似）。

表3

在0.5S、1S、1.5S和2S大小的额外样本中预测基因捕获。该表显示了对E类(D类_吨|D类)尺寸为0.5S、1S、1.5S和2S（或吨=0.5,1,1.5,2），95%引导置信区间（括号内），其中S公司是原始EST样本的样本量。

	0.5秒	1S（秒）	1.5秒	2秒
Silique公司	1274（12351302）	2253（21592328）	3037 (2878,3172)	3678 (3450,3873)
ABGR公司	883 (854,906)	1616 (1540,1674)	2238 (2106,2345)	2776 (2577,2941)
根	989(964,1011)	1806 (1737,1863)	2488(2363,2611)	3060（28713256）
花	820 (795,837)	1518(1453,1557)	2126 (2009,2198)	2659 (2480,2781)

在单独的窗口中打开

在单独的窗口中打开

图2

绿色silique数据的基因捕获和冗余预测。表达基因总数的估计为 $\hat{N个}$ = 12005. 图（A）显示了预期的基因捕获E类(D类_吨|D类)95%置信限随着EST样本量的增加而增加；图（B）和（C）显示了预期EST冗余ρ_1+吨会随着预期的基因捕获而增加(=D类+E类(D类_吨|D类))和EST样本量（=（1+吨)S公司)

对于silique数据，如果12330个EST的额外样本(吨=1）测序后，我们预计将捕获2253个不同基因中的额外基因。第二个样本中每EST的平均基因捕获量为0.18（=2253/12330）。对于ABGR、根和花芽组，此数量（在吨=1）分别为0.28、0.31和0.28。图中silique的基因捕获图图2A2安培EST样本量呈凹形，表明随着额外测序，效率预计会下降。测序冗余被定义为每个基因的平均EST计数，在基因捕获中显示出略微凸的关系（图（图2B）第2页)EST样本量大致呈线性（图（图2C）。2摄氏度). 注意，这四个cDNA文库是在相同的标准化协议下生成的[36]; 对于非标准化库，随着测序的进行，冗余度可能会以更高的速度增加。

现在我们来估计在两对组织中联合表达或共表达的基因数量：角果+花（3'）和ABGR+根（5'）。如果我们允许D类₁,D类₂和D类_1∪2为文库1、2和集合中观察到的基因总数，则观察到的共表达基因数为D类_1∩2=D类₁+D类₂-D类_1∪2，与估计重叠类似 ${\hat{N个}}_{1 †================================================================================================== 2} = {\hat{N个}}_{1} + {\hat{N个}}_{2} - {\hat{N个}}_{1 \cup 2}$ .估计N个在silique和花蕾对中为15333，这表明估计有5904（=9232+12005-15333）个基因共同表达，而观察到的是1062（=5093+2564-6595）个基因。也就是说，花芽组织中约64%（5904/9232）的基因实际上是在绿色的鳞片组织中共同表达的，远高于观察到的41%（1062/2564）。对于第二对，集合的估计总数为12720，这表明5927个（=9492+9155-12720）基因的重叠占根组织总数的65%，而观察到的766个（=2883+31265-243）基因的重叠仅为25%。很明显，就共表达基因的百分比而言，真正的库间相似性远高于直接观察到的相似性。

讨论

几个重要因素可能会影响基因捕获预测和基因数估计的准确性和精确度。对于此处感兴趣的应用程序，必须首先特别注意将不同来源的错误的影响降至最低。良好的基因簇剖面数据n个应反映cDNA文库中转录物的真实采样分布。我们建议研究人员分别对5'和3'EST进行聚类，然后纠正由兄弟5'EST重叠不足（ISO错误）引起的错误[27]. 对于两个5'EST集合，根和ABGRN个ISO误差修正前后分别为12030对9155和12085对9492（参见补充材料中ISO误差修正前的数据）。The substantial difference in $\hat{N个}$ 主要是由于减少了单粒子估计( ${\hat{n个}}_{1}$ )基因簇剖面数据的修正版本 $\hat{n个}$ 在基因捕获预测中，我们处理了 $\hat{n个}$ 作为置信推断的真实数据。然而，估计n个ISO校正方法本身可能会导致预测基因捕获的额外变异。引导程序中未考虑此可变性组件。

基因数估计和基因捕获预测对转录物丰度分布的参数假设很敏感问。一个错误的参数假设可能会产生一个非常有偏差的估计。例如，Fisher提出的泊松-伽马模型[28]在物种数估计问题中，可以得到一个分析置信区间，这是一个普遍的选择。然而，我们发现当真实的问偏离Gamma[30]. 这个埃根通过SR编程实现非参数经验贝叶斯方法[34]和[29]已经证明，对额外基因捕获的预测并不令人满意E类(D类_吨)的吨>1由于极端的可变性。中讨论的负二项模型[29]和[21]可以潜在地克服可变性问题，但其性能尚未在文献中确立。我们无法将其与CPP方法进行比较，因为它没有整合到伊涅.

非参数最大似然方法对转录物丰度分布的形式通常是稳健的问例如，当问是对数正态、指数或伽马分布。的非参数最大似然估计量（NPMLE）问即。， $\hat{问}$ ，提供了底层cDNA文库中转录物丰度分布的简明特征。理论上，NPMLE $\hat{问}$ 是一致的问([37])，暗示着 $\hat{问}$ 将在近似中变得足够准确问作为样本大小S公司然而，对于许多EST文库来说，浅测序提供的稀有基因信息很少。因此，NPMLE $\hat{问}$ 在描述低水平转录物丰度分布时往往不够准确。因此，稀有基因的数量往往被低估了。第二个模拟EST数据集中的点估计为 $\hat{N个}$ =8185，似乎向下倾斜，尽管引导置信区间覆盖了真实值N个对于ABGR、根和花芽EST集，我们怀疑由于样本量相对较小而存在低估。注意CPP方法， $\hat{N个}$ =D类+林_吨→∞ $\overline{E类 ({D类}_{吨} | D类)}$ .即使 $\hat{N个}$ （于吨→ ∞) 如果估计不足，估计不足的影响将减弱为吨→ 0。因此，对于不久的将来的基因捕获预测（例如。吨≤2），CPP方法通常工作得很好，如第二个模拟EST集所示。

我们还演示了所提出的方法在估计一个cDNA文库中表达的基因数量或两个文库中共同表达的基因的数量方面的应用。四个标准化cDNA文库EST数据集的分析拟南芥揭示了一种非常相似的基因捕获凹面模式，如果测序继续进行，则冗余度大致呈线性增加，这两者都表明测序效率迅速下降。在我们看来，低估可能是因为N个估计EST样本量是否相对较小。然而，如果样本量相当大，两个文库的估计基因表达重叠对于真实表达的相似性仍然非常有用。

如果许多基因在表达池中有多种剪接形式，那么基因数估计可能会被夸大。来自不同剪接形式的EST可分为不同的连续序列，导致小簇的频率向上偏移。特别是，单例计数n个₁将被充气[27]. 一般来说，单核细胞计数是稀有基因的敏感指标。单粒子计数的膨胀n个₁通常导致通货膨胀 $\hat{N个}$ 如果我们将一个“基因”定义为一个不同的转录物，那么这个估计将向下倾斜，因为来自同一基因不同剪接形式的EST在聚类中可能无法区分。

结论

我们提出了一种用于基因捕获预测的复合泊松过程模型，并显示了其在估计无条件捕获方面优于现有方法的性能E类(D类_吨)蒙特卡洛模拟。我们还显示了它在预测当前EST样本的未来基因捕获方面的显著性能。四个方面的分析拟南芥EST数据集显示，亲本cDNA文库中的表达基因数量可能在7800到15000之间变化，而两个文库之间的共表达基因比例可能远高于观察到的重叠。该方法可以作为EST测序中一种方便、稳健和可靠的预测工具。

方法

估算问

估计问，我们采用我们之前工作中提出的惩罚条件非参数最大似然（NPML）方法来解决物种数量估计问题[30]. 注意，这个问题的可能性可以写成

$\begin{array}{l} L（左） (N个, 问) & = (\begin{matrix} N个 \\ {n个}_{0}, {n个}_{1}, ... \end{matrix}) \prod_{j个 = 0}^{\infty} （f） {(j个; 问)}^{{n个}_{j个}} \\ \propto (\begin{matrix} N个 \\ D类 \end{matrix}) （f） {(0; 问)}^{N个 - D类} {[1 - （f） (0; 问)]}^{D类} \times {\prod_{j个 > 0}^{\infty} [\frac{（f） (j个; 问)}{1 - （f） (0; 问)}]}^{{n个}_{j个}} \\ \equiv {L（左）}_{米} (N个, 问) \times {L（左）}_{c（c）} (问), \end{array}$

哪里L（左）_米(N、问)，来自D类，取决于两者N个和问和L（左）_c（c）(问)是从条件分布X（X）鉴于D类，取决于问独自一人。简单介绍非参数MLE $\hat{问}$ 首先基于条件似然获得L（左）_c（c）(问)通过一个旨在稳定估计的惩罚项进行修改。的条件MLEN个( ${\hat{N个}}_{W公司 L（左）}$ 英寸[30])将是最大化L（左）_米鉴于 $\hat{问}$ ，这与 $\hat{N个}$ 根据这里提出的泊松过程模型，即以外推法的形式 $\frac{D类}{{\overline{q个}}_{1}}$ 从这个角度来看，复合泊松过程模型可以视为混合模型在[30]. 的详细信息 $\hat{问}$ 估计和显著性能 $\hat{N个}$ 指的是[30].

置信度推断

由于在NPML估计中，无法获得分析置信区间，因此我们为N、 E类(D类_吨|D类)和ρ_1+吨通过引导程序。自D类在条件捕获估计中是固定的，对于每个引导样本，我们要创建D类泊松混合分布的非零观测（f）(x个; $\hat{问}$ )（从中删除零（f）(0; $\hat{问}$ )或直接模拟D类零截距泊松混合的观测值，即。 $\frac{（f） (x个; \hat{问})}{1 - （f） (0; \hat{问})}$ 对于x个= 1,2...). 理想情况下，还希望修正引导EST样本大小（即。 ${S公司}^{(b条)} \equiv \sum_{我 = 1}^{D类} {X（X）}_{我}$ )在S公司这样，每个样本严格对应于前面定义的时间间隔[0,1]处的泊松过程。引导程序样本大小S公司^(b条)然而，是一个随机变量，并且S公司，即。探针(S公司^(b条)=S公司)通常接近0。我们建议通过选择大小接近S公司，即|S公司^（b）-S公司| ≤T型对于一些小整数T型例如，本文中使用了T=5。重复生成Bootstrap样本，直到总共获得200个满足此约束的样本。对于b条第个样本，我们得到 ${\hat{N个}}^{(b条)}, E类 (\overline{{D类}_{吨}^{(b条)} | D类})$ 和 ${\hat{ρ}}_{1 + 吨}^{(b条)}$ 对于b条=1。。。200.使用Efron百分位数方法构建每个数量的置信区间[38].

联合表达式估计

在某些情况下，在多个组织中联合表达的基因数量也很有趣。例如，人们可能想知道重复取样的器官或不同发育阶段的器官中表达了多少基因。我们的方法可以通过合并多个EST集直接应用于估计此数量。如果基因的表达我在中j个第个库，X（X）_ij公司遵循平均速率λ的泊松过程_ij公司，然后该基因的EST总数J型图书馆，即 $\sum_{j个 = 1}^{J型} {X（X）}_{我 j个}$ ，也将遵循具有合并平均值的泊松 $\sum_{j个 = 1}^{J型} λ_{我 j个}$ 考虑到这一点X（X）_ij公司都是独立的j个因此，我们仍然可以用泊松混合建模联合集中的基因簇分布。

重叠表达式估计

我们现在考虑估计两个库中共同表达的基因数量，比如L（左）₁和L（左）₂.让X（X）_我=X（X）_i1号机组+X（X）_我2是EST的观察计数我集合集中的th基因，以及X（X）_ij公司是EST集合中的j个，用于j个= 1, 2. 如果关节表达式配置文件X（X）_ij公司可以准确地获得（没有聚类误差），可以通过以下方式应用该方法[39]以估计两个cDNA文库中共表达基因的数量。不幸的是，由于聚类错误，观察到X（X）_我,X（X）_ij公司可能不准确。例如，如果我们观察到X（X）_我=X（X）_我1+X（X）_我2=3+4=7，则7可以从8、9……的较大簇中分离出来。。。，由于5'EST案例中的重叠误差不足[27]. 因此，观察到的X（X）_我,X（X）_ij公司都有测量误差，必须同时校正。这可能相当复杂。

我们在这里采取间接的方式来解决这个问题。假设N个₁和N个₂cDNA文库中存在的基因数量是多少L（左）₁和L（左）₂分别是，和N个_1∪2是联合表达的基因数。然后两者的重叠，表示为N个_1∩2，可以表示为：

N个_1∩2=N个₁+N个₂-N个_1∪2 (4)

对于5'EST，尽管联合集群轮廓X（X）_我=X（X）_我1+X（X）_我2无法完全准确地获得我，人们仍然可以获得对边缘基因簇分布的估计L（左）₁,L（左）₂和L（左）_1∪2通过ISO校正方法以无偏见的方式分别进行[27]. 为此，我们首先在每个库中分别对EST进行集群，然后对池集进行集群。可以获得ISO-error校正的基因簇图谱 ${\hat{n个}}_{1}, {\hat{n个}}_{2}$ 和 ${\hat{n个}}_{1 \cup 2}$ 然后对这三组基因的数量进行估计 ${\hat{N个}}_{1}, {\hat{N个}}_{2}$ 和 ${\hat{N个}}_{1 \cup 2}$ 。以下项目的点估计N个_1∩2将是

${\hat{N个}}_{1 †================================================================================================== 2} = {\hat{N个}}_{1} + {\hat{N个}}_{2} - {\hat{N个}}_{1 \cup 2} . (5)$

可利用性

这些方法已集成到一个基于网络的工具中EST统计，网址为[40]. 补充材料也可在[41]. 的当前版本EST统计软件为输入文件提供了两个选项：（1）CAP3聚类结果包括。王牌和。单件文件夹；（2）基因簇剖面数据n个。如果用户选择选项（1），ESTstat公司将从CAP3结果中解析出基因簇剖面数据；对于5’EST，它将模拟ISO错误并进行ISO错误纠正以生成 $\hat{n个}$ .如果有更好的基因簇剖面数据n个他（她）可以选择选项（2）直接进行统计分析。发现NPMLE需要大量计算。引导功能当前未集成到基于web的EST统计接口。补充材料网站上提供了一个JAVA程序，允许获得表达基因总数的引导置信区间、用户特定样本大小的额外捕获和冗余。

作者的贡献

JW：方法和算法开发、数据分析、手稿写作。

BL：与JW一起开发统计方法，参与手稿写作。

LC：编程，网页界面开发，参与手稿写作。

PW：编程和EST统计维护。

JM:Perl脚本编写。

JAVA代码编写和仿真研究。

CD：项目启动，生物意义评估，参与手稿撰写。

致谢

作者将感谢韦布·米勒博士、詹姆斯·利本斯·麦克博士、红马博士和弗朗西丝卡·奇亚罗蒙特博士提出的有益建议和意见。该研究由宾夕法尼亚州立大学NSF拨款DMS0104443和NSF拨款DBI0115684共同支持。

工具书类

Adams MD、Kelley JM、Gocayne JD、Dubnick M、Polymeropoulos MH、Xiao H、Merril CR、Wu A、Olde B、Moreno RF、Kerlavage AR、McCombie WR、Venter JC。互补DNA测序：表达序列标签和人类基因组计划。科学。1991;252:1651–1656.[公共医学][谷歌学者]
Huang X，Madan A.CAP3：DNA序列组装程序。基因组研究。1999;6:829–845. [PMC免费文章][公共医学][谷歌学者]
Boguski MS、Lowe TM、Tolstoshev CM.dbEST数据库，用于表达序列“标签”。自然遗传学。1993;4：332–333。doi:10.1038/ng0893-332。[公共医学] [交叉参考][谷歌学者]
Boguski MS，Schuler GD.建立人类转录图。自然遗传学。1995年；10:369–71. doi:10.1038/ng0895-369。[公共医学] [交叉参考][谷歌学者]
Burke J，Davison D，Hide W.d2_cluster：一种有效的EST和全长cDNA序列聚类方法。基因组研究。1999;9:1135–1142. doi:10.1101/gr.9.11.1135。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Liang F、Holt I、Pertea G、Karamycheva S、Salzberg SL、Quackenbush J。EST序列分析的优化协议。核酸研究。2000;28:3657–3665. doi:10.1093/nar/28.18.3657。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Miller RT、Christoffels AG、Gopalakrishnan C、Burke J、Ptitsyn AA、Broveak TR、Hide WA。人类基因表达序列聚类的综合方法：序列标签对齐和共识知识库。基因组研究。1999;9:1143–1155. doi:10.1101/gr.9.11.1143。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Christoffels A、van Gelder A、Greyling G、Miller R、Hide T、Hide W.STACK：序列标签对齐和共识知识库。核酸研究。2001;29:234–8. doi:10.1093/nar/29.1.234。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Adams MD、Dubnick M、Kerlavage AR、Moreno R、Kelley JM、Utterback TR、Nagle JW、Fields C、Venter JC。2375个人脑基因的序列鉴定。自然。1992;355:632–634. doi:10.1038/355632a0。[公共医学] [交叉参考][谷歌学者]
Adams MD、Kerlavage AR、Fields C、Venter JC。3400个新的表达序列标签鉴定了人脑转录物的多样性。自然遗传学。1993;4:256–267. doi:10.1038/ng0793-256。[公共医学] [交叉参考][谷歌学者]
Khan AS、Wilcox AS、Polymeropoulos MH、Hopkins JA、Stevens TJ、Robinson M、Orpana AK、Sikela JM。人脑cDNA的单程测序和物理及遗传图谱。自然遗传学。1992;2:180–185. doi:10.1038/ng1192-180。[公共医学] [交叉参考][谷歌学者]
Hu G，Modrek B，Riise SH，Saarela J，Pajukanta P，Kustanovich V，Nelson Peltonen S Land，Lee C.高效发现人类基因编码区的单核苷酸多态性。药物基因组学杂志。2002;2:236–242. doi:10.1038/sj.tpj.6500109。[公共医学] [交叉参考][谷歌学者]
Picoult-Newberg L、Ideker T、Pohl M、Taylor S、Donaldson M、Nickerson D、Boyce-Jacino M。从EST数据库中挖掘SNP。基因组研究。1999;9：167–174。 [PMC免费文章][公共医学][谷歌学者]
Lee C.从偏序多序列比对图生成一致序列。生物信息学。2003;19:999–1008. doi:10.1093/bioinformatics/btg109。[公共医学] [交叉参考][谷歌学者]
Heber S，Alekseyev M，Sze SH，Tang H，Pevzner PA。拼接图和EST组装问题。生物信息学。2002;18:181–188.[公共医学][谷歌学者]
Xu Q，Modrek B，Lee C.人类转录组中组织特异性选择性剪接的全基因组检测。核酸研究。2002;30:3754–3766. doi:10.1093/nar/gkf492。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Modrek B，Lee C.选择性剪接的基因组观点。自然遗传学。2002;30:13–19. doi:10.1038/ng0102-13。[公共医学] [交叉参考][谷歌学者]
Modrek B，Resch A，Grasso C，Lee C。人类基因表达序列中选择性剪接的全基因组检测。核酸研究。2001;29:2850–2859. doi:10.1093/nar/29.13.2850。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Audic S，Claverie JM.鉴别差异和协调基因表达的计算方法。人类分子遗传学。1997;8:1821–1832.[公共医学][谷歌学者]
Stekel DJ，Git Y，Falciani F.多个cDNA文库中基因表达的比较。基因组研究。2000;10:2055–2061. doi:10.1101/gr.gr-1325RR。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Susko E，Roger A.估计和比较EST调查中的基因发现率和表达序列标签（EST）频率。生物信息学。2004;20:2279–2287. doi:10.1093/bioinformatics/bth239。[公共医学] [交叉参考][谷歌学者]
Fields C、Adams MD、White O、Venter JC。人类基因组中有多少基因？自然遗传学。1994;7:345–346. doi:10.1038/ng0794-345。[公共医学] [交叉参考][谷歌学者]
Ewing B，Green P.对表达序列标签的分析表明有35000个人类基因。自然遗传学。2000;25：232–233。doi:10.1038/76115。[公共医学] [交叉参考][谷歌学者]
Liang F、Holt I、Pertea G、Karamycheva S、Salzberg S、Quackenbush J。人类基因组的基因指数分析估计约有120000个基因。自然遗传学。2000;25:239–240. doi:10.1038/76126。[公共医学] [交叉参考][谷歌学者]
Van der Hoeven R，Ronning C，Giovannoni J，Martin G，Tanksley S.基于对大规模表达序列标签收集和选择性基因组测序的分析，对番茄基因组中基因的数量、组织和进化进行推断。植物细胞。2002;14:1441–1456. doi:10.1105/tpc.010478。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
拟南芥开花植物基因组序列的初步分析拟南芥.自然。2000;408：796–815。doi:10.1038/35048692。[公共医学] [交叉参考][谷歌学者]
Wang JPZ、Lindsay BG、LeebensMack J、Cui L、Wall PK、Webb CM、dePamphilis CW。EST聚类误差评估和纠正。生物信息学。2004;20:2973–2984. doi:10.1093/bioinformatics/bth342。[公共医学] [交叉参考][谷歌学者]
Fisher RA、Corbet AS、Williams CB。动物种群随机样本中物种数量和个体数量之间的关系。动物生态学杂志。1943;12:42–58. [谷歌学者]
Efron B，Thisted R。估计看不见的物种的数量：莎士比亚知道多少单词？生物特征。1976;63:435–447. [谷歌学者]
Wang JPZ，Lindsay BG。物种丰富度估算的惩罚非参数最大似然法。美国统计协会杂志。2005;100:942–959. doi:10.1198/016214500000005。[交叉参考][谷歌学者]
费勒·W。概率论及其应用导论。I.威利父子公司；1968[谷歌学者]
费勒·W。概率论及其应用导论。二、。威利父子公司；1971[谷歌学者]
Lindsay BG，Roeder K。整数参数模型的统一处理（在理论和方法中）美国统计协会杂志。1987;82:758–764. [谷歌学者]
Good IJ，Toulmin GH。增加样本时，新物种数量和种群覆盖率的增加。生物特征。1956年；43:45–63. [谷歌学者]
埃根http://www.mathstat.dal.ca/tsusko网站
Asamizu E，Nakamura Y，Sato S，Tabata S拟南芥：从标准化和大小选择的cDNA库中生成12028个非冗余表达序列标签。DNA研究。2000;7:175–180. doi:10.1093/dnares/7.3.175。[公共医学] [交叉参考][谷歌学者]
Kiefer J，Wolfowitz J.无穷多关联参数存在下最大似然估计的相合性。《数理统计年鉴》。1956年；27：887–906。 [谷歌学者]
Efron B.非参数标准误差和置信区间。加拿大统计杂志。1981;9:139–172. [谷歌学者]
Chao A，Huang WH，Chen YC，Kuo CY。估算两个群落中的共享物种数量。中国统计局。2000;10:227–246. [谷歌学者]
EST统计http://www.floragenome.org/ESTstat
补充射线材料http://bioinfo.stats.northwestern.edu/jzwang

文章来自BMC生物信息学由以下人员提供BMC公司

一个或多个文库EST测序中的基因捕获预测和重叠估计

吉平Z王

布鲁斯·林赛

崔丽英

P克尔墙

乔什·马里恩

张家璇

克劳德·德帕姆菲利斯

摘要

背景

结果

结论

背景

结果和讨论

复合泊松过程模型

模拟研究

估计无条件平均值E类(D类吨)

表1

估计条件平均值E类(D类吨|D类)

真实数据

表2

表3

讨论

结论

方法

估算问

置信度推断

联合表达式估计

重叠表达式估计

可利用性

作者的贡献

致谢

工具书类

估计无条件平均值E类(D类_吨)

估计条件平均值E类(D类_吨|D类)