跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC生物信息学。2005; 6: 300.
2005年12月13日在线发布。 数字对象标识:10.1186/1471-2105-6-300
预防性维修识别码:项目经理1369009
PMID:16351717

一个或多个文库EST测序中的基因捕获预测和重叠估计

摘要

背景

在表达序列标签(EST)测序中,我们通常对在目标大小的EST样本中可以捕获多少基因感兴趣。这些信息为实验设计中的测序效率提供了见解,也为构建文库的组织中表达基因的多样性提供了线索。

结果

我们提出了一个复合泊松过程模型,该模型可以基于初始EST样本准确预测未来EST样本中的基因捕获。它还可以估计一个cDNA文库中或两个cDNA库中共同表达的基因数量。通过仿真研究,确定了新预测方法优于现有方法的优越性能。我们对四个拟南芥EST集表明,在四个不同的cDNA文库中表达的基因数量拟南芥从9155(根)到12005(silique)不等。在两个不同的EST集合中观察到的共表达基因的比例低至25%,就相当于实际重叠比例大于65%。

结论

该方法为EST测序中的基因捕获预测和cDNA文库属性诊断提供了一种方便的工具。

背景

表达序列标签(EST)集调查cDNA库中两类重要信息:转录序列和转录物丰度[1]. 这两者都可以通过EST聚类获得,这是一个识别和组装同胞EST(来自同一基因的EST)的过程[2-8]. 每个簇中EST的组装是一个部分或完全恢复的转录物(如果没有聚类错误),每个簇中的EST数量代表cDNA文库中该转录物或mRNA物种的丰度。序列信息极大地促进了基因组研究中的许多应用,包括基因索引系统的构建、新基因发现、基因组注释、SNP分型、剪接检测和微阵列探针设计[9-18]. EST数据传递的转录物丰度信息已用于基因表达分化和基因发现率估计[19-21].

在本文中,我们考虑了需要对表达数据建模以推断cDNA库属性的多个应用程序。感兴趣的关键问题包括,(a)根据同一文库的当前EST数据,在目标大小的额外样本中可以捕获多少新基因?(b) 根据EST数据,一个组织或多个组织中有多少基因表达?(c)两个组织中共表达了多少基因?我们相信,这些问题的答案不仅将提供新的线索,以了解接受EST测序的广泛多样性生物体中表达基因的多样性,还将提供一种预测测序结果的方法。例如,表达基因的重叠可以指示两个组织的功能相似性;从额外样本中捕获的预期基因可能有助于预算未来的测序工作。

作为“表达证据”,EST数据在基因注释和推断生物体转录组中表达基因的数量方面已经发挥了关键作用[22-25]. 然而,仅基于EST数据直接估计基因捕获或组织中表达的基因总数存在两大挑战。第一个挑战来自EST聚类错误。不同来源的错误会使观察到的基因数量增加35%–40%[25-27]. 对于5’EST,假分离错误尤其成问题;同胞EST(来自同一基因的EST)之间的重叠不足可以解释高达80%的聚类错误[27]. 在本文中,5’EST的基因簇剖面数据(定义如下)是在使用[27].

鉴于EST聚类已经产生了良好的数据,准确预测未来测序实验中预期的基因捕获仍然是一个挑战。问题(a)最近由解决[21]其中,在比初始样本大的额外样本中预测基因捕获需要对转录物丰度分布进行参数拟合,以避免估计器的野生变异(即,数据适合于从泊松-伽马设置导出的负二项模型,该设置允许伽马中的α参数<0,另请参见[28,29])。然而,对转录物丰度分布(此处为Gamma)的不当假设可能会导致估计中的系统偏差[30]. 这种方法在EST问题中的性能已经得到了很好的验证。

本文提出了一种复合泊松过程方法,用于准确预测EST测序中的基因捕获。新预测方法的性能优于由实现的现有方法[21]在计算机程序中伊涅通过仿真研究建立。我们讨论了如何应用此方法来估计在一个cDNA文库中表达的基因数量,或在两个文库中共同表达的基因的数量。最后,我们用开花植物的四个EST集合说明了新的预测方法拟南芥.

结果和讨论

复合泊松过程模型

N个是cDNA文库中用转录物表示的基因的数量。X(X)= {X(X)1, ...,X(X)N个}将是从每个不同的基因物种中观察到的标签数量。If基因在EST样本中未捕获,则X(X)= 0. n个j个==1N个(X(X)=j个)数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacqWGUbdaWgaaWcbaGaemOAaOgabeaakiabg2da9maaqadabaGaemysaK0aaeWaaeaacqWWybadaWgaaWCbaGaemyAaKgabeaaaka2da9iabQgaayjkaiaawMcaaaWcba GaemyaKMaeyypa0JaeGymaedabaGaemOta4eaggHiLdaa@3EF5@,用于j个= 0,1, ......, 是具有j个样品中的EST,D类= ∑j> 0个n个j个是观察到的总数S公司=∑j> 0个jn公司j个为当前EST样本量。估算N个相当于零类大小的估计n个0。我们称之为汇总数据n个= {n个1,n个2, ...}基因簇图谱数据。

第页是基因的转录丰度,即。=1N个第页=1数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqababbeGadaaadaaeWaqaaiabdchaWnaaBaaaleaacqWGPbqAaeqaaOGaeyypa0JaeGymaedaleaacgWGPbq AcqGH9aqpcqaIXaqmaeaacqWGobGta0GaeyyeIuoaaaa@3814@EST测序中每个基因的EST捕获可被视为泊松过程,其中EST样本大小S公司测量“时间”和第页起到泊松平均参数率的作用,即观察概率x个来自基因的EST等于(f)(x个;S公司,第页)=e(电子)S公司第页(S公司第页)x个x个!数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaakaacqWGMbGzdaqadaqaaaiabdIha4naaBaaaleacqWGPbqAaeqaaOGaei4oaSkaem4uamLaeiilaWIaemiCaa3aaSbaaSbaaqaaabdMgaPbqabaaakiawIcacaaGLPaaacqGH9aqpdaWcaaqaaiadwgaLnaaCaaaleqabaGaeyOe0Iaem4uamCaaqaasBaaWqaabMgaWqabaaaaOWAaaaaaqWGtbWucqucqaWucq WbaCdaWgaaWcbaGaemyAaKgabeaaaaOGaayjkaiaawMcaamaaCaaaleqabaGaemiEaG3aaSbaaWqaaabdMgaPbqabaaaGcbaGaemaEaG3AASbaaSqaaaiabdMga PbqaabaGccqGHaqaaaaaaaaa@4D08@泊松分布可视为实际二项式分布的近似值箱子(S、 第页)对于一个大S公司还有一个小小的第页[31]. 在不损失通用性的情况下,我们将当前样本量视为一个单位时间,并让λ=服务提供商.因此,额外取样S公司1EST对应于时间间隔[1,1+t]上的泊松过程,其中=S公司1/S公司.考虑到转录物丰度的实质异质性第页(因此λ),我们进一步假设λ遵循未知的非退化分布(λ) 。The marginal distribution ofX(X)然后遵循复合泊松过程[29,32],即。

(f) ( x个 ; ) = e(电子) λ λ x个 x个 ! d日 ( λ ) . 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0dc8meaabaciGacaGaaeqababaqababababeGadaakaacqaacqaqaqabaqababeGadaaqaaqacqaaaqaq GzdaqadaqaaibdIha4jabcUda7iabdgfarbGaayjkaiaawMcaaiabg2da9mapeaaabaWaaSaaaaacqWGLbqdaahaaWcbeqaaiabkHiTGGaaiab=T7aBaakiab=T7aSnaaCaaaleqabaGaemiEaGhaaaGcbaGaemeEaGNaeiyiaecaaaWcbeqab0Gaey4kIipakiaaykW7cqWGKbazcqWGrbqudakadaqaaaiab=T7aSbGaayjkaiaaw-Mcaiabc6caUaaa@483E@

D类是泊松过程中捕获的不同基因的数量[0,1]和D类是[1,1+t]上捕获的其他不同基因,那么(D、 D类)具有如下多项式分布

(f) ( D类 , D类 ; N个 , ) = ( N个 D类 , D类 ) q个 1 D类 q个 D类 ( 1 q个 1 q个 ) N个 D类 D类 ,       ( 1 ) 数学类型@MTEF@5@5@+=feaafiart1ev1aaatCvAUfKttLearuWrp9MDH5MBPbIqV92AaeXtLxBI9gBaebbnrifHhDYfgasaacH8akY=wiFfYdH8Gipec8eeu0dXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qqaq=目录0xb9q8qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaakaacqgWGMbGzdakadaqaaaiabdseaejabcYcaSiabdseaenaaBaaalaacqgWG0baDaeqaaOGaei4oaSkaemOta4KaeiilaWIaemyuaefacaGLOAGaayzkaaGaayzka Gaeyypa0ZaaaaaeaaaqabeGabagaemOta4 eabaGaemiraqKaeiila WIaemiraq0aaSbaaqaaabdshai0bqaaaaaaaaaqaaaaaGccaGLOAZkaaGaemyCae3aaa0baaqaqaaigdabigd aXaqaaibdseaebaabakiabdghaXnaaDaaaleaacqWG0baDaeaacqWGebardaWgaaadbaGaemiDaqhabeaaaGcdaqadaqaaiabigdaXiabgkHiTiabdgha XnaaBaaaleaacqaXaq马克萨伊OGaeyOeIaemyCae3aasbaaaSqaaaiabdsha0bqaaaaaaaqa0baaaakiawIcacaaGLPaaaaaaaaaahaWcbeqaaiabd6eaojabgkhiTiabdseajabdHiTiabdsaejabgHiTiabdesaenabaenaaaBaaaaBaamaaaaaaaqaqacqaWG0baaDaqGaeiikaGIaeGymaeJaeiykaKcaaa@5FDF@

哪里

q个1q个1() = ∫ (1 -e(电子))dQ公司(λ),q个q个() = ∫e(电子)(1 -e(电子)-λ)dQ公司(λ).

用文字来说,q个1是在[0,1]上从随机基因中观察到至少一个标签的概率,并且q个是指在[0,1]上观察到零标记,但在[1,1+t]上至少观察到1标记。

在EST问题中,一个关注点是期望在时间段内捕获更多不同的基因[1,1+t吨]给定当前EST数据。等式(1)中的分布形式意味着条件捕获D类给定当前样本仅取决于D类更明确地说D类|D类是二项式(N个-D类,q个1q个1数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqababeGadaaakadaWcaaqaaiabdghaXnaaBaaaleaacqWG0baDaeqaaaGcbaGaeGymaeJaeyOeI0IaemyCae3aaSbaaSqaaiabigdaXaqabaaaaaaa@3432@),因此

E类 ( D类 | D类 ) = ( N个 D类 ) q个 1 q个 1 .       ( 2 ) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqababeGadaaaakaacqWGfbqrdaqaadaqaaiabseaenaaBaaalaacqWG0baDaeqaaOGaeiiFaWNaemiraqeacaGLOaGaayzkaaGaeyypa0ZaawaaeaacqGtcqGHsislcqWGebaraiaawIcacacaGLPaaadaWcaaqaaiabdghaXnaaBaaalaaacqWW0baDaqaaaGcbaGaeGymaeJaeyOe10IaemyCae3aasbaBaaqaabigdaXaqaabaaqaaa4Ia aCzcaiaaxMaacqGGOaakcqaiYaGmcqGGPaqkaaa@46A1@

要计算期望值,需要估计N个第一。如果我们已经知道了

E类(D类) =Nq公司1.

观察到的总数D类是对E类(D类). 最大似然估计N个N个^=D类q个1数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaakaacuWGobGtgaqaiabg2da9maaaaabaGaemiraqeabaGaemyCae3aaSbaaSqaaiabigdaXaqabaaaaaaaaa@3291@[33]. 未知,我们可以得到一个估计^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@通过非参数最大似然估计(参见方法)。更换q个1,q个通过q个^1q个1(^),q个^q个(^)数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqacaiGabeGadaakaacuWGXbqCgaqcamaaaBaaleaacqaXaqmaeqaaOGaeyyyIORaemyCae3aaSbaaSqaaibigdaXaqabaGcdaqaaqbdgfarzaajaaacaGloaGaayzkaaGaeiilaWIafmyCaeNbaKaadaWgaaWcbaGaemiDaqhabeaakiabggMi6kabqhaXnaaBaaaaaaqaWG0baaDaeqaaOWaaeaacuWGrbqugaqcaaGaayjkaiaawMcaaaaaaaaa 420E时为a@N个通过N个^=D类q个^1数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabacaqabebeGadaaaakaacuWGobGtgaqaiabg2da9malaaaabaGaemiraqeabaGafmyCaeNbaKaadaWgaaWcbaGaeGymaedabeaaaaaaaaaaaaaaaa@32A1@在(2)中给出了E类(D类|D类)作为

E类(D类|D类)_=(D类q个^1D类)q个^1q个^1=D类q个^q个^1数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqacaaacaGaaeqabaqababeGaaaakaaaqaaaqiaaqaaiabiadweafnabmaabaGaemiraq0aaSbaaqaaibdsha0bqabaGccqGG8baFcqWGebaraiaawIcacaGLPaaaaawkWaaiabg2da9iabcIcaOmaaaaabaGaemaraqeabaGafmyCaeNbaKaadaWcbaGaeGymaedabaaaaqaGccq GHsislcqWGebarcqGGPaqkdaWcaaqiqbdghaXzaajaWaaqaabaaqaqaabsha0b qabaakeaacqaXaqmcqGHsislcuWGXbqCgaqcamaaaBaaaleaacqiXaqmaeqaaakiabg2da9iabdseaenaalaaabaGafmyCaeNbaKaadaWgaaWcbaGaemiDaqhabeaaaOqaaiqbdghaXzaajaWaaBaaSbaaSqaaibagdaXaqaabaaiabaaaaaaaaa@4D5B@.

从另一个角度来看,由于E类(D类) =编号,更换N个通过N个^=D类q个^1数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabacaqabebeGadaaaakaacuWGobGtgaqaiabg2da9malaaaabaGaemiraqeabaGafmyCaeNbaKaadaWgaaWcbaGaeGymaedabeaaaaaaaaaaaaaaaa@32A1@q个通过q个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaacuWGXbqCgaqcamaaBaaaleaacqWG0baDaeqaaaa@2FC6@给出了无条件平均值的估计E类(D类)作为

E类 ( D类 ) _ = D类 q个 ^ q个 ^ 1 , 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaakaadaqiaaqaaiabiabdweafnabmaabaGaemiraq0aaSbaaSqaaabdsha0bqabaaakiaawIcacaGLPaaaaawkWaaiabg2da9iabdseaenaaaabaGafmyCaeNbaKaadaWgaaWcbaGaemiDaqabeaaaaaaOqaaiqbdghaXzaajaWaaBaaSbaaqaaabaqaaigdaXaabaaqaiabaqaqaaaabaaBaaqaabaabaaqabaabaaaabagabaaaaaaOG@

这与E类(D类|D类)_数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaadaqiaaqaaiabdweafnabmaabaGaemiraq0aaSbaaSqaaibdsha0bqabaGccqG8baFcqWGebaraiaaawIcacaGLPaaaaaawkWaaaa@3555@上述推导。换句话说,数量D类q个^q个^1数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqababeGadaaaakaacqWGebardaWcaaqaaiqbdghaXzaajaWaaSbaaSqaaabdsha0bqabaaakeaaacuWGXbqCgaqcamaaaBaaaaacqaXaqmaeqaaaaaaaaa@3388@可以用作条件或无条件均值的估计量。在模拟研究部分,我们将研究此估计器在这两个角色方面的性能。

为了测量测序效率,我们定义了预期排序冗余ρ为每个基因的平均EST计数。时间1时ρ的估计+将是

保存图片、插图等的外部文件。对象名为1471-2105-6-300-i17.gif

的方法方法中介绍了估计、置信区间构建和cDNA文库重叠估计。

模拟研究

估计无条件平均值E类(D类)

为了研究所提出的复合泊松过程方法(以下称为CPP)作为无条件均值估计量的性能,我们从以下三个设置中创建了三个伪cDNA库:(I)N个=5000,转录物丰度遵循对数正态分布(f)(第页)=e(电子)[o个(第页)2]2/22π(第页)数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0dc8meaabacacacacacGaaeqababaqababeGadaakaacqaaqaqaaaqaacqAbGGGG5@5@5@zdaqadaqaaaiabdchaWnaaBaaaleaaacqWGPbqAaeqaaaGccaGLOAGaayzkaaGaeyypa0ZaaSaaaaacqWWLbqzdaahaaWcbeqaaiabgkHiTmaadmaaba(扎阿萨亚卡巴·扎阿萨阿卡巴·巴亚巴巴·瓦伊巴·瓦利亚巴·瓦拉巴·瓦莱亚巴·巴·巴阿阿巴·巴伊巴·哈·巴·瓦阿巴·瓦亚巴·哈巴·哈伊巴·巴巴·希特马阿巴阿巴巴巴巴·阿巴巴巴·萨阿巴巴阿巴·哈巴)WexLMBbXgBcf2CPn2qVrwzqf2zLnharyGvLjhzH5wyaGabciaa=XgacaWFvbGaa83zamaabmaabaGaemiCaa3aaSbaaWqaaabdMgaPbqabaaaaliaawIcacaGLPaaacqGHsislcqaIYaGmaiawUfacaGLDbaadahaaadbeqaaiabikdaYaaabc+加拿大加拿大加拿大加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳加纳@; (II)N个=10000和第页平均值为0.5的指数分布,即。(f)(圆周率)=2e-2圆周率;和(III)N个=10000和第页γ分布α=0.2,β=3,即。(f)(第页)=0.2Γ(0.2)第页0.8e(电子)第页数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqacaacaGaaeqabaqababeGadaaaakaacqWGMbGzdakadaqaaaiabdchaWnaaBaaalaacqWGPbqAaeqaaaGccaGLOAGaayzkaaGaeyypa0ZaaaacqaZaWmdaahaaWcbeqaaiabicdaWiabc6caUiabikdaYaaaOqaaiaabfo5ahnaababbaGaeGimaaJaeiOla4IaeGOmaidacaGLOAZkaaaaaaaaaiabcqaWnaaDaaaacaqWGPb aqaqaaqaAaeacaqaq GHsislcqaqa IW aamcqGGUaGlcqa4aaaaaGccqWGLbqzdaahaaWcbeqaaiabgkHiTiabiodaZiabchaWnaaBaaameaacqWGPbqAaeqaaaaaaaaa@4A48@.

根据转录物的相对丰度,从每个环境中抽取200个蒙特卡洛样本,样本大小S=3000(I),S=6000(II),S=5000(III),即。第页=1N个第页数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqababeGadaaaakaadaWcaaqaaiabchaWnaaBaaaleaacqWGPbqAaeqaaaGcbaWaaabmaeacqWGWbaCdaWgaaWcbaGaemyAaKgabeaaaaacqWGPb2qAcqGH9aqaIXaqmaeaacqWGobGta0GaeyyeIuoaaaaaaaaaa@3913@这三种分布都向右倾斜(见图图1),1),这似乎是从大多数EST数据集中观察到的表达模式的合理表征。表中比较了CPP方法的结果表11由于现有的非参数经验贝叶斯方法[29,34],(已由Susko和Roger实施[21]在EST数据分析程序中伊涅可在获取[35](以下称为SR方法)。

保存图片、插图等的外部文件。对象名为1471-2105-6-300-1.jpg

模拟中mRNA转录物的相对丰度分布。(一) 对数正态:(f)(第页)=e(电子)[o个(第页)2]2/22π(第页)数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0dc8meaabacacacacacGaaeqababaqababeGadaakaacqaaqaqaaaqaacqAbGGGG5@5@5@zdaqadaqaaaiabdchaWnaaBaaaleaaacqWGPbqAaeqaaaGccaGLOAGaayzkaaGaeyypa0ZaaSaaaaacqWWLbqzdaahaaWcbeqaaiabgkHiTmaadmaaba(扎阿萨亚卡巴·扎阿萨阿卡巴·巴亚巴巴·瓦伊巴·瓦利亚巴·瓦拉巴·瓦莱亚巴·巴·巴阿阿巴·巴伊巴·哈·巴·瓦阿巴·瓦亚巴·哈巴·哈伊巴·巴巴·希特马阿巴阿巴巴巴巴·阿巴巴巴·萨阿巴巴阿巴·哈巴)WexLMBbXgBcf2CPn2qVrwzqf2zLnharyGvLjhzH5wyaGabciaa=XgacaWFvbGaa83zamaabmaabaGaemiCaa3aaSbaaWqaaabdMgaPbqabaaaaliaawIcacaGLPaaacqGHsislcqaIYaGmaiawUfacaGLDbaadahaaadbeqaaiabikdaYaaabc+caViabikdaYaaaaOqaamakaaaaabaGaeGOmaiJaeqiWdahaleqaaOwaaeacqWGWbaCdaWgaaWcbaGaemyAaKgabeaaaaOGaayjkaiaawMcaaaaaaa@5613@(二) 指数:(f)(第页) = 2e(电子)−2第页和(III)γ:(f)(第页)=0.2Γ(0.2)第页0.8e(电子)第页数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqacaacaGaaeqabaqababeGadaaaakaacqWGMbGzdakadaqaaaiabdchaWnaaBaaalaacqWGPbqAaeqaaaGccaGLOAGaayzkaaGaeyypa0ZaaaacqaZaWmdaahaaWcbeqaaiabicdaWiabc6caUiabikdaYaaaOqaaiaabfo5ahnaababbaGaeGimaaJaeiOla4IaeGOmaidacaGLOAZkaaaaaaaaaiabcqaWnaaDaaaacaqWGPb aqaqaaqaAaeacaqaq GHsislcqaqa IW aamcqGGUaGlcqa4aaaaaGccqWGLbqzdaahaaWcbeqaaiabgkHiTiabiodaZiabchaWnaaBaaameaacqWGPbqAaeqaaaaaaaaa@4A48@

表1

无条件均值估计中CPP方法与非参数eB方法的比较E类(D类). 理论无条件平均值基于复合泊松过程模型计算,即。E类(D类) =编号哪里q个根据CPP模型进行计算。CPP或SR行中的条目是基于200个蒙特卡罗样本的均方根误差(rMSE)(括号内)的平均值和根。A-(-)表示由于SR方法的估计值非常大或为负,因此未计算平均值或rMSE。对于(I),氮q1S公司分别为5000、0.36和3000;对于(II),分别为10000、0.375、6000和(III)10000、0.221、5000。

0.511.52
(一)E类(D类)49787311681406
清洁石油产品500(16.4)873(35.6)1160(58.8)1386(85.8)
SR公司501(17.3)877(43)-(-)-(-)

(二)E类(D类)988170722532682
清洁石油产品985(21.4)1697(48.8)2230(83.7)2639(125.6)
SR公司985(22.1)1698(58.4)2218(183.3)-(-)

(三)E(D ]46480110621273
清洁石油产品462(15.9)793(36.5)1045(62.5)1242(93.5)
SR公司463(16.7)799(45.2)-(-)-(-)

三种不同转录物丰度分布下的模拟得出了非常相似的结论。CPP方法为以下方面提供了非常可靠的估计≤2,而SR方法仅适用于≤1(但在rMSE方面低于CPP方法)。什么时候?≤1时,不推荐使用SR方法,因为它经常产生负的或极为可变的估计值。

估计条件平均值E类(D类|D类)

由于我们的主要兴趣是在一段时间内可以捕获的额外的不同基因[1,1+]以当前捕获为条件D类,即。E类(D类|D类),我们现在基于情景(I)和(II)中模拟的两个典型EST样本来研究CPP方法在这方面的性能。

第一个EST集是根据情景(I)以样本大小模拟的S公司= 3000. 由此产生的基因簇剖面数据为n个= (n个1...n个10)=(1162、392、170、63、21、12、8、5、1、1),以及D类=1835占36.7%N个= 5000. 表达基因总数的点估计为N个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@=5023,95%引导置信区间(3617,5492)。随着初始样本的固定,我们已经恢复了另外1500、3000、4500和6000个EST的采样(对应于时间=0.5、1、1.5、2),各200次。在每个样本中记录额外新基因的实际捕获200个蒙特卡洛估计值的样本平均值用于近似真实条件平均值E类(D类|D类)以下(注:蒙特卡洛平均值D类|D类基于200个样本是对E类(D类|D类)自D类|D类遵循二项式分布(方程(1))。

我们的方法预测,在这些额外的样本中,预计将捕获大约4958701171和1421个额外的不同基因,置信区间为95%E类(D类|D类)分别为(470,514),(801,908),(1043,1227)和(1223,1501),它们很好地覆盖了相应的预期条件平均值502,876,1168和1403。

虽然SR方法伊涅为定义了E类(D类)在EST测序中,人们打算使用它来生成条件捕获的近似估计E类(D类|D类)考虑到当前的EST样本,这是直接感兴趣的。点估计值和相应的标准误差(在下面的括号中)E类(D类)来自伊涅分别为501(17.63)、889(42.67)、1128(144.96)、244(1333.8)=0.5,1,1.5,2,95%置信区间(根据E类(D类)_数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaakeadaqiaaqaaiabdweafnabmaabaGaemiraq0aaSbaaSqaaabdsha0bqabaaaakiaaawIcacaGLPaaaaaaawkWaaaa@32C4@±1.96*标准误差)分别为(466536)、(805973)、(8441412)和(02857)。我们将最后一个置信区间的下限设置为零,因为E类(D类)必须大于零。点估计值SR法的=2为244;这是不合理的,因为它在t=2时预测的基因比在t=0.5时预测的基因更少。

第二个例子是通过设置(II)(S=6000)和基因簇剖面数据生成的n个=(n1...n个10) = (2349, 888, 321,133,50,11,5,1,1,1). 样本基因总数为D类=3760,占37.6%N个估计表达基因总数为8185个,95%的bootstrap置信区间(745510441)。

我们的模型预测,如果增加3000、6000、9000和12000个样本,我们将分别捕获991、1715、2266和2697个不同的基因,置信区间为95%(9541005)、(16261761)、(2118、2375)和(2479、2884),再次很好地覆盖了预期的条件捕获988、1699、2238和2660。

这个伊涅程序给出了点估计E类(D类)标准误差(括号中)为986(25.4)、1692(61.3)、2158(202.8)和-718(4082),对应95%置信区间(9361036)、(15721812)(17612555)和(07446)(与第一个示例中的原因相同,最后一个区间的下限设为0)。

在我们进行的许多模拟中,这两个案例研究是典型的,其中丰度分布高度向右倾斜,只有一小部分基因在初始EST样本中被捕获。根据我们的经验,我们发现E类(D类|D类)总是很好地掩盖了真正的卑鄙E类(D类|D类)(近似于我们模拟中蒙特卡罗样本的平均值)≤ 2. 虽然SR方法是为E类(D类),它可以用于为条件捕获提供近似估计E类(D类|D类)的≤1,但通常不建议≥ 1.

真实数据

我们现在将提出的方法应用于四个cDNA文库拟南芥包括绿色鳞茎(3'EST)、2-6周的地上器官(5',称为ABGR)、根(5')和花芽(3'),从NCBI dbEST获得(可在补充材料中获得)。所有四个cDNA文库均进行了标准化和大小选择[36]. 使用CAP3和重叠规则对EST进行聚类=40 bp,恒等式规则P(P)=90%,其他参数保留默认值。对于ABGR和根数据(5’EST),使用校正矩阵对观察到的聚类计数进行ISO误差校正P(P)10模拟自拟南芥EST数据依据[27](见补充材料)。对于silique和花蕾组(3'),基因簇分布n个直接从CAP3聚类结果中总结。这个n个表中列出了这四组基因的数据和估计表达基因数表22(基因簇剖面数据的完整列表n个可以在补充材料中找到)。

表2

在四个cDNA文库中表达的基因数量拟南芥该表列出了基因簇概况数据(nj个),EST样本量(EST总计),观察到的基因数(通用obsvd),估计表达基因总数(通用电气标准)和95%置信区间(95%C.一4套EST,包括Silique、ABGR、Root、Flower bud;和2个集合集合,包括ABGR+根(A+R)、Silique+花蕾(S+F)。

n个 j个 硅树脂ABGR公司花蕾A+R公司标准+F
n个1296319692187180133333749
n个29944594903679511270
n个440182133140312566
n个42226912169211295
n个5124583740122182
n个67328512566109
n个7591722224080
n个8422019103549
n个92777152948
n个1019198122533
n个 11 + 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacqWGUbGBdaqhaaWcbaGaeGymaeJaeGymedabaGaey4kaScaaaaa@3102@ 130555163119214

EST总计123305812589155031152917784
通用obsvd509328833126256452436595
通用电气标准120059492915592321272015333
95%置信区间。(11137,15300)(7823,11585)(8160,11444)(778011381)(1198715579)(13202,17400)

表中的结果表22结果表明,绿色鳞茎组织文库中存在约12005个基因,而ABGR、根和花芽cDNA文库中分别存在9492、9155和9232个基因。这可能是绿色的silique比其他三种表达更多的基因。然而,我们缺乏信心得出结论,因为图书馆筛选(例如尺寸选择)可能会导致这种差异;此外,由于样本量相对较小,后三组数据可能被低估。这四个数据集的95%引导置信区间分别为(1113715300)、(782311585)、(816011444)和(778011381),也不能支持差异的显著性。

在实践中,通常对近期的测序进行预测,例如≤2(额外排序≤2S公司EST,其中S公司是原始样本大小)。在这种情况下,即使存在以下偏差,预测也可以足够准确N个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@基于我们的经验(详见讨论)。我们现在使用绿色硅片、ABGR、根和花芽数据来预测大小为0.5的额外样本中的基因捕获S公司, 1S公司, 1.5S公司和2S公司(或=0.5,1,1.5,2,注:S公司不同的EST集合不同)。结果如表所示表3。.在图中图2,2,我们绘制基因捕获图(D类+E类(D类|D类)_数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaadaqiaaqaaiabdweafnabmaabaGaemiraq0aaSbaaSqaaibdsha0bqabaGccqG8baFcqWGebaraiaaawIcacaGLPaaaaaawkWaaaa@3555@)与EST样本量(1+) *S公司),预期冗余(ρ^1+数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabebeGadaakaacuaHbpGCgaqcamaaaBaaaleaacqaXaqmcqGHRaWkcqWG0baDaeqaaaaa@31EB@)与预期的基因捕获(D类+E类(D类|D类)_数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaadaqiaaqaaiabdweafnabmaabaGaemiraq0aaSbaaSqaaibdsha0bqabaGccqG8baFcqWGebaraiaaawIcacaGLPaaaaaawkWaaaa@3555@)以及预期冗余与EST样本量((1+t)*S)的对比(其他三组的结果相似)。

表3

在0.5S、1S、1.5S和2S大小的额外样本中预测基因捕获。该表显示了对E类(D类|D类)尺寸为0.5S、1S、1.5S和2S(或=0.5,1,1.5,2),95%引导置信区间(括号内),其中S公司是原始EST样本的样本量。

0.5秒1S(秒)1.5秒2秒
Silique公司1274(12351302)2253(21592328)3037 (2878,3172)3678 (3450,3873)
ABGR公司883 (854,906)1616 (1540,1674)2238 (2106,2345)2776 (2577,2941)
989(964,1011)1806 (1737,1863)2488(2363,2611)3060(28713256)
820 (795,837)1518(1453,1557)2126 (2009,2198)2659 (2480,2781)
保存图片、插图等的外部文件。对象名为1471-2105-6-300-2.jpg

绿色silique数据的基因捕获和冗余预测。表达基因总数的估计为N个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@= 12005. 图(A)显示了预期的基因捕获E类(D类|D类)95%置信限随着EST样本量的增加而增加;图(B)和(C)显示了预期EST冗余ρ1+会随着预期的基因捕获而增加(=D类+E类(D类|D类))和EST样本量(=(1+)S公司)

对于silique数据,如果12330个EST的额外样本(=1)测序后,我们预计将捕获2253个不同基因中的额外基因。第二个样本中每EST的平均基因捕获量为0.18(=2253/12330)。对于ABGR、根和花芽组,此数量(在=1)分别为0.28、0.31和0.28。图中silique的基因捕获图图2A2安培EST样本量呈凹形,表明随着额外测序,效率预计会下降。测序冗余被定义为每个基因的平均EST计数,在基因捕获中显示出略微凸的关系(图(图2B)第2页)EST样本量大致呈线性(图(图2C)。2摄氏度). 注意,这四个cDNA文库是在相同的标准化协议下生成的[36]; 对于非标准化库,随着测序的进行,冗余度可能会以更高的速度增加。

现在我们来估计在两对组织中联合表达或共表达的基因数量:角果+花(3')和ABGR+根(5')。如果我们允许D类1,D类2D类1∪2为文库1、2和集合中观察到的基因总数,则观察到的共表达基因数为D类1∩2=D类1+D类2-D类1∪2,与估计重叠类似N个^1†==================================================================================================2=N个^1+N个^2N个^12数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqababaqabebeGadaaaakacuWGobGtgaqcamaaaBaaaleaacqaXaqmcqGHPiYXcqaYaGmaeqaaOGaeyypa0JacfmOta4KbaKaadaWgaaWcbaGaeGymaedabaakiabgUcaRiqbd6eaozaajaWaaSbaaSqaaiabikdaYaqabaGccqaslcuWGobG@.估计N个在silique和花蕾对中为15333,这表明估计有5904(=9232+12005-15333)个基因共同表达,而观察到的是1062(=5093+2564-6595)个基因。也就是说,花芽组织中约64%(5904/9232)的基因实际上是在绿色的鳞片组织中共同表达的,远高于观察到的41%(1062/2564)。对于第二对,集合的估计总数为12720,这表明5927个(=9492+9155-12720)基因的重叠占根组织总数的65%,而观察到的766个(=2883+31265-243)基因的重叠仅为25%。很明显,就共表达基因的百分比而言,真正的库间相似性远高于直接观察到的相似性。

讨论

几个重要因素可能会影响基因捕获预测和基因数估计的准确性和精确度。对于此处感兴趣的应用程序,必须首先特别注意将不同来源的错误的影响降至最低。良好的基因簇剖面数据n个应反映cDNA文库中转录物的真实采样分布。我们建议研究人员分别对5'和3'EST进行聚类,然后纠正由兄弟5'EST重叠不足(ISO错误)引起的错误[27]. 对于两个5'EST集合,根和ABGRN个ISO误差修正前后分别为12030对9155和12085对9492(参见补充材料中ISO误差修正前的数据)。The substantial difference inN个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@主要是由于减少了单粒子估计(n个^1数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaacuWGUbGBgaqcamaaaBaaaleaacqaXaqmaeqaaaaa@2F3F@)基因簇剖面数据的修正版本n个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaeHbwvMCKfMBHbaceeGab8NBayaajaaaaaa@3839@在基因捕获预测中,我们处理了n个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaeHbwvMCKfMBHbaceeGab8NBayaajaaaaaa@3839@作为置信推断的真实数据。然而,估计n个ISO校正方法本身可能会导致预测基因捕获的额外变异。引导程序中未考虑此可变性组件。

基因数估计和基因捕获预测对转录物丰度分布的参数假设很敏感。一个错误的参数假设可能会产生一个非常有偏差的估计。例如,Fisher提出的泊松-伽马模型[28]在物种数估计问题中,可以得到一个分析置信区间,这是一个普遍的选择。然而,我们发现当真实的偏离Gamma[30]. 这个埃根通过SR编程实现非参数经验贝叶斯方法[34]和[29]已经证明,对额外基因捕获的预测并不令人满意E类(D类)的>1由于极端的可变性。中讨论的负二项模型[29]和[21]可以潜在地克服可变性问题,但其性能尚未在文献中确立。我们无法将其与CPP方法进行比较,因为它没有整合到伊涅.

非参数最大似然方法对转录物丰度分布的形式通常是稳健的例如,当是对数正态、指数或伽马分布。的非参数最大似然估计量(NPMLE)即。,^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@,提供了底层cDNA文库中转录物丰度分布的简明特征。理论上,NPMLE^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@是一致的([37]),暗示着^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@将在近似中变得足够准确作为样本大小S公司然而,对于许多EST文库来说,浅测序提供的稀有基因信息很少。因此,NPMLE^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@在描述低水平转录物丰度分布时往往不够准确。因此,稀有基因的数量往往被低估了。第二个模拟EST数据集中的点估计为N个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@=8185,似乎向下倾斜,尽管引导置信区间覆盖了真实值N个对于ABGR、根和花芽EST集,我们怀疑由于样本量相对较小而存在低估。注意CPP方法,N个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@=D类+→∞E类(D类|D类)_数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabebeGadaaaakaadaqiaaqaaiabdweafnabmaabaGaemiraq0aaSbaaSqaaibdsha0bqabaGccqG8baFcqWGebaraiaaawIcacaGLPaaaaaawkWaaaa@3555@.即使N个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@(于→ ∞) 如果估计不足,估计不足的影响将减弱为0。因此,对于不久的将来的基因捕获预测(例如。≤2),CPP方法通常工作得很好,如第二个模拟EST集所示。

我们还演示了所提出的方法在估计一个cDNA文库中表达的基因数量或两个文库中共同表达的基因的数量方面的应用。四个标准化cDNA文库EST数据集的分析拟南芥揭示了一种非常相似的基因捕获凹面模式,如果测序继续进行,则冗余度大致呈线性增加,这两者都表明测序效率迅速下降。在我们看来,低估可能是因为N个估计EST样本量是否相对较小。然而,如果样本量相当大,两个文库的估计基因表达重叠对于真实表达的相似性仍然非常有用。

如果许多基因在表达池中有多种剪接形式,那么基因数估计可能会被夸大。来自不同剪接形式的EST可分为不同的连续序列,导致小簇的频率向上偏移。特别是,单例计数n个1将被充气[27]. 一般来说,单核细胞计数是稀有基因的敏感指标。单粒子计数的膨胀n个1通常导致通货膨胀N个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@如果我们将一个“基因”定义为一个不同的转录物,那么这个估计将向下倾斜,因为来自同一基因不同剪接形式的EST在聚类中可能无法区分。

结论

我们提出了一种用于基因捕获预测的复合泊松过程模型,并显示了其在估计无条件捕获方面优于现有方法的性能E类(D类)蒙特卡洛模拟。我们还显示了它在预测当前EST样本的未来基因捕获方面的显著性能。四个方面的分析拟南芥EST数据集显示,亲本cDNA文库中的表达基因数量可能在7800到15000之间变化,而两个文库之间的共表达基因比例可能远高于观察到的重叠。该方法可以作为EST测序中一种方便、稳健和可靠的预测工具。

方法

估算

估计,我们采用我们之前工作中提出的惩罚条件非参数最大似然(NPML)方法来解决物种数量估计问题[30]. 注意,这个问题的可能性可以写成

L(左) ( N个 , ) = ( N个 n个 0 , n个 1 , ... ) j个 = 0 (f) ( j个 ; ) n个 j个 ( N个 D类 ) (f) ( 0 ; ) N个 D类 [ 1 (f) ( 0 ; ) ] D类 × j个 > 0 [ (f) ( j个 ; ) 1 (f) ( 0 ; ) ] n个 j个 L(左) ( N个 , ) × L(左) c(c) ( ) , 数学类型@MTEF@5@5@+=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=wr0dc8meaabacacacacaacaGaaeqabababababeGadaakeGababaafeuaaba qadiaaaeaacqWGmbatcqGGOaakcqWGobGtcqGGSalcqWGrbqucqGGPaqkaeaacqGH9aqpdaqadaqaaauaabeqaceaacqWWobGtaeaaacqWGUbGBdaWgaaWcbaGaeGimaadabeaakiabcYcaSiabd6gaUnaaBaaalaaacqaXaqmaeqaaOGaeiilaWIaeiola4IaeiOla4caaaGaayjkaiaawMcaamaarahabaGaemOzayMaeikaGIaemOAaOMaei4oaSkaemyuaeLaeiykaKyaaWbaaSqabeaacqaWGUbGBdaWgoaabaGaemOAaOgabeaaaaaaaaleaacqWGQbGAcqGH9aqaqaQaIwaaaaaacqaGHEisPa0Gaey4dI unaaOqaaqaaGGaaaiab=1Hi1oaabmaabaqbaeqabiqaaqaiabd6eaobqaaabdseaebaaaaawIcacaGLPaaacqWGMbGzcqGGOaakcqaWaamcqGG7aWocqWGrbqucqGGPaqkdaaaaWcbeqaaiabd6eaojabgkHiTiabdseaebakiabcUfaBjabigdaXiabgkhiTiabdAgaMjabcIcaOiabicdaWiabcUda7iabgdafarjabcMcaPiabc2faDnaaCaaaleqabaGaemiraqeaaOGaey41aq7aaebCaeaadaWadaqaaaaaaaabaGaemOzayMaiikaGIaemOAa4oamyuaeLaei ykaKcabaGaeGymaeJaeyOel0IaemOzayMaeikaGIaeGimaaJaei4oaSkaemyuaeLaeiykaKcaaaGaay5waiaw2faaaWcbaGaemOAaOMaeyOpa4JaeGimaadabaGaeyOhIukaniabg+GivdGcdaahaaWcbeqaaiabd6gaUnaaBaaamaaacqWGQbGAaeqaaaaaOqaaaqaaaiabggMi6kabdYeamnaBaaaaacqWWbqBaeqaaOGaeiikaGIaemOta4KaeiilaWIaemyuaeLaeiykaKIaey41aqRaemitaW0aaSbaaSqaaaiAbdogaJbqabaGccqGGoaakcqWGrbqucqGGPaqkcqGGSaaaaaaaaa@99F2@

哪里L(左)(N、 问),来自D类,取决于两者N个L(左)c(c)()是从条件分布X(X)鉴于D类,取决于独自一人。简单介绍非参数MLE^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@首先基于条件似然获得L(左)c(c)()通过一个旨在稳定估计的惩罚项进行修改。的条件MLEN个(N个^W公司L(左)数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqabebeGadaaaakaacuWGobGtgaqcamaaaBaaaleaacqWGxbWvcqWGmbataeqaaaaa@3065@英寸[30])将是最大化L(左)鉴于^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@,这与N个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@根据这里提出的泊松过程模型,即以外推法的形式D类q个_1数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaakadaWcaaqaaiabseaebqaamaaHaaabaGaemyCaehacaGLcmaadaWgaaWcbaGaeGymaedabeaaaaaaaaa@3118@从这个角度来看,复合泊松过程模型可以视为混合模型在[30]. 的详细信息^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@估计和显著性能N个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGobGtgaqcaaaa@2DE3@指的是[30].

置信度推断

由于在NPML估计中,无法获得分析置信区间,因此我们为N、 E类(D类|D类)和ρ1+通过引导程序。D类在条件捕获估计中是固定的,对于每个引导样本,我们要创建D类泊松混合分布的非零观测(f)(x个;^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@)(从中删除零(f)(0;^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaakaacuWGrbqugaqcaaaa@2DE9@)或直接模拟D类零截距泊松混合的观测值,即。(f)(x个;^)1(f)(0;^)数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqababeGadaaadaWcaaqaaiabdAgaMjabcIcaOiabdIha4jabcUda7iqbdgfarzaaGaeiykaKcabaGaeGymaeJaeyOeI0IaemOzayMaeiikaGIaeGimaaJaei4oaSkafmyuaeLbaKaqGGPaqkaaaaaaaaa@3B80@对于x个= 1,2...). 理想情况下,还希望修正引导EST样本大小(即。S公司(b条)=1D类X(X)数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaerbwvMCKfMBHqedmvETj2BSbqee0evGueE0jxyaibaieYdOi=BH8vipeYdI8qiW7rqqrFfpeea0xe9Lq=Jc9vqaqpepm0xbbG8FasPYRqj0=yi0lXdbba9pGe9qFf0dXdHuk9fr=xfr=xfrpiWZqaaaabiGaciaacaqabeabeqacmaaaaOqaaiaaadofadahaaWcbeqaaacIcacaWGIbGaaiykaaakiabggMi6oaaqadabaGaamiwamaaBaaaleacaWGPbaabaaaaaacaWGPbGaeyypa0JaaGymaaqaaaadseaa0GaeyyeIuoaaaa@3C42@)在S公司这样,每个样本严格对应于前面定义的时间间隔[0,1]处的泊松过程。引导程序样本大小S公司(b条)然而,是一个随机变量,并且S公司,即。探针(S公司(b条)=S公司)通常接近0。我们建议通过选择大小接近S公司,即|S公司(b)-S公司| ≤T型对于一些小整数T型例如,本文中使用了T=5。重复生成Bootstrap样本,直到总共获得200个满足此约束的样本。对于b条第个样本,我们得到N个^(b条),E类(D类(b条)|D类_)数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqabeGadaaacacuWGobGtgaqcamaaCaaaleqabaGaeiikaGIaemOyaiMaeiykaKcaaOGaeiilaWIaemyrauKaeiikaGYAaecaaaaaaaaaacqWGebardaqhaaWcbaGaemiDaqhaaGaeikaGIaemoyaiMaieikaKcaaAaaacgWGebaraiaawEa7aaGaayPadaGaeikaKcaaaa@3DDB(三维数据库)@ρ^1+(b条)数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabeGadaaaakaaiiaacuWFbpGCgaqcamaaDaaaleaacqaIXaqmcqGHRaWkcqWG0baDaeaacqGGOaakcqWWIbGycqGGPaqaaaaaaa@34F0@对于b条=1。。。200.使用Efron百分位数方法构建每个数量的置信区间[38].

联合表达式估计

在某些情况下,在多个组织中联合表达的基因数量也很有趣。例如,人们可能想知道重复取样的器官或不同发育阶段的器官中表达了多少基因。我们的方法可以通过合并多个EST集直接应用于估计此数量。如果基因的表达在中j个第个库,X(X)ij公司遵循平均速率λ的泊松过程ij公司,然后该基因的EST总数J型图书馆,即j个=1J型X(X)j个数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0dXdba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabbeGadaaadaaeWaqaaabdIfaynaaBaaaleaacqWGPbqAcqWGQbGAaeqaaqcbawaaabdQgaQjabg2da9iabigdaXaqaaaiabdQeakbqdcqGHris5aaaaa@3795@,也将遵循具有合并平均值的泊松j个=1J型λj个数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0dXdba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqababeGadaaadaaeWaqaaiabeU7aSnaaBaaaleaacqWGPbqAcqQbGAaeqaaqcbawaaabdQgaQjabg2da9iabigdaXaqaaaiabdQeakbqdcqGHris5aaaaa@3810@考虑到这一点X(X)ij公司都是独立的j个因此,我们仍然可以用泊松混合建模联合集中的基因簇分布。

重叠表达式估计

我们现在考虑估计两个库中共同表达的基因数量,比如L(左)1L(左)2.让X(X)=X(X)i1号机组+X(X)2是EST的观察计数集合集中的th基因,以及X(X)ij公司是EST集合中的j个,用于j个= 1, 2. 如果关节表达式配置文件X(X)ij公司可以准确地获得(没有聚类误差),可以通过以下方式应用该方法[39]以估计两个cDNA文库中共表达基因的数量。不幸的是,由于聚类错误,观察到X(X),X(X)ij公司可能不准确。例如,如果我们观察到X(X)=X(X)1+X(X)2=3+4=7,则7可以从8、9……的较大簇中分离出来。。。,由于5'EST案例中的重叠误差不足[27]. 因此,观察到的X(X),X(X)ij公司都有测量误差,必须同时校正。这可能相当复杂。

我们在这里采取间接的方式来解决这个问题。假设N个1N个2cDNA文库中存在的基因数量是多少L(左)1L(左)2分别是,和N个1∪2是联合表达的基因数。然后两者的重叠,表示为N个1∩2,可以表示为:

N个1∩2=N个1+N个2-N个1∪2    (4)

对于5'EST,尽管联合集群轮廓X(X)=X(X)1+X(X)2无法完全准确地获得,人们仍然可以获得对边缘基因簇分布的估计L(左)1,L(左)2L(左)1∪2通过ISO校正方法以无偏见的方式分别进行[27]. 为此,我们首先在每个库中分别对EST进行集群,然后对池集进行集群。可以获得ISO-error校正的基因簇图谱n个^1,n个^2数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqabebeGadaaaakaaieqacuWFUbGBgaqcamaaaBaaaleaacqaXaqmaeqaaOGaeiilaWIaf8NBa4MbaKaadaWgaaWcbaGaeGOmaidabeaaaaa@32BC@n个^12数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqabebeGadaaaakaaieqacuWFUbGBgaqcamaaaBaaaleaacqaqmcqGHQicYcqaiYaGmaeqaaaaa@31D5@然后对这三组基因的数量进行估计N个^1,N个^2数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciaacaGaaeqabaqabebeGadaaaakaacuWGobGtgaqcamaaaBaaaleaacqaXaqmaeqaaOGaeiilaWIafmOta4KbaKaadaWgaaWcbaGaeGOmaidabeaaaaa@323A@N个^12数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaciqabebeGadaaaakaacuWGobGtgaqcamaaaBaaaleaacqaXaqmcqGHQicYcqaiYaGmaeqaaaaa@3191@。以下项目的点估计N个1∩2将是

N个 ^ 1 †================================================================================================== 2 = N个 ^ 1 + N个 ^ 2 N个 ^ 1 2 .       ( 5 ) 数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciacaGaaeqabaqababeGadaaaakacuWGobGtgaqcamaaaBaaaleaacqaXaqmcqGHPiYXcqaYaGmaeqaaOGaeyypa0JacfmOta4KbaKaadaWgaaWcbaGaeGymedaedabaakiabgUcaRiqbd6eaozaajaWaaBaaSqaaibikdaYaqabaGccqsislcuWGobGtcaqcaaaBaaaaleaacqiXaqcqmcqqqqgGHQicYcqaIaYaGgaaOGaeiOala4IaCzcaiaaaxMaaqGgoaakcqaqaqa 42E3处1aqncqGGPaqkaaa@

可利用性

这些方法已集成到一个基于网络的工具中EST统计,网址为[40]. 补充材料也可在[41]. 的当前版本EST统计软件为输入文件提供了两个选项:(1)CAP3聚类结果包括。王牌和。单件文件夹;(2) 基因簇剖面数据n个。如果用户选择选项(1),ESTstat公司将从CAP3结果中解析出基因簇剖面数据;对于5’EST,它将模拟ISO错误并进行ISO错误纠正以生成n个^数学类型@MTEF@5@5@@=feaafart1ev1aaatCvAUfKttLearuWrP9MDH5MBPbIqV92AaeXatLxBI9gBaebbnrfifHhDYfgasaacH8akY=wiFfYdH8Gipec8Eeeu0xXdbba9frFj0=OqFfea0dXdd9vqai=hGuQ8kuc9pgc9s8qaq=dirpe0xb9qiLsFr0=vr0=vr0dc8meaabaqaciGacaGaaeqabaqabeGadaaaaatCvAUfeBSjuyZL2yd9gzLbvyNv2CaeHbwvMCKfMBHbaceeGab8NBayaajaaaaaa@3839@.如果有更好的基因簇剖面数据n个他(她)可以选择选项(2)直接进行统计分析。发现NPMLE需要大量计算。引导功能当前未集成到基于web的EST统计接口。补充材料网站上提供了一个JAVA程序,允许获得表达基因总数的引导置信区间、用户特定样本大小的额外捕获和冗余。

作者的贡献

JW:方法和算法开发、数据分析、手稿写作。

BL:与JW一起开发统计方法,参与手稿写作。

LC:编程,网页界面开发,参与手稿写作。

PW:编程和EST统计维护。

JM:Perl脚本编写。

JAVA代码编写和仿真研究。

CD:项目启动,生物意义评估,参与手稿撰写。

致谢

作者将感谢韦布·米勒博士、詹姆斯·利本斯·麦克博士、红马博士和弗朗西丝卡·奇亚罗蒙特博士提出的有益建议和意见。该研究由宾夕法尼亚州立大学NSF拨款DMS0104443和NSF拨款DBI0115684共同支持。

工具书类

  • Adams MD、Kelley JM、Gocayne JD、Dubnick M、Polymeropoulos MH、Xiao H、Merril CR、Wu A、Olde B、Moreno RF、Kerlavage AR、McCombie WR、Venter JC。互补DNA测序:表达序列标签和人类基因组计划。科学。1991;252:1651–1656.[公共医学][谷歌学者]
  • Huang X,Madan A.CAP3:DNA序列组装程序。基因组研究。1999;6:829–845. [PMC免费文章][公共医学][谷歌学者]
  • Boguski MS、Lowe TM、Tolstoshev CM.dbEST数据库,用于表达序列“标签”。自然遗传学。1993;4:332–333。doi:10.1038/ng0893-332。[公共医学] [交叉参考][谷歌学者]
  • Boguski MS,Schuler GD.建立人类转录图。自然遗传学。1995年;10:369–71. doi:10.1038/ng0895-369。[公共医学] [交叉参考][谷歌学者]
  • Burke J,Davison D,Hide W.d2_cluster:一种有效的EST和全长cDNA序列聚类方法。基因组研究。1999;9:1135–1142. doi:10.1101/gr.9.11.1135。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Liang F、Holt I、Pertea G、Karamycheva S、Salzberg SL、Quackenbush J。EST序列分析的优化协议。核酸研究。2000;28:3657–3665. doi:10.1093/nar/28.18.3657。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Miller RT、Christoffels AG、Gopalakrishnan C、Burke J、Ptitsyn AA、Broveak TR、Hide WA。人类基因表达序列聚类的综合方法:序列标签对齐和共识知识库。基因组研究。1999;9:1143–1155. doi:10.1101/gr.9.11.1143。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Christoffels A、van Gelder A、Greyling G、Miller R、Hide T、Hide W.STACK:序列标签对齐和共识知识库。核酸研究。2001;29:234–8. doi:10.1093/nar/29.1.234。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Adams MD、Dubnick M、Kerlavage AR、Moreno R、Kelley JM、Utterback TR、Nagle JW、Fields C、Venter JC。2375个人脑基因的序列鉴定。自然。1992;355:632–634. doi:10.1038/355632a0。[公共医学] [交叉参考][谷歌学者]
  • Adams MD、Kerlavage AR、Fields C、Venter JC。3400个新的表达序列标签鉴定了人脑转录物的多样性。自然遗传学。1993;4:256–267. doi:10.1038/ng0793-256。[公共医学] [交叉参考][谷歌学者]
  • Khan AS、Wilcox AS、Polymeropoulos MH、Hopkins JA、Stevens TJ、Robinson M、Orpana AK、Sikela JM。人脑cDNA的单程测序和物理及遗传图谱。自然遗传学。1992;2:180–185. doi:10.1038/ng1192-180。[公共医学] [交叉参考][谷歌学者]
  • Hu G,Modrek B,Riise SH,Saarela J,Pajukanta P,Kustanovich V,Nelson Peltonen S Land,Lee C.高效发现人类基因编码区的单核苷酸多态性。药物基因组学杂志。2002;2:236–242. doi:10.1038/sj.tpj.6500109。[公共医学] [交叉参考][谷歌学者]
  • Picoult-Newberg L、Ideker T、Pohl M、Taylor S、Donaldson M、Nickerson D、Boyce-Jacino M。从EST数据库中挖掘SNP。基因组研究。1999;9:167–174。 [PMC免费文章][公共医学][谷歌学者]
  • Lee C.从偏序多序列比对图生成一致序列。生物信息学。2003;19:999–1008. doi:10.1093/bioinformatics/btg109。[公共医学] [交叉参考][谷歌学者]
  • Heber S,Alekseyev M,Sze SH,Tang H,Pevzner PA。拼接图和EST组装问题。生物信息学。2002;18:181–188.[公共医学][谷歌学者]
  • Xu Q,Modrek B,Lee C.人类转录组中组织特异性选择性剪接的全基因组检测。核酸研究。2002;30:3754–3766. doi:10.1093/nar/gkf492。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Modrek B,Lee C.选择性剪接的基因组观点。自然遗传学。2002;30:13–19. doi:10.1038/ng0102-13。[公共医学] [交叉参考][谷歌学者]
  • Modrek B,Resch A,Grasso C,Lee C。人类基因表达序列中选择性剪接的全基因组检测。核酸研究。2001;29:2850–2859. doi:10.1093/nar/29.13.2850。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Audic S,Claverie JM.鉴别差异和协调基因表达的计算方法。人类分子遗传学。1997;8:1821–1832.[公共医学][谷歌学者]
  • Stekel DJ,Git Y,Falciani F.多个cDNA文库中基因表达的比较。基因组研究。2000;10:2055–2061. doi:10.1101/gr.gr-1325RR。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Susko E,Roger A.估计和比较EST调查中的基因发现率和表达序列标签(EST)频率。生物信息学。2004;20:2279–2287. doi:10.1093/bioinformatics/bth239。[公共医学] [交叉参考][谷歌学者]
  • Fields C、Adams MD、White O、Venter JC。人类基因组中有多少基因?自然遗传学。1994;7:345–346. doi:10.1038/ng0794-345。[公共医学] [交叉参考][谷歌学者]
  • Ewing B,Green P.对表达序列标签的分析表明有35000个人类基因。自然遗传学。2000;25:232–233。doi:10.1038/76115。[公共医学] [交叉参考][谷歌学者]
  • Liang F、Holt I、Pertea G、Karamycheva S、Salzberg S、Quackenbush J。人类基因组的基因指数分析估计约有120000个基因。自然遗传学。2000;25:239–240. doi:10.1038/76126。[公共医学] [交叉参考][谷歌学者]
  • Van der Hoeven R,Ronning C,Giovannoni J,Martin G,Tanksley S.基于对大规模表达序列标签收集和选择性基因组测序的分析,对番茄基因组中基因的数量、组织和进化进行推断。植物细胞。2002;14:1441–1456. doi:10.1105/tpc.010478。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • 拟南芥开花植物基因组序列的初步分析拟南芥.自然。2000;408:796–815。doi:10.1038/35048692。[公共医学] [交叉参考][谷歌学者]
  • Wang JPZ、Lindsay BG、LeebensMack J、Cui L、Wall PK、Webb CM、dePamphilis CW。EST聚类误差评估和纠正。生物信息学。2004;20:2973–2984. doi:10.1093/bioinformatics/bth342。[公共医学] [交叉参考][谷歌学者]
  • Fisher RA、Corbet AS、Williams CB。动物种群随机样本中物种数量和个体数量之间的关系。动物生态学杂志。1943;12:42–58. [谷歌学者]
  • Efron B,Thisted R。估计看不见的物种的数量:莎士比亚知道多少单词?生物特征。1976;63:435–447. [谷歌学者]
  • Wang JPZ,Lindsay BG。物种丰富度估算的惩罚非参数最大似然法。美国统计协会杂志。2005;100:942–959. doi:10.1198/016214500000005。[交叉参考][谷歌学者]
  • 费勒·W。概率论及其应用导论。I.威利父子公司;1968[谷歌学者]
  • 费勒·W。概率论及其应用导论。二、。威利父子公司;1971[谷歌学者]
  • Lindsay BG,Roeder K。整数参数模型的统一处理(在理论和方法中)美国统计协会杂志。1987;82:758–764. [谷歌学者]
  • Good IJ,Toulmin GH。增加样本时,新物种数量和种群覆盖率的增加。生物特征。1956年;43:45–63. [谷歌学者]
  • 埃根http://www.mathstat.dal.ca/tsusko网站
  • Asamizu E,Nakamura Y,Sato S,Tabata S拟南芥:从标准化和大小选择的cDNA库中生成12028个非冗余表达序列标签。DNA研究。2000;7:175–180. doi:10.1093/dnares/7.3.175。[公共医学] [交叉参考][谷歌学者]
  • Kiefer J,Wolfowitz J.无穷多关联参数存在下最大似然估计的相合性。《数理统计年鉴》。1956年;27:887–906。 [谷歌学者]
  • Efron B.非参数标准误差和置信区间。加拿大统计杂志。1981;9:139–172. [谷歌学者]
  • Chao A,Huang WH,Chen YC,Kuo CY。估算两个群落中的共享物种数量。中国统计局。2000;10:227–246. [谷歌学者]
  • EST统计http://www.floragenome.org/ESTstat
  • 补充射线材料http://bioinfo.stats.northwestern.edu/jzwang

文章来自BMC生物信息学由以下人员提供BMC公司