Bayesian model accounting for within-class biological variability in Serial Analysis of Gene Expression (SAGE)

Ricardo ZN Vêncio; Helena Brentani; Diogo FC Patrão; Carlos AB Pereira

doi:10.1186/1471-2105-5-119

BMC生物信息学。2004; 5: 119.

2004年8月31日在线发布。数字对象标识：10.1186/1471-2105-5-119

预防性维修识别码：PMC517707型

采购管理信息：15339345

基因表达序列分析中类内生物变异的贝叶斯模型

里卡多·兹恩西奥,^1,² 海伦娜·布伦蒂尼,^三，⁴ 帕托迪奥戈足球俱乐部,^三和卡洛斯·佩雷拉^1,²

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 附加文件1所有证据措施的结果。此文件允许用户交互式定义排名标签的重要性截止值。等级基于反对“无差异表达”假设的证据度量，即接近0（零）的证据表示差异表达的可信度较高，接近1（一）的证据表明没有差异表达的证据。
1471-2105-5-119-S1.xls号（370万）
GUID:5AF7E540-DD3B-44F9-9EC5-EEA2FCD8FCB3

摘要

背景

转录计数方法（如基因表达序列分析（SAGE）、“数字北部”或大规模并行签名测序（MPSS））面临的一个重要挑战是进行统计分析，以解释类内变异，即：。，变异性是由于同一类抽样个体之间固有的生物学差异造成的，而不仅仅是由于技术抽样误差造成的变异性。

结果

我们引入了一个贝叶斯模型，该模型通过混合分布来解释类内变异性。我们表明，以前可用的池中聚合方法（“伪库”）和贝塔二项式模型是混合模型的特殊情况。我们通过使用公共数据库中的SAGE数据进行脑瘤与正常对照来说明我们的方法。我们展示了一些标签的例子，这些标签被视为差异表达，如果忽略了类内变异性，那么它们具有很高的显著性，但是如果考虑到它，那么它们显然没有那么显著。

结论

利用有关生物复制的可用信息，可以将显示差异表达的候选转录物列表转换为更可靠的转录物。我们的方法可以在GPL/GNU copyleft下，通过一个用户友好的基于web的在线工具或作为补充网站上的R语言脚本免费获得。

背景

基因表达序列分析（SAGE）的一个重要挑战[1]分析是决定一个基因在两个类别之间是否存在差异表达，例如肿瘤类别与正常类别。从统计学角度来看，这一关键步骤是检验零假设H₀：“基因在两个被探测的类之间没有差异表达”。更常见的方法是分配索引(P（P）-例如，值或贝叶斯因子），用于测量假设的可信度/重要性，并让生物学家自己确定他们所称的显著性的界限。

这种必要性的出现是因为计算已测序的SAGE标签是一个容易出现随机和系统性错误的过程，这些错误会影响基因表达丰度估计。系统误差可能来自各种来源，例如GC含量偏差[2]，排序错误[三,4]以及非唯一标签的可能性。这种错误可以使用一些生物信息学程序进行检测/纠正，例如自动测序流水线的质量控制[5]或统计估计程序，如“去噪”[6,7]. 随机误差是由于SAGE数据采集的固有随机特性造成的：自动排序采样。就像瓮中的彩色球一样，从库中采样和计数SAGE标签通常由伯努利过程建模，该过程依赖于无限总体采样近似值。

如果一个表达序列标签（EST）库是非标准化的，它的计数数据，也被称为“数字-北方”，反映了基因的丰富性。同样，大规模并行签名序列（MPSS）[8]这项技术通过计算标签来推断转录组，但使用的策略与传统DNA测序方法完全不同，这允许增强高通量能力。因此，这里讨论的所有结果都很容易适用于“数字北方”或MPSS上下文，因为从数学角度来看，所有结果都代表了相同的生物信息学问题：计算转录本（如瓮中的球）。

如今，SAGE丰度数据的可变性仅被建模为来自测序的采样，因为几乎所有的统计程序都是在聚合了来自同一类别的不同库的观测值后执行的，从而创建了一个“伪库”。请参见[9-11]对SAGE分析中使用的统计技术进行良好审查。这种广泛使用的技巧默认了组内变异性，即同一组内个体之间的生物变异性（例如，具有相同癌症诊断的不同患者），并可能导致过度自信的结论。

结果

在这里，我们提出了一个混合贝叶斯模型，作为贝塔二项模型的推广，用于解释类内变异性[12]. 我们还表明，通常的“伪线性”结构是我们混合模型的一个特例。最后，我们建议使用贝叶斯错误率在贝叶斯框架下直观地对差分表达式假设进行排序，避免了一些技术和困难，例如：I型和II型错误分析、Bonferroni型多重测试校正、渐近结果调用、，施加测试统计量和零概率密度函数（pdf）等。

统计模型

单次自动排序的计数过程我-该库通常被建模为伯努利过程和固定的未知标签丰度π_我隐式假定。感兴趣的随机变量“表达式丰富”的pdfπ∈[0；1]n个库是未知的，因此每个库都可以被视为是通过实现π这些特征自然导致混合模型[13,14]以下为：

保存图片、插图等的外部文件。对象名称为1471-2105-5-119-i1.gif

哪里：（f）（·）是由向量参数化的同一类库中丰度的未知pdfθ,X（X）= (x个₁,...,x个_n个)是总数的矢量n个同类库，米= (米₁,...,米_n个)是库大小的矢量L（左）是每种可能性我-第次观察。

将同一类库中的所有观察结果合并，在统计推断之前构建“伪类库”的常见过程被认为是这种混合模型的一个特例：假设所有库的丰度严格相同，没有生物变异性。从数学上讲，这是一个在单个丰度值上具有无限概率密度的函数π=θ彼此归零π≠θ或Dirac的Delta函数。使用（f）（·）作为约束于[0；1]的Diracδ函数，将公式1转化为常见的二项式分布（参见方法部分的推导）。

我们认为Dirac的Delta是对真实SAGE库的天真描述。贝塔分布是一种具有非零类内方差的替代方法，用于解释它们之间直观预期的生物差异。使用（f）（·）作为等式1中的Beta，产生了所谓的Beta-二项式模型（参见方法一节中的推导）。

给定参数向量θ描述随机变量的π一些固定基因G公司，我们必须确定a类和B类之间是否存在差异（例如，肿瘤类和正常类）。我们建议将基因视为基于A类和B类预测β-pdfs的非重叠差异表达。“预测性”是指我们使用后部Beta pdf中的模式。“非叠加”直观特性在数学上表示为贝叶斯错误率E类[15]以下为：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i2.gif

哪里（f）（·）是Beta pdf，参数上方的“帽子”表示导致后部pdf最大值。这个后部分布照常从贝叶斯统计理论中获得(先验的pdf选择和详细推导见方法部分）。

直观地说，如果pdf“相距很远”，那么该基因可能在不同类别之间具有可复制的差异表达。在这种情况下，很少有人会将A类错误分类为B类和vice-versa类。图图11对这一事实提供了一些见解。使用我们提出的方法，“相距很远”的概念意味着贝叶斯错误率较小E类对于惯常统计的专家来说，这种证据度量可能类似于一类和二类错误的总和，但它只是一个说明性的类比。

在单独的窗口中打开

图1

贝叶斯错误率图解。此图显示了贝叶斯错误率的两个建议使用示例E类基于表达丰度的pdf定义差异表达基因π左边的例子显示了类的pdf的明显叠加，因此具有该图谱的基因不会提供类之间差异表达的证据。正确的例子显示两个pdf“相距甚远”，具有这种行为的基因应被安全地视为在两个类别之间差异表达。

与任何显著性测试方法一样，实验者必须定义什么是高显著性E类值。此截止值应以外部和独立的验证性测定为指导。为了避免粗糙的决策边界，人们可以对其显著性结果进行排序，但在任何类型的统计测试中都无法避免一些武断性。

在经典的频率统计框架中，如果结果显示P（P）-a中的值≤0.01t吨-like-test，希望这样可以将错误控制在这个级别。然而，由于技术上的困难，例如缺乏后验验证方法的敏感性或高度绝对表达（非差异表达）的必要性，这种明显的统计上合理的结果在语用意义上可能没有用处。这就是为什么我们倾向于对差异表达结果进行排序，并允许研究人员为所选基因建立与其后续应用相兼容的截止值，而不是根据假设推导的错误率截止值对其进行分割。熟悉Frequentist Statistics框架的人可能会错过多个测试注意事项、I型/II型错误研究等。然而，在Bayesian框架中，其中一些关注事项没有意义，因为我们使用的是参数空间而不是样本空间。贝叶斯分析避免了关于“可以观测但没有观测到的数据”的陈述，只使用可用信息（先前的和实验的），从有效观测的数据中提取所有可能的信息。

对于那些被分类为差异表达的基因，应该聚合直观信息，在表达比率中添加“错误条”。最近，我们开发了一种将可信度区间添加到基因表达率的方法[16]，这可以改进后验分析，如聚类[17]或与微阵列数据进行比较。

使用公开可用数据与可用方法进行比较

为了证明该模型的实用性，我们将其应用于肿瘤与正常两类比较问题。我们从癌症基因组解剖学项目的SAGE Genie公共数据库网站上选择了脑肿瘤SAGE数据的子集[18]. SAGE Genie执行多个生物信息学协议，通过系统错误清理/纠正来确保其数据的质量[19].

直到2004年1月，我们在SAGE Genie中使用了星形细胞瘤III级肿瘤的所有4个可用文库，以及几乎所有（胎儿文库除外）正常大脑文库（有关文库的详细信息，请参阅方法部分）。

我们想强调三个典型和重要的案例：（i）当我们的测量值与接受零假设H的其他证据测量值一致时₀也就是说，没有证据表明肿瘤和正常人群之间存在差异行为；（ii）当我们的方法与其他拒绝H的方法一致时₀也就是说，存在差异表达的证据；以及（iii）当我们的方法显示证据支持，但其他证据措施显示证据不利于H₀案例（iii）是我们方法的主要动机，因为它揭示了研究人员可能会称之为差异表达的基因的情况，事实上，如果考虑到生物复制，这种差异可能并不显著。使用的其他证据度量是：Audic-Claverie贝叶斯证据[20]经典的Fisher精确测试P（P）-价值观和经典χ²P（P）-值，全部使用IDEG6网络接口获得[21,22]（请参阅“方法”部分）。

案例（i）原型是带有X（X）_T型=（0、2、5、8）和X（X）_N个= (1, 1, 0, 0, 0, 7, 2). Audic-Claverie、Fisher和χ²方法产量P（P）-值分别为0.06、0.44、0.41，表明H证据不足₀对于所有神秘意义水平，截止值≤0.01、≤0.05或≤0.1。贝叶斯错误率证据是E类=0.61，正常和肿瘤预测性β-pdf之间的叠加水平直观上不可接受，表明类之间没有可分离的行为。图图2a2年显示了pdf和这两个类的观察结果之间的明显重叠。

保存图片、插图等的外部文件。对象名称为1471-2105-5-119-2.jpg

在单独的窗口中打开

图2

最大值后部主要原型案例中类的Beta pdf预测pdf和Bayes错误率E类图中显示了肿瘤（T）类和正常（N）类的标记，例如文本中描述的三个重要原型病例中包含的标记。“x”和“o”标记表示每个肿瘤和正常中观察到的丰度。框架a）显示了案例（i）中方法符合“无差异表达”结论的示例。框架b）显示了案例（ii）方法符合“微分表达式”结论的示例。框架c）和d）显示案例（iii）经典时的示例P（P）-值方法导致类之间的差异表达显著，如果考虑到类内的可变性，我们的方法表示pdf叠加。个别观察表明，这些类别没有明确划分，对“差异表达”的结论产生了怀疑。

案例（ii）原型是带有X（X）_T型=（7、11、18、10）和X（X）_N个= (7, 1, 2, 1, 2, 0, 3). 全部P（P）-值为0.00（零），在任何截止水平上都是有效的。我们的证据是E类=0.03，安全地表明该基因在正常大脑和星形细胞瘤III级患者之间表现出差异。图图2b2亿显示两个Beta彼此分开，即使观察到明显的类内差异，表达也不同。

案例（iii）原型是带有X（X）_T型=（7239244123）和X（X）_N个= (54, 27, 33, 21, 40, 196, 28). 全部P（P）-值为0.00（零），表示类之间存在显著差异。另一方面，我们的证据E类=0.73表示肿瘤和正常类之间存在高度重叠。图图2c2厘米表明肿瘤分级的组内变异性不容忽视。很明显，单个库会将其结果与正常大脑库混淆，而Beta具有相对较高的交集。使用一种常见的“伪血统”方法，人们会将此基因称为类之间的强区分因子。我们认为这是一个令人怀疑的结论。

还有其他几个明显的例子（iii），如图中的TACAGTATGT标签图2d，二维，收到P（P）-所有其他方法的值均<0.01，这是我们方法的主要关注点，因为它们可能会导致基因临床验证工作的资源浪费，而SAGE本身可能会将这些资源留给其他有希望的基因。所有标签结果都可以作为附加文件使用，所有标签的图形都在补充网站上[23].

当考虑到课内可变性导致H时，可以考虑一个案例（iv）₀拒绝，但考虑“伪线性”会导致H₀接受。这似乎是不一致的，因为有人预计，一旦H₀在简化模型中被接受，它也应该在完整模型中被接受。事实上，我们没有观察到这种情况，除非通过标记P（P）-值或贝叶斯错误率非常接近任意定义的截止值。我们认为这些现象只是“边缘效应”的表现。

讨论

为了确保我们正在处理SAGE分析中的一个基本问题，我们展示了使用相同数据但不包括“小”库来分析方法鲁棒性的更多见解。此外，我们还将我们提出的方法与唯一可用的用于处理类内可变性的已发布解决方案进行了一些比较t吨-测试近似值[12].

我们对所有可用的库都使用了我们的方法，但其中一些库小于50000个标记（参见表表1）。1). 在SAGE社区中，小于此任意限制的库被视为“小”库。一些研究人员声称，这些都是不具代表性的，应该从分析中排除。我们观察到了几个case（iii）标记示例，如果我们使用大小>40000和>50000的库（仅在补充网站上显示），这些示例仍为case（ii）。图图3三显示了在这些树设置中分析的一个标记示例，很明显，包含“小”库给出了几乎相同的结果，这表明我们的方法对小类大小变化和“小”大小库的鲁棒性。此外，这些库并不总是生物采样的离群值，但似乎与其他库一样。这些结果表明，可以将“小”库与非“小”的库结合使用，因为生物变异性似乎大于二项式抽样变异性。

在单独的窗口中打开

图3

“小”尺寸库对最终结果的影响。预测pdf和Bayes错误率E类显示了文本中描述的三个重要原型案例中包含的示例标记的肿瘤（T）类和正常（N）类。“x”和“o”标记代表每个肿瘤和正常库中观察到的丰度。框架a）显示了使用所有库的结果。突出显示“小型”库（大小<50000），并显示其相对于库大小的计数。框架b）显示的结果不包括那些“小”库。很明显，结果几乎相同，“小”库不一定是采样的异常值。

表1

SAGE Genie中的脑瘤和正常库用作实际数据应用程序。

#	库名称	GEO加入	标签总数
1	SAGE_脑星形细胞瘤_级别_III_B_H1020	GSM697型	51573
2	SAGE_脑星形细胞瘤_级别_III_B_H970	克/平方米14763	106982
三	SAGE_脑星形细胞瘤_级别_III_B_R140	克/平方米14773	118733
4	SAGE_Brain_星形细胞瘤_等级_III_B_R927	GSM14766标准	107344
5	SAGE_大脑_正常_小脑_B_1	GSM761型	50385
6	SAGE_大脑_正常_小脑_BB542	GSM695型	40500
7	SAGE_大脑_正常_皮层_BB542	GSM676型	94233
8	SAGE_大脑_正常_皮质_B_pool6	GSM763型	62451
9	SAGE_Brain_normal_peds_cortex_B_H1571型	GSM786型	77554
10	SAGE_脑_正常_物质_图_B_1	GSM14796标准	42498
11	SAGE_大脑_正常_丘脑_B_1	GSM713标准	24015

在单独的窗口中打开

显然，我们并不建议在SAGE分析中只使用“小”库，而是建议我们的方法相对稳健。对于低表达基因，随着库大小的减小，二项抽样变异性应变得更加相关。此外，使用两个/三个库获得的结果可能与仅使用一个库的结果大不相同。这些属性可能依赖于标签，因为出于生物原因，某些标签可能比其他标签噪音更大。在应用我们的方法之前，可以使用一些“去噪”程序[7]. 因此，我们的调查结果应该仔细解释。

为了证明使用“伪线性”方法的不一致性不是显示小折叠变化的标签的特权，我们分析了另外三个非常说明性的示例：ATGGCAAG、GGATGGAAA和GTATGGGCCC；这些是案例（iii）标签。这些标签呈现高倍变化：分别为7.59、8.15和25.80倍变化，在合并的肿瘤库中增强。使用众所周知的Fisher精确检验，χ²经典测试和Audic-Claverie的方法，我们得到0.00（零！）P（P）-无差异表达的值使假设无效。使用概念上不同的贝叶斯P（P）-SAGE Genie实现的值[24,25]对于大于4倍的倍数变化的后验概率，我们分别获得0.01、0.00和0.00。最后，使用我们自己提出的、应用于池的度量，我们得到E类=0.00表示两类pdf之间没有重叠。所有这些结果都表明这些标签的差异表达具有很强的意义。

然而，如果我们考虑到类内可变性，Baggerly提出的测试等。[12]分别为0.08、0.07和0.15t吨-测试P（P）-值，我们的方法得出的Bayes错误率分别为0.38、0.37、0.43；表明不太重要的证据支持差异表达的假设。仔细观察这些标签的图形，会让人相信没有可复制的差异表达，因为肿瘤和正常的一些观察结果是重叠的（所有图形都可以在补充网站上获得[23]).

由于我们清楚地表明，使用“伪线性”聚合的方法在某些情况下可能不一致，因此一个自然的问题是，与解释类内变化的唯一已发布解决方案Baggerly相比，我们提出的方法的性能如何等。[12]t吨-测试近似值。如果不知道所有标签的真实状态，就不可能进行认真的基准测试。由于证据度量的解释差异很大，性能可能会受到每种方法的任意截止选择的影响。图图44显示了两种方法各自获得的证据度量的散点图。

在单独的窗口中打开

图4

贝叶斯错误率和t吨-测试近似值。它显示了贝叶斯错误率(E类)与t吨-测试近似值P（P）-每个标签的值（Baggerly）[12]。红线是定义显著性区域E≤0.1和Baggerly≤0.01的任意截止线。绿线符合LOWESS潮流。

从这张图中可以清楚地看出，使用我们的方法被认为是差异表达的标签比t吨-测试近似值，考虑E类≤0.1和P（P）-值≤0.01。还有一些由选择的标记t吨-测试并被我们忽略。如果没有这些标记的真正未知状态，就不可能知道哪个方法执行得更好。查看各个库的结果，如图所示图22例如，这可能有助于进行分析，但这是一个主观的过程。

重要的是要记住，在最初的Beta建模中隐藏着一个困难。如果贝塔不是未知生物行为的良好模型，那么巴格利和贝塔可能会出现一些明显的不一致等。[12]以及我们的方法。然而，我们的一般混合模型允许另一个命题。与Beta不同，存在其他单纯形约束的PDF，但其可处理性要困难得多[26]. 我们认为，建立一个完全非参数的方法来解决这个问题是一个非常困难的问题，但应该被视为未来的挑战。

结论

到目前为止，几乎所有SAGE数据分析的统计方法都默认了类内变异性。据我们所知，第一个正式解决这个问题的是巴格利等。[12]他引入了贝塔-二项式模型，作为对标签计数概率建模的正确方法，而不是二项式模式。他们还建议t吨-与统计学一样，使用经典的频数统计框架概述了一个可能的假设检验，并为t吨pdf证明。

在这项工作中，我们提出了该问题的贝叶斯替代方案，并定义了一个理论模型，该模型将Baggerly的贝塔-二项式方法甚至普通二项式法视为混合模型的特殊情况。其他模型可能会修改混合分布，如贝塔-泊松[14]，或使用其他单纯形约束pdf[26]表达丰度模型。最后，但并非至少如此，我们提出了一种使用贝叶斯错误率作为类pdf之间分离的直观度量来对两类差异表达基因进行排序的方法，避免了统计测试形式主义及其概念/实践困难。

我们表明，在某些情况下，忽略组内变异性的方法会导致肿瘤组和正常组之间差异的显著性，但要仔细观察个体观察结果，由于丰度概率密度函数具有相当大的叠加性，人们不应将其赋予如此重要的意义。

总之，我们建议在对SAGE数据进行任何统计分析时，如果有可用的重复数据，则必须考虑组内变异性。我们建议在规划新的SAGE实验时应考虑生物复制。

方法

通用贝叶斯模型

一般来说，假设感兴趣的随机变量的概率密度函数（pdf）为“表达式丰度”π某些基因的∈[0；1]G公司通过参数向量在模型族中建立索引θ因此，遵循通常的贝叶斯框架后部描述该类的pdf为：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i3.gif

哪里：X（X）= (x个₁,...,x个_n个)是总数的矢量n个同类库，米= (米₁,...,米_n个)是所有观测值的矢量n个同类库，克（·）是先验的pdf格式，以及L（左）是每种可能性我-第次观察。注意，所有观察值的所有似然函数的乘积就是所谓的似然函数。

自动排序的计数过程通常被建模为二项式。由于事先不知道样本大小和停止规则，因此模型严格来说不是二项模型。我们在模型中不需要组合常数，但我们写它只是因为它是常用的，并且会消失在后部无论如何都要表达。

“伪库”方法作为特例

将来自同一类库的所有观察结果合并，并用其组件的总和构造“伪线性代数”，是使用复制的标准过程。如果使用的话，我们的通用模型将简化为这个（不切实际的）模型（f）（·）作为等式1中的狄拉克三角：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i4.gif

哪里：1{·}是指示符函数。

在公式3中使用公式4，得出：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i5.gif

其中：g(θ)=1，非格式化制服先验的分配。

专家承认θ~β（1+Σx个_我, 1 +Σ米_我-Σx个_我)观测值之和是“伪线性”结构的数学翻译。

特殊情况下的贝塔-二项式方法

在SAGE分析中，唯一允许非零类内方差的公开解决方案是贝塔二项模型[12]. 使用（f）（·）作为等式1中的Beta，我们得到了Beta-二项式模型作为一般模型的特殊情况：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i6.gif

哪里：B类（·）是beta特殊函数，并且：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i7.gif

专家再次承认θ= (θ₁,θ₂)作为Beta随机变量的平均值和标准偏差（stdv）。我们更喜欢贝塔分布的这种参数化，而不是常见的(α,β)一个原因是：（i）生物学家处理平均值和性病病毒比处理抽象值直观得多α和β和（ii）作为α,β>0，域θ={(θ₁,θ₂): 0 ≤θ₁≤ 1, 0 ≤θ₂²<θ₁(1-θ₁)≤1/4}是有界的，更容易进行必要的数值计算。

在等式3中使用等式6得出：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i8.gif

哪里：克(θ₁,θ₂)是先验的pdf格式。

先验分布定义

要完成贝叶斯模型，有必要选择先验的pdf格式。我们在θ上使用均匀分布。另一方面，我们事先知道，如果不考虑课内变异性，该模型的方差不可能小于最终获得的方差。即使类内变异性很小，也不能估计为小于简单抽样误差，因为它们是不可分割的，抽样误差是下限[12]. 举个例子，如果用一把普通的尺子对一个折叠的纸球和一个完美的球体进行几次直径测量，也会出现同样的情况。在第一种情况下，被测物体的固有性质决定了测量的可变性，但在第二种情况下我们无法以比尺子更高的精度来测量完美球体的直径。

这种知识通过以下方式自然地纳入贝叶斯统计先验的分配。为了匹配我们想要的特征，在θ参数空间上定义一个统一的，但约束在最小stdvσ的条件下就足够了，该条件是从类内无方差模型的结果中获得的：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i9.gif

域上θ={(θ₁,θ₂): 0 ≤θ₁≤ 1, 0 ≤θ₂²<θ₁（1）-θ₁) ≤ 1/4}.

因为我们证明了（等式5），类内无方差模型是θ~β（1+∑x个_我, 1 + Σ米_我- Σx个_我)，很容易从Beta方差中获得标准偏差下限：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i10.gif

因此，使用等式8中的等式9和等式10后部已完全定义。

差异表达检测

我们使用贝叶斯错误率检测差异表达的标签E类[15]在两个预测Beta pdf中：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i11.gif

哪里：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i12.gif

请注意（f）（·）是Beta pdf，如等式6所示。“帽子”盖上了θ= (θ₁,θ₂)指示导致公式8达到最大值的值。通常，根据前面定义的约束θ，最大化是在后部的核心，因为它给出了与后部本身：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i13.gif

图图55显示了此过程的一个示例。请参阅“结果”部分，以直观地了解此证据度量。

保存图片、插图等的外部文件。对象名称为1471-2105-5-119-5.jpg

在单独的窗口中打开

图5

最大值图解a后部参数估计。在一个人工例子中，给出了方程12的最大后验参数。从中提取“帽子”（箭头所指）参数的二维pdf与等式8中描述的参数成正比。

实施–数值分析

该方法以R语言实现[27,28]根据GPL/GNU版权许可在补充网站上免费提供的脚本[23]. 在这个网页上有关于如何在本地运行它的详细信息。

我们的方法是计算机密集型的，主要是因为需要一些数值最大化和积分。我们使用高效的R内置例程来执行此类数字任务。记住，等式12中所需的最大化是有约束的，因此我们简单地使用辅助重新参数化来获得线性约束，并使用constrOptim R例程。对于数值积分，我们使用了一维高斯积分R内置函数。虽然等式9的数值积分应该在所有[0；1]支持下进行，但此积分的相关贡献集中在一个更小的区域。超过形式极限的积分将导致严重的数值错误，为了避免这个问题，我们将积分区域近似为由每个Beta pdf的0.005分位数和0.995分位数分隔的区间，因为相关密度位于该区间。

如我们最近的工作所述，获得了感兴趣标签表达率的可信度区间（“error-bars”）[16]. 我们任意选择了68%的可信区间。

实施–基于Web的界面

我们还开发了一个易于使用的基于web的服务，该服务在我们的服务器上执行所有计算，并提供密码保护的结果。尽管需要，为了与SAGE Genie数据库自动建立web超链接，但无需明确识别分析的标签，而是任何（自定义）身份证字符串。这可能会增加隐私，或使我们的web界面对“数字北方”、MPSS或任何二项式采样混合的数学相关问题有用。图图66显示了界面的快照。

在单独的窗口中打开

图6

SAGEbetaBin方法的web界面快照。图中显示了为使我们的方法易于使用而实现的在线工具。研究人员提交他们的数据（A），并在我们完成工作时通过电子邮件接收警报，以及在密码保护的网页（B）中获取结果的指示。如果提供的ID是人类标签（C），则结果与SAGE基因的标签到基因图相关联。本工作中使用的个别观测图形可按需提供（D）。

公开可用数据

表格表11列出SAGE Genie的文库名称，Gene Expression Omnibus（GEO）[29]所有使用的库的登录代码和大小。

对于我们的目标，将分析集中在标签级别就足够了。因此，我们处理标签计数，并将标签最佳基因匹配的识别作为一个后验问题，只有对真正有趣的标签才能仔细进行。我们选择不处理计数仅出现在一个类的库中的标记。需要注意的是，所有文库都来自散装材料，没有细胞系，并且来自具有类似疾病描述的患者。正常的库来自大脑的不同正常区域。

我们认为该数据集非常具有说明性，因为在肿瘤类别中存在生物复制，可以清楚地验证类别内的生物变异性。另一方面，只考虑一种疾病，即星形细胞瘤III级，而不是数据库中的所有脑肿瘤，会让人相信，类内变异实际上是由于患者的生物多样性，而不是由于SAGE Genie数据库中存储的不同脑肿瘤的非常独特的分子特征。

因此，我们认为生物信息学尽管我们的目的不是对脑肿瘤数据进行详细或生物学分析，但比较非常适合证明处理类内效应的必要性。

与其他方法的比较

为了对我们的差异表达证据度量产生一些直觉，我们将从著名的Fisher精确检验（经典的Pearson检验）中获得的证据度量制成表格χ²比例检验和贝叶斯Audic-Claverie方法。所有这些测试都是使用易于使用的网络接口IDEG6执行的[21,22].

“P（P）-“数值”在概念上与我们的证据度量有很大不同，但却是最常用的证据度量。虽然无法比较数字，但从这些方法中得出的结论应该是因为每个图书馆观察结果的图形表示清楚地表明了“伪线性”方法。所有标签的显著性测量结果可作为附加Excel获得^©或OpenOffice^©用户可以在交互式文件中设置显著性度量的截止值，并探索结论中的差异。

我们对我们的方法与Baggerly进行了定性比较等。[12]t吨-以图形方式测试近似值，因为如果没有被分析标签的未知真实状态，就不可能判断它们，因为返回的数值解释太不相同。在他们的Frequentist框架中第页_我=x个_我/米_我用于π_我并且，这些丰度的线性组合被认为是组合不同库结果的正确方法：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i14.gif

哪里w个_我是产生无偏最小方差估计量的权重V（V）_u个加权比例方差和θ= (α,β)是Beta pdf参数。然而，当这种无偏方差小于抽样变异性时，它可能会非常小。我们知道，如果不考虑课内变异性，该模型的方差不可能小于最终获得的方差。因此，他们建议最终特别的估计员：

V（V）=最大值[V（V）_u个;V（V）_伪类] (14)

哪里：

保存图片、插图等的外部文件。对象名为1471-2105-5-119-i15.gif

max（·）函数确保V（V）不是不切实际的小时候V（V）_u个是不切实际的小。收件人适合所有这些参数都使用了计算实用的矩量法。一次第页_A类,第页_B类,V（V）_A类和V（V）_B类对于A类和B类，这些作者测试比例是否有显著差异，建议使用t吨_w个学生的统计数据t吨_数据流pdf格式：

保存图片、插图等的外部文件。对象名称为1471-2105-5-119-i16.gif

缩写词表

SAGE：基因表达的系列分析

MPSS：大规模并行签名序列

EST：表达序列标记

pdf：概率密度函数

GEO：基因表达总览

作者的贡献

RV构思并执行了这项工作。HB帮助解决了所有生物问题。DFCP帮助开发了差异表达检测方法，并实现了在线网络工具。CABP帮助贝叶斯统计并提出了混合思想。

补充材料

附加文件1：

所有证据措施的结果。此文件允许用户交互式定义排名标签的重要性截止值。等级基于反对“无差异表达”假设的证据度量，即接近0（零）的证据表示差异表达的可信度较高，接近1（一）的证据表明没有差异表达的证据。

单击此处获取文件^{（3.7M，xls）}

致谢

RV由FAPESP 02/04698-8奖学金支持。我们感谢Tie Koide对手稿的批判性阅读，感谢BIOINFO-USP/Red-Vision对计算的支持。

工具书类

Velculescu VE，Zhang L，Vogelstein B，Kinzler KW.基因表达的系列分析。科学。1995;270:484–487.[公共医学][谷歌学者]
Margulies EH、Kardia SL、Innis JW。SAGE库中GC内容偏差的识别和预防。核酸研究。2001;29：e60.doi:10.1093/nar/29.12.e60。 [PMC免费文章][公共医学][交叉参考][谷歌学者]
Stern MD、Anisimov SV、Boheler KR。能否根据SAGE目录估计转录组大小？生物信息学。2003;19:443–448. doi:10.1093/bioinformatics/btg018。[公共医学][交叉参考][谷歌学者]
Stollberg J、Urschitz J、Urban Z、Boyd CD。SAGE的定量评估。基因组研究。2000;10:1241–1248. doi:10.1101/gr.10.8.1241。 [PMC免费文章][公共医学][交叉参考][谷歌学者]
Akmaev VR、Wang CJ。基因表达序列分析中基于序列的伪影修正。生物信息学。2004;20:1254–1263. doi:10.1093/bioinformatics/bth077。[公共医学][交叉参考][谷歌学者]
Morris JS、Baggerly KA、Coombes KR。使用SAGE对mRNA转录物相对丰度的贝叶斯收缩估计。生物计量学。2003;59：476–486。doi:10.1111/1541-0420.0057。[公共医学][交叉参考][谷歌学者]
Blades NJ、Jones JB、Kern SE、Parmigiani G.基因表达系列分析数据的去噪。生物信息学。
Brenner S，Johnson M，Bridgham J.通过微珠阵列上的大规模并行签名测序（MPSS）进行基因表达分析。自然生物技术。2000;18:630–634. doi:10.1038/776469。[公共医学][交叉参考][谷歌学者]
Man MZ，Wang X，Wang Y.POWER_SAGE：比较SAGE实验的统计检验。生物信息学。2000;16:953–959. doi:10.1093/bioinformatics/16.11.953。[公共医学][交叉参考][谷歌学者]
Romualdi C，Bortoluzzi S，Danieli GA。在多标签抽样实验中检测差异表达基因：统计测试的比较评估。人类分子遗传学。2001;19:2133–2141. doi:10.1093/hmg/10.19.2133。[公共医学][交叉参考][谷歌学者]
Ruijter JM、Kampen AHC、Baas F.SAGE库的统计评估：实验设计的后果。生理基因组学。2002;11:37–44.[公共医学][谷歌学者]
Baggerly KA，Deng L，Morris JS，Aldaz CM。SAGE中的差异表达：解释正常的库间变异。生物信息学。2003;19:1477–1483. doi:10.1093/bioinformatics/btg173。[公共医学][交叉参考][谷歌学者]
Aitchison J，Dunsmore IR。统计预测分析。剑桥：剑桥大学出版社；1975[谷歌学者]
Bueno AMS、Pereira CAB、Rabello-Gay MN、Stern JM。环境遗传毒性评估：混合统计模型的贝叶斯方法。随机环境研究和风险评估。2002;16:267–278. doi:10.1007/s00477-002-0100-x。[交叉参考][谷歌学者]
Duda RO、Hart PE、Stork DG。模式分类。2.纽约：威利国际科学出版社；2000[谷歌学者]
Víncio RZN、Brentani H、Pereira CAB。在SAGE分析中使用可信度区间代替假设检验。生物信息学。2003;19:2461–2464. doi:10.1093/bioinformatics/btg357。[公共医学][交叉参考][谷歌学者]
Yeung KY，Medvedociv M，Bumgarner RE。用重复测量聚类基因表达数据。基因组生物学。2003;4：R34.1–R34.17。 [PMC免费文章][公共医学][谷歌学者]
SAGE精灵主页http://cgap.nci.nih.gov/SAGE网站
Boon K、Osório EC、Greenhut SF、Schaefer CF、Shoemaker J、Polyak K、Morin PJ、Buetow KH、Strausberg RL、Souza SJ、Riggins GJ。正常和恶性基因表达的解剖学。美国国家科学院院刊。2002;99:11287–11292. doi:10.1073/pnas.152324199。 [PMC免费文章][公共医学][交叉参考][谷歌学者]
Audic S，Claverie J.数字基因表达谱的意义。基因组研究。1997;7:986–995.[公共医学][谷歌学者]
Romualdi C，Bortoluzzi S，D’Alessi F，Danieli GA。IDEG6：一种用于在多标签采样实验中检测差异表达基因的网络工具。生理基因组学。2003;12:159–162.[公共医学][谷歌学者]
IDEG6主页http://telethon.bio.unipd.it/bioinfo/IDEG6_form/
SAGEbetaBin主页http://www.vision.ime.usp.br/~rvencio/SAGEbetaBin公司
Lal A、Lash AE、Altschul SF、Velculescu V、Zhang L、McLendon RE、Marra MA、Prange C、Morin PJ、Polyak K、Papadopoulos N、Vogelstein B、Kinzler KW、Strausberg RL、Riggins GJ。人类癌症基因表达的公共数据库。癌症研究。1999;21:5403–5407.[公共医学][谷歌学者]
Chen H，Centola M，Altschul SF，Metzger H。静止和活化肥大细胞中基因表达的特征。《实验医学杂志》。1998;188:1657–1668. doi:10.1084/jem.188.9.1657。 [PMC免费文章][公共医学][交叉参考][谷歌学者]
Aitchison J.单形上的一类一般分布。J R统计社会学学士。1985;47:136–146. [谷歌学者]
伊哈卡·R，绅士·R：一种用于数据分析和图形的语言。计算与图形统计学杂志。1996;5:299–314. [谷歌学者]
R项目主页http://r-project.org
基因表达综合主页网址：http://www.ncbi.nlm.nih.gov/geo

文章来自BMC生物信息学由以下人员提供BMC公司