跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
公共科学图书馆计算生物学。2007年8月;3(8):e129。
2007年8月31日在线发布。 数字对象标识:10.1371/日记.pcbi.0030129
预防性维修识别码:项目经理1963499
PMID:17784779

计算生物学贝叶斯网络学习入门

弗兰·莱维特,编辑器

介绍

贝叶斯网络(BN)为表达联合概率分布(JPD)和推理提供了一种简洁而紧凑的表示。它们在生物科学中对于推断细胞网络的任务变得越来越重要[1],建模蛋白质信号通路[2]、系统生物学、数据集成[],分类[4],和遗传数据分析[5]. 概率论的表示和使用使BN适合于结合领域知识和数据,表达因果关系,避免模型对训练数据的过度拟合,以及从不完整的数据集中学习。概率形式主义为生物系统和测量的随机性提供了一种自然的处理方法。本初级读物旨在向计算生物学家介绍BN,重点介绍学习模型参数和结构的方法背后的概念,而这些方法正成为机器学习的首选方法。

在生物学中有许多应用,我们希望对数据进行分类;例如,基因功能预测。为了解决这些问题,需要一组可用于预测的规则,但通常这些知识是不可用的,或者在实践中,这些规则或太多的规则有很多例外,因此这种方法产生的结果很差。

机器学习方法通常会产生更好的结果,其中使用大量示例(训练集)来调整模型的参数,然后可以使用这些参数对数据进行预测或分类。可能需要许多不同类型的模型,以及训练模型的许多不同方法,每种方法都各有利弊。有关该主题的精彩概述,请参见[6]和[7]. 例如,神经网络通常能够从训练数据中学习模型,但通常很难提取有关模型的信息,而使用其他方法可以为正在解决的数据或问题提供有价值的见解。机器学习中的一个常见问题是过拟合,即所学习的模型过于复杂,对未知数据的概括能力较差。增加训练数据集的大小可能会减少这种情况;然而,这假设有更多的训练数据可用,而事实往往并非如此。此外,通常重要的是确定所学模型参数甚至模型选择中的不确定性。本初级读物重点介绍BNs的使用,BNs为这些问题提供了解决方案。贝叶斯概率理论的使用提供了描述不确定性和根据数据大小调整参数数量的机制。使用图形表示提供了一种简单的方法来可视化模型的结构。对模型的检查可以对数据的属性提供有价值的见解,并允许生成新的模型。

贝叶斯网络

在图形模型表示中,变量由节点表示,节点由表示变量之间关系的边连接在一起。图1提供了描述基因调控网络的BN示例。每个基因的表达由JPD的一个变量表示,该变量描述了基因如何相互调控。这样一个JPD可能会很复杂,即使只有五个变量;然而,图形表示清楚了基因之间的调控关系。

保存图片、插图等的外部文件。对象名称为pcbi.0030129.g001.jpg
一个例子:基因调控网络

基因调控网络为BN的应用提供了一个自然的例子。基因对应于网络中的节点,基因之间的调控关系由有向边表示。在上面的简单示例中,基因G1调节G2、G3和G5,基因G2调节G4和G5以及基因G3调节G5。每个基因表达水平的概率分布由BN参数建模。简化的结果是,一个基因的概率分布仅取决于其网络中的调节器(父母)。例如,G4和G5的表达水平只有因为它们共享一个共同的调节器G2才相关。在数学术语中,给定G2,它们是条件独立的。这种关系导致将整个JPD分解为组件条件分布,其中每个变量仅依赖于网络中的父变量。

第页(G1、G2、G3、G4、G5)=第页(G1)第页(G2|G1)第页(G3|G1)第页(G4|G2)第页(G5|G1,G2,G3)

对于BN,图的边必须形成一个有向非循环图(DAG)——一个没有循环路径(没有循环)的图。这样可以进行有效的推理和学习。JPD可以用一种紧凑的方式表示,通过利用条件独立关系来减小模型的大小——如果给定第三个变量的状态,两个变量是独立的,那么它们是条件独立的。BNs的一个好处是,可以将其解释为生成数据的因果模型。因此,DAG中的箭头(有向边)可以表示变量之间的因果关系/相关性。然而,必须注意的是,从数据中学习因果模型需要的不仅仅是关联数据,这将在本入门文章末尾的因果标题下进行讨论。

生物信息学在生物神经网络中的应用包括基因聚类和细胞网络推断[1],因为它们非常适合建模随机复杂的生物系统,并且生成的网络很容易理解。在生物信息学领域,结合数据和领域知识的一个很好的例子是MAGIC BN,它是使用专家知识设计的,用于组合来自不同异构数据源的信息,用于基因功能预测的分类任务[].

条件概率分布(模型参数)。

变量之间的关系由以下形式的条件概率分布(CPD)编码第页(B | A(B | A))-概率B类鉴于A类。对于离散变量,概率分布表示为条件概率表(CPT),其中包含作为模型参数的概率(参见图7以及相关文本示例)。对于每个节点,可以基于在一组训练数据中观察到的频率来计算给定父节点状态的变量处于每个可能状态的概率。对模型参数使用先验分布通常是有用的/必要的,因为如果没有先验分布,训练示例中没有看到的可能配置将被错误地分配为零观察概率。(同样,这些概率可以由专家估计,并与从数据中学习到的概率一起使用)。

保存图片、插图等的外部文件。对象名称为pcbi.0030129.g007.jpg
基于CPT形式模型参数的朴素贝叶斯分类器

对于BN,使用连续变量,以与CPT类似的方式使用条件概率密度。图2介绍了一个简单的BN,它引入了使用连续变量的概念。通常的符号是用正方形表示离散节点,用圆表示连续节点。连续节点,B类,具有离散父级,A类,(例如,变量k个=3种状态)导致使用k个高斯分布。因此,考虑到A类处于状态,可以推断B值的可能性,或者给定一个值b条对于变量B类,变量的概率A类处于状态可以推断。高斯分布(或其他分布)的参数可以从训练数据中学习。θB类是对模型进行编码的参数集B类用三个高斯数表示,一个代表三个可能状态中的每一个A类.平均值μ和标准偏差σ是建模的高斯分布的参数第页(b | a(b | a)).

保存图片、插图等的外部文件。对象名称为pcbi.0030129.g002.jpg
二节点贝叶斯网络模型参数图解

以类似的方式,可以使用具有连续父项的连续变量CPD的回归模型。在这种情况下,θB类=P(P)(B | A(B | A)) ∼N个(c+ma,σ 2). 即,CPDB类是高斯分布,平均值取决于A=A,带有常量c(c)通过回归确定B类A类.

联合概率分布。

非常感兴趣的是所有变量的JPD。然而,定义JPD所需的模型参数数量随着变量数量的增加而快速增长。通过利用变量之间的条件独立性,可以用较少数量级的参数以紧凑的方式表示模型。

在BN结构中捕获变量之间的关系S公司由DAG定义(如图1). 这使得JPD可以用CPD的乘积来表示,用父变量来描述每个变量,即它所依赖的那些变量。因此:

方程式图像

哪里x个= {x个 1, … ,x个n个}是变量(BN中的节点),θ={θ1, … , θn个}表示模型参数,其中θ是描述th变量x个、和(x个)表示的父母x个.每个参数集θ可以采用多种形式——通常CPT用于离散变量,CPD(如高斯分布)用于连续变量。分类/回归模型可用于学习网络中每个节点的参数。

贝叶斯网络中的推理。

对于已知的BN结构(基因调控网络)图1以及每个节点的CPD(模拟基因相互作用),给出一些基因表达水平的证据,可以推断出其他基因的可能值。例如,G1的值可以从其他基因的值推断出来,即。,第页(G1|G2、G3、G4、G5)。更一般地说,在给定另一组变量的证据的情况下,可以通过边缘化未知变量来推断一组变量值。(边缘化意味着考虑未知变量可能采用的所有可能值,并对其进行平均。)下一节将说明简单的推理示例。

从概念上讲,推断很简单,第页(x | y(x | y))使用贝叶斯规则计算相关CPD的乘积[第页(a | b公司)=p(b | a(b | a))第页()/第页(b条)]计算任何后验概率。从计算上看,用这种方法进行推理计算既困难又低效。有许多方法利用图的结构来推导高效的精确推理算法,如和积算法和最大和算法。然而,对于许多问题,精确推断是不可行的,因此需要使用近似方法,如变分法和抽样方法。

有条件的独立性。

如果两个变量在给定第三个变量的状态下是独立的,则它们是条件独立的。数学上,b条条件独立给定c(c)如果:

方程式图像

条件独立关系编码在网络结构中,如以下三种情况所示。三个基因的调节x个,、和z(z)以为例。在每种情况下,都描述了情况,以及BN图、JPD方程和推理方程第页(z | x(z | x)).

串行连接。例如,当基因x个促进基因、和基因促进基因z(z)(图3). 在这种情况下,除非已知连接中变量的状态,否则会传递证据:如果基因的表达水平未知,则有证据表明x个影响预期水平z(z); 如果是已知的,那么z(z)仅取决于的表达式级别.z(z)有条件地独立于x个.

分流连接例如,当转录因子打开两个基因x个z(z)(图4). 与串行连接一样,除非实例化连接中的变量,否则将传输证据:如果未知,则有证据表明x个影响的级别z(z)(因为它们是共同监管的ifx个高度表达,那么可以推断,这反过来会影响z(z));如果是已知的,那么z(z)仅取决于的表达式级别.z(z)有条件地独立于x个.

汇聚连接例如,当两个基因x个z(z)两者都促进基因(图5). 只有当连接中的变量或其子变量之一收到证据时,才会传输证据:如果未知,那么基因表达水平的证据x个无助于推断的表达式级别z(z)x个z(z)独立;然而,如果已知,则x个有助于推断z(z)重要的是,在网络的v型结构中对的依赖项进行编码在两者上x个z(z)注意,在这种情况下第页(x、 z | y(z | y))≠p(x | y(x | y))第页(z | y(z | y)).

对于汇聚连接,也值得注意的是,当众所周知x个,那么这个证据有助于推断z(z)、和x个z(z)不再是自变量:

方程式图像

因此,模型的结构捕获/编码变量之间的依赖关系,并导致不同的因果关系的模型。

示例:用于交互站点预测的朴素贝叶斯分类器。

作为一个简单的例子,考虑从表面贴片的保守性和疏水性的测量来预测蛋白质表面上的相互作用位点。这提供了三个变量:我,补丁是否为交互站点;C、,斑块保护得分;H、,贴片的疏水性。是一个离散类变量。两者都有C类H(H)是连续变量(尽管可以量化以形成离散数据)。守恒性和疏水性都是相互作用位点的良好预测因子,这些独立预测的信息可以组合在一个朴素的贝叶斯分类器中,以提高性能。朴素贝叶斯分类器的模型结构有一个类节点(从其他观测变量推断出的节点)作为所有其他自变量的父节点,如所示图7这样的模型结构非常适合集成信息,并且可以保持较小的模型尺寸。[对于一组n个二进制变量,一个完全连接的DAG有2个n个−1个自由参数,一个反向朴素贝叶斯分类器(类节点依赖于所有其他变量)有2个n个 −1+n+1个自由参数,而朴素的贝叶斯分类器只有2个n个+1个自由参数!对于一个有100个二进制变量的模型,这超过了290小倍!]。在本入门的下一节中,将说明这个简单示例的参数学习。这个例子的灵感来自[4]其中,在分类方案中使用朴素的贝叶斯分类器,使用多个预测变量预测蛋白质-蛋白质相互作用位点。

参数学习

学习网络参数的最简单方法是找到参数集,使观测数据来自模型的可能性最大化。

可能性。

本质上,BN用于建模概率分布X(X).一组模型参数θ可以通过最大化数据来源可能性的方式从数据中学习X(X).给定一组观察到的训练数据,D类= {x个 1, … ,x个 N个}包括N个例如,考虑模型的可能性是有用的,L(左)(θ) ,作为在给定模型的情况下看到数据的可能性:

方程式图像

这里应该注意到x个 培训示例和D类根据模型θ生成的是给定模型的每个示例的概率的乘积。

最大可能性。

旨在最大化的学习模式L(左)(θ) 被称为最大似然(ML)。这近似于一个新示例的概率x个根据训练数据D类作为第页(x个 |D类) ≈第页(x个毫升)其中θ毫升是旨在使ln最大化的最大(对数)似然模型第页(D类|θ) 即θ毫升=arg最大值θ自然对数第页(D类|θ). 这相当于最大限度地提高了“给定数据模型”的可能性。ML没有任何先验假设。使用负对数似然相当于最小化误差函数。

最大后部。

为了考虑事先分配最大后验概率可以使用(MAP)模型。这近似于一个新示例的概率x个根据训练数据D类作为第页( x个 |D)第页(x个地图)其中θ地图是旨在最大化ln的MAP概率(“模型给定数据”的可能性)第页(θ|D类)即θ地图=arg最大值θ自然对数第页(θ|D类).这考虑了先验,因为通过贝叶斯定理:第页(θ|D类)=p(D类|θ)第页(θ)/第页(D类).

通常,ML和MAP估计对于手头的应用程序来说足够好,并且可以生成良好的预测模型。本节末尾的数值示例说明了不同强度先验和训练集大小的ML和MAP估计的效果。ML和MAP都生成θ的点估计。点估计是参数的单一快照(尽管可以计算其值的置信区间)。

边际可能性。

对于完全贝叶斯模型,参数值的不确定性被建模为参数的概率分布。这些参数被视为潜在变量,其关键思想是将这些未知参数边缘化,而不是进行点估计。这就是所谓的边际似然。计算全后验分布或模型平均值,可以避免严重的过拟合,并允许直接进行模型比较。在[8]Eddy用一个简单的例子介绍了贝叶斯统计,并集成了所有可能的参数值,说明了处理不确定性的更严格方法。将贝叶斯学习表述为一个推理问题D类可以被视为N个分布的独立观测X(X).图6显示了图形模型,其中着色节点x个表示观察到的独立训练数据x个要推断缺失值的不完整示例观测,所有这些都依赖于模型θ。

保存图片、插图等的外部文件。对象名称为pcbi.0030129.g006.jpg
贝叶斯推理图解模型

训练数据、模型和新观测值的联合概率x个是:

方程式图像

哪里第页(θ) 是优先的。应用总和规则[第页()=∑p(a、 b条)数据库]:

方程式图像

应用产品规则[第页(a、 b条)=p(a | b)第页(b条)]到左手边,用(4)代替右手边的联合概率,然后将两边除以第页(D类),给出了x个:

方程式图像

这是计算完全贝叶斯后验。为此,需要指定模型参数的先验分布p(θ)。可以使用多种类型的先验信息,关于先验信息的选择存在很多争议[9]. 通常,计算全后验值是很困难的,必须使用近似方法,例如点估计或采样技术。边际似然通过对所有可能值进行平均,充分考虑了不确定性。

从不完整的数据中学习。

即使在训练数据集不完整的情况下,也可以学习BN的参数,即在某些情况下,某些变量的值是未知的。通常使用期望-最大化(EM)算法,该算法通过计算期望值和使用这些期望值更新参数来估计缺失值,就像它们是观测值一样。

EM用于查找MAP或ML配置的局部最大值。EM从特定参数配置开始保存图片、插图等的外部文件。对象名称为pcbi.0030129.ex001.jpg(可能是随机的),并迭代地应用期望和最大化步骤,直到收敛。

E级。缺失数据的预期值被推断为D类C类-给定当前模型参数配置的最可能完整的数据集。

M阶跃。的配置保存图片、插图等的外部文件。对象名称为pcbi.0030129.ex002.jpg最大化第页(保存图片、插图等的外部文件。对象名称为pcbi.0030129.ex003.jpg |D类C类)找到(对于MAP)。

使用EM来找到模型参数的点估计值,可以有效地进行计算,并且在从不完整数据学习时,或者对于具有隐藏节点的网络结构(那些没有观测数据的网络结构),可以获得良好的结果。当样本量较大时,先验p(θ)的影响变小,为了简化计算,通常使用ML代替MAP。更复杂(且计算成本较高)的采样方法,如下文所述,也可应用于不完整数据。这些方法的一个优点是避免了EM陷入局部最优的可能缺点。

在已知网络的基因调控网络中可能存在隐藏节点的情况,但实验并未提供网络中所有基因的表达水平-模型参数仍可以学习。处理不完整数据的能力很重要,尤其是考虑到表达数据可能来自不同的实验室,每个实验室都查看基因调控网络的不同部分,其中一些基因重叠,而其他基因缺失。在这种情况下,可以使用所有收集的数据。

取样方法。

已经使用了许多抽样方法来估计模型参数的(完全)后验分布第页(θ|D类). 蒙特卡罗方法,例如吉布斯采样,它们非常精确,但计算成本很高,通常需要很长时间才能收敛,并且随着样本量的增加变得很难处理。高斯近似对于相对较大的样本通常是准确的,并且比蒙特卡罗方法更有效。它基于以下事实:第页(θ|D类)它与第页(D类|θ)×p(θ) 通常可以近似为高斯分布。随着训练数据的增加,高斯峰变得更尖锐,并趋于MAP配置θ地图.

参数学习数值示例。

在这个数值例子中,我们举例说明了文本中描述的用于学习贝叶斯网络参数的方法,使用天真贝叶斯分类器的简单例子,使用关于保守性(C)和疏水性(H)的信息来预测蛋白质相互作用位点(I)。每个变量有两个可能的值:I=是/否;H=高/低,C=高/低。定义网络的条件概率表如所示图7,学习问题是确定相关概率的值第页 1–5.

为了说明不同的方法,我们将重点介绍参数第页 2,考虑到这是一个蛋白质相互作用位点(I=是),守恒的概率很高(C=高)。的价值第页 2根据计数数据进行估算;在这种情况下,我们假设N个交互站点,n个具有高保护性和N−N(牛顿)具有低保守性。

图8描述了许多可能的场景。图8A–8D图,红色虚线表示可能性,p(数据|模型)在这种情况下,它是从二项式分布导出的,表示观察的概率n个高保护区N个试验,作为二项式参数的函数第页 2其他图形曲线优先第页(模型)(绿色虚线曲线),给出第页 2和后部第页(模型|数据)(实心蓝色曲线)。在这里,我们使用了beta分布作为之前的版本。这是区间[0,1]上非常灵活的分布;它有两个参数B类(n、 米),使用B类(1,1)表示均匀分布和其他形状,这些形状具有较大和不同的n个在这种情况下,贝塔分布的一个优点是,当作为二项式的先验值使用时,它产生的后验值也是贝塔分布(但具有不同的参数)。β分布是二项式的共轭先验。事实上n个贝塔分布的参数可以视为伪计数,将其添加到观测计数中以反映先验知识。

保存图片、插图等的外部文件。对象名称为pcbi.0030129.g008.jpg
不同力量训练前和训练集大小的效果

(A) 在这种情况下,观测到的数据是十个相互作用位点,其中五个具有高保守性,五个具有低保守性。正如预期的那样,在这种情况下第页 2= 0.5. 之前的是B类(7,3),表明先前知道在相互作用位点中发现高度保守;它对应于将七个伪计数添加到C=高类别,三个伪计数增加到C=低类别,并产生一个先验峰值第页 2= 0.5. 图中还显示了后部,以及MAP估计值第页 2在观察到的计数较低的情况下,先验信息的影响是显而易见的。

(B) 从100个培训示例中学习(75个高,25个低)。这里是弱者B类(7,3)先验对后验分布的影响很小,并且对于较大的训练集,ML和MAP估计值相似(第页 2∼ 0.75). 后验分布第页 2范围较窄——鉴于证据(培训示例),其价值的一些不确定性已被消除。

(C) 使用更强的先验B类(70,30)仍然表明第页 2为0.7;然而,请注意,先验值范围较窄,需要大量证据才能确信第页 2比如,小于0.6。小样本比大样本更容易受到噪声的影响。对于具有五个高分数和五个低分数的训练集,ML估计(第页 2=0.5)与MAP估计值(约0.7)大不相同,后者考虑了先验因素。希望这能说明为什么先验是有用的,但也要注意不要选择错误的先验(或先验太强/太弱)!

(D) 最后一个示例有一个B类(70,30)之前,显示了根据训练数据得出的ML和MAP估计值,保守性得分高75分,低25分。这里的例子是一个好的先验值和一个更大的训练集的组合,其值的不确定性最小第页 2.

计算边际似然的贝叶斯方法不涉及参数的点估计;相反,为了充分考虑数据中的不确定性,对后验分布进行了平均。

结构学习

特别是在生物学领域,网络结构的推断是最有趣的方面;例如,从数据中解释监管和信令网络。这涉及到识别测量变量之间的实际相关性;将它们与简单的相关性区分开来。模型结构的学习,特别是因果模型的学习是困难的,通常需要仔细的实验设计,但可以导致学习未知关系和优秀的预测模型。

完全贝叶斯后验。

到目前为止,只考虑了已知结构BN参数的学习。有时,网络结构可能未知,这也可能是从数据中得知的。描述结构假设的边际似然的方程S公司小时以及模型参数是方程式7; 预测分布为:

方程式图像

然而,在参数空间和模型结构空间上计算完全后验分布对于所有实际应用(变量多于少数的应用)来说都是困难的。

取样方法。

即使对于数量相对较少的变量,也存在大量可能的网络结构,并且很难计算出完整的后验概率分布。有几种方法可以解决这个问题,包括马尔可夫链蒙特卡罗(MCMC)方法(例如Metropolis–Hastings算法),这些方法用于从后验分布中获得一组“良好”样本网络第页(S公司小时,θS公司|D类),其中S公司小时是一种可能的模型结构。这在生物信息学领域尤其有用,其中数据D类可能是稀疏的和后验分布第页(S公司小时,θS公司|D类)因此,与选择单个模型结构相比,在一组模型结构上用平均值表示要好得多。

变分法。

MCMC的一个更快的替代方案是使用变分法对于某些类型的模型。通过用更简单的参数后验分布(难以抽样)近似参数的后验分布,可以找到边际似然的下限,然后将其用于模型选择。

结构学习算法。

结构学习算法的两个关键组件是搜索“良好”结构和划线这些结构。由于模型结构的数量很大(超指数),需要一种搜索方法来决定要对哪些结构进行评分。即使节点很少,也有太多可能的网络,无法对每个节点进行详尽的评分。高效的结构学习算法设计是一个活跃的研究领域。A类贪婪搜索可以从初始网络(可能没有(或完全)连接)开始,反复添加、删除或反转边,测量每个阶段生成网络的精度,直到找到局部最大值。或者,模拟退火等方法应将搜索引导到全局最大值。

有两种常用的方法来决定“好”的结构。第一是测试数据是否满足网络结构隐含的条件独立性断言。第二种方法是评估结果结构对数据的解释程度(如学习网络参数所述)。这是使用记分函数理想情况下,计算模型结构的参数的完全后验分布(边际似然);然而,近似值,例如拉普拉斯近似贝叶斯信息准则通常使用(BIC)评分函数,因为它们效率更高(虽然是近似的,因此精确度更低)。BIC分数接近ln第页(D|S公司小时)作为保存图片、插图等的外部文件。对象名称为pcbi.0030129.ex004.jpg,其中保存图片、插图等的外部文件。对象名称为pcbi.0030129.ex005.jpg是对结构模型参数的估计,d日是模型参数的数量,以及N个是数据集的大小。对于大型N个,学习的模型通常具有θ等参数毫升BIC得分衡量了模型与数据的拟合程度,并有一个惩罚条款来惩罚模型的复杂性。这是一个示例奥卡姆剃刀行动中;喜欢最简单、同样好的模型。ML在这里没有用作得分函数,因为如果没有惩罚函数,它将生成一个完全连接的网络,这意味着没有简化因子。

在基因调控网络的情况下,这些结构学习算法可用于识别最可能的结构,从而为从数据中学习的基因调控网络提供影响图。Imoto等人[10]从微阵列基因表达数据中导出基于BN的基因网络,并使用蛋白质-蛋白质相互作用数据、结合位点信息和现有文献等生物学知识,有效限制被认为是最具生物学相关性的结构的数量。首先使用边际似然测量每个模型对微阵列数据的适应度,然后以结构的先验概率的形式输入生物知识。然后,提出的基因网络的后验概率就是参数的边际似然和结构的先验概率的乘积。

因果关系。

真正有趣的问题往往涉及因果关系的学习[11]例如蛋白质信号网络[2]和基因调控相互作用。为了发现潜在的因果模型,需要的不仅仅是结构学习,因为可用数据可能不足以区分暗示相同条件独立性(马尔可夫等价性)且得分相同的不同网络结构。确定因果关系方向性的一种方法是使用干预数据,其中一个变量的值保持不变。考虑受干预的两个相关变量X和Y(这可能是两个基因的表达水平,干预是基因敲除)。如果抑制X会导致观察到的Y值范围有限,而抑制Y会导致X值范围完整,那么可以确定X会影响Y,但Y不会影响X。这意味着存在因果关系X年。

Sachs等人[2]根据流式细胞术数据建立蛋白质信号网络模型。在存在刺激线索和抑制干预(扰动)的情况下,同时观察数千个细胞中的多个信号分子,并进行仔细的实验设计,以确定因果网络,这可能有助于理解复杂的药物作用和疾病细胞中的功能失调信号。

动态贝叶斯网络。

许多生物系统的一个基本特征是反馈。BN非常适合建模时间序列和反馈回路。当BN用于建模时间序列和反馈回路时,变量按时间索引并在BN中复制,这种网络称为动态贝叶斯网络(DBN)[12]并作为特殊情况包括隐马尔可夫模型(HMM)和线性动力系统。创建实验时间序列测量对于建模生物网络特别重要。

例如,如果在前面的基因调控网络示例中,基因G5调控G1,则会形成反馈回路(循环图)。为了进行有效的推理,BN需要DAG根据条件概率的乘积定义联合概率。如前所述,对于具有循环的概率图形模型,必须使用循环信念传播等迭代方法,或者必须将循环图转换为DAG。假设一个(一阶)马尔可夫过程控制基因调控,网络可以及时展开,以创建DBN。通常,DBN包含两个时间片,每个时间片中都有每个变量的实例(t吨t吨+Δt吨). 每次从节点添加定向边t吨它们影响的节点t吨+Δt吨.HMM是DBN的一种特殊情况,其中有一组隐藏的节点(通常是离散状态)、一组观测变量,切片不需要是时间;HMM通常用于序列分析和t吨是从一个基地到下一个基地的过渡。DBN已用于从微阵列数据推断基因调控相互作用。细胞周期中几十个时间点的数据是训练DBN的极少量数据。Husmeier最近在微阵列实验的模拟数据上使用MCMC,以获得不同训练集大小、先验和采样策略的网络推理性能[13]. 变异贝叶斯方法已被用于从基因表达时间序列数据中近似带有隐藏因子的基因调控网络模型选择的边际似然。隐藏因素捕获了无法直接测量的影响,例如微阵列中缺失的基因、存在的调节蛋白水平以及mRNA的影响等[14].

结论

计算生物学中的许多应用都利用了BNs,或者更普遍的概率图形模型。这些包括:蛋白质建模、系统生物学;基因表达分析、生物数据集成;蛋白质相互作用和功能注释;DNA序列分析;遗传和系统发育连锁分析。然而,生物领域中BNs最有趣的应用可能是网络和通路的建模。这些分析结合了BN的所有特征:从不完整的噪声数据中学习的能力,结合专家知识和数据以得出合适的网络结构的能力,以及表达因果关系的能力。最近DBN的应用允许对更复杂的关系进行建模;例如,包含反馈的系统。此外,将改进的实验设计与新的数据采集技术结合起来,有望成为一种强有力的方法,可以阐明复杂交互的因果关系。

附加读数

赫克曼写了一篇关于学习BNs的优秀数学教程[9],其符号已在此处采用。这是建议参考的文本,用于统计详细信息和对本入门中介绍的概念的讨论。墨菲的介绍[15]以及软件Bayes Net Toolkit for Matlab,BNT的指南[16],概述了学习算法。Tipping的教程[17]包含边际可能性的良好图解,以及Ghahramani的教程[18]包含介绍结构学习和近似方法的清晰概述。胡斯迈尔的生物信息学文本[13]也是一种优秀的资源。

缩写

BN编号贝叶斯网络
银行识别码贝叶斯信息准则
持续专业发展条件概率分布
DAG公司有向无圈图
数据库编号动态贝叶斯网络
相对长度单位期望-最大化
隐马尔可夫模型隐马尔可夫模型
日元联合概率分布
MAP;最大后验概率
MCMC公司马尔科夫蒙特卡洛
毫升最大似然

脚注

Chris J.Needham和Andrew J.Bulpitt就职于英国利兹大学计算学院。James R.Bradford和David R.Westhead在英国利兹大学分子和细胞生物学研究所工作。

相互竞争的利益。提交人声明,不存在相互竞争的利益。

作者贡献。CJN是本教程的主要作者。JRB和DRW已经就生物示例提供了建议。AJB和DRW在这一主题上贡献了他们的教学知识。所有作者都对材料的选择和呈现提出了建议。

基金。作者想感谢生物技术和生物科学研究委员会对BBSB16585拨款的资助,在这期间撰写了本文。

参考文献

  • Friedman N.使用概率图形模型推断蜂窝网络。科学。2004;303:799–805.[公共医学][谷歌学者]
  • Sachs K、Perez O、Peer D、Lauffenburger DA、Nolan GP。从多参数单细胞数据导出的因果蛋白信号网络。科学。2005;308:523–529。[公共医学][谷歌学者]
  • Troyanskaya OG、Dolinski K、Owen AB、Altman RB、Botstein D。用于组合异质数据源进行基因功能预测的贝叶斯框架(in酿酒酵母)美国国家科学院院刊。2003年;100:8348–8353. [PMC免费文章][公共医学][谷歌学者]
  • Bradford JR、Needham CJ、Bulpitt AJ、Westhead DR。使用贝叶斯网络预测方法深入了解蛋白质-蛋白质界面。分子生物学杂志。2006;362:365–386.[公共医学][谷歌学者]
  • Beaumont MA,Rannala B.遗传学中的贝叶斯革命。Nat Rev基因。2004;5:251–261.[公共医学][谷歌学者]
  • Duda RO、Hart PE、Stork DG。模式分类。纽约:Wiley-Interscience;二千点六五四[谷歌学者]
  • 主教CM。模式识别和机器学习。纽约:Springer;二千零六点七三八[谷歌学者]
  • Eddy SR.什么是贝叶斯统计?国家生物技术。2004;22:1177–1178.[公共医学][谷歌学者]
  • Heckerman D.贝叶斯网络学习教程。收录:Jordan MI,编辑。学习图形模型。多德雷赫特:克鲁沃学院;1998年,第301-354页。[谷歌学者]
  • Imoto S、Higuchi T、Goto H、Tashiro K、Kuhara S等。结合微阵列和生物知识,通过贝叶斯网络估计基因网络。IEEE计算系统生物信息学(CSB’03)2003年;2:104–113.[公共医学][谷歌学者]
  • 珍珠J。因果关系:模型、推理和推理。剑桥(英国):剑桥大学出版社;2000[谷歌学者]
  • Murphy KP、Mian S。使用动态贝叶斯网络对基因表达数据进行建模。伯克利:加利福尼亚大学计算机科学系;1999.技术报告,[谷歌学者]
  • Husmeier D、Dybowski R、Roberts S,编辑。生物信息学和医学信息学中的概率建模。纽约:Springer;二千零五点五零四[谷歌学者]
  • Beal MJ、Falciani F、Ghahramani Z、Rangel C、Wild DL。用贝叶斯方法重建含有隐藏因子的基因调控网络。生物信息学。2005;21:349–356.[公共医学][谷歌学者]
  • 墨菲KP。图形模型和贝叶斯网络简介。可用:网址:http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html。2007年6月7日查阅。
  • Murphy KP。Matlab的Bayes Net工具箱。计算科学统计。2001;33:331–350. [谷歌学者]
  • 贝叶斯推理:介绍机器学习的原理和实践。Bousquet O,von Luxburg U,Rätsch G,编辑。机器学习2003,LNAI。2004;3176:41–62。在:[谷歌学者]
  • Ghahramani Z.非监督学习。Bousquet O,von Luxburg U,Rätsch G,编辑。机器学习2003,LNAI。2004;3176:72–112.在:[谷歌学者]

文章来自PLOS计算生物学由以下人员提供多环芳烃