摘要

小结:贝叶斯网络(BNs)是一种多用途的概率模型,适用于许多不同的生物现象。在生物应用中,网络的结构通常是未知的,需要从实验数据中推断出来。BNFinder是一个快速的软件实现精确算法,用于在给定大量实验观测的情况下寻找网络的最佳结构。本文介绍的第二个版本是对前一个版本的重大改进。这些改进包括:(1)一种并行学习算法,使得BN结构的学习时间提高了一个数量级;二在相互信息标准的基础上增加一个评分功能;(iii)基于统计标准选择产生的网络特异性的可能性;(iv)BNs分类的新模块,包括交叉验证方案和带有接收器-操作员特征分数的分类器质量测量。

可用性和实施:BNFinder2是用python实现的,并且可以在项目网站的GNU通用公共许可证下免费获得https://launchpad.net/bfinder,以及用户手册、入门教程和补充方法。

联系人:dojer@mimuw.edu.plbartek@mimuw.edu.pl

补充信息:补充资料可在生物信息学在线。

贝叶斯网络(BNs)是一种适用于多种不同现象的稳健、通用的概率模型(李约瑟等等。2007年)在生物学中,应用范围从基因调控网络(多杰尔等等。2006年)与蛋白质的相互作用(詹森等等。2003年)基因表达预测(啤酒和塔瓦佐伊,2004年)染色质相关蛋白之间的关系(范斯特恩塞尔等等。2010年)染色质状态预测(波恩等等。2012年)在许多情况下,人们需要推断网络的结构来建立BN模型。而这个问题一般是NP难问题(奇克林,1995年),由多杰尔(2006)在保证网络无环性的情况下,可以在多项式时间内找到最优网络。

B查找器(威尔钦斯基和多杰尔,2009年)是一个灵活的网络拓扑学习工具。最初开发用于从表达数据推断基因调控网络(多杰尔等等。2006年)它已经成功地应用于连接表达数据和序列基序信息(达布罗夫斯基等等。2010年),识别与增强子活性相关的组蛋白修饰(波恩等等。2012年)预测组织特异基因的基因表达谱(维尔钦斯基等等。2012年)上一个研究也是一个例子,它不是将BNFinder作为一个独立的工具,而是作为一个软件库来使用。由于源代码和文档API的可用性,可以使用BNs作为更大概率模型的一部分,使用期望最大化来优化参数。

bFinder也可以用于分类任务(图1)在这种情况下,网络拓扑被限制为特征变量和类变量之间的二分图。该结构表示类对所选功能的条件依赖关系。该分类器模型相当于诊断的十亿s介绍人康特卡南等等。(2001年). 分类过程包括几个步骤,使用专用的BNFinder2模块执行。首先,用basic语言学习网络的最优结构和条件概率函数(cpd),训练分类器bnf公司工具。其次是bnc公司模块使用学习的网络和CPD对新的示例进行预测。

此外bnf变异系数该工具通过自动将输入数据集划分为训练集和测试集,方便了在交叉验证框架中使用BNFinder2。性能可以通过数值方法(如特异性或灵敏度)来测量,也可以通过生成接收器操作员特征(ROC)或精确召回图[使用Rocr软件包]来测量(等等。2005年)或纯python实现,示例图如所示图1补充图S1]所有这些工具,再加上其他BNFinder2功能,如处理混合(连续和离散)数据集,使其成为一个完整的软件包,可以轻松地为广泛的生物数据集生成分类器,如组蛋白修饰测量的应用程序所示(波恩等等。2012年).

图1。

具有三个特征(a,B,C)和两个类变量(X,Y)的分类问题的一个例子。真正的依赖关系结构被描述为一个图(左上角)。类变量不能从任何一个特性中预测,而是从不同的特性对中预测。从特征A和B可以对X进行分类,而Y的分类需要特征A和C(散点图、右上角、绿色和蓝色圆点分别代表X和Y变量的正示例)。连续特征变量具有不同的噪声/信号比(右上角的灰色直方图),但所有这些都由拟合的高斯模型(橙色和红色线)精确地描述。变量X分类的典型ROC曲线(左下)

图1。

具有三个特征(a,B,C)和两个类变量(X,Y)的分类问题的一个例子。真正的依赖关系结构被描述为一个图(左上角)。类变量不能从任何一个特性中预测,而是从不同的特性对中预测。从特征A和B可以对X进行分类,而Y的分类需要特征A和C(散点图、右上角、绿色和蓝色圆点分别代表X和Y变量的正示例)。连续特征变量具有不同的噪声/信号比(右上角的灰色直方图),但所有这些都由拟合的高斯模型(橙色和红色线)精确地描述。变量X分类的典型ROC曲线(左下)

尽管bfinder总是根据给定的分数找到最佳网络,但是学习网络的可靠性可能会因输入数据的不同而有所不同。因此,BNFinder将一些统计信息附加到返回的网络特性上。这包括每个父集合和每个变量的相对后验概率,以及每个边的(次)最优调节器集中出现的加权频率。

BNFinder2配备了额外的质量控制机制,允许用户预先确定最佳网络的特异性。也就是说,可以指定由一条边错误连接的不相关变量对的期望比例。根据这个比例和评分函数的分布,调整网络结构的先验分布,使网络具有用户指定的错误率(补充方法和教程)。

在最初的bfinder方法发表后,证明了由多杰尔(2006)也可应用于互信息测验(MIT),另一种基于互信息的BN评分函数(维恩等等。2011年)结果表明,MIT评分比最小描述长度(MDL)评分更准确,但比Bayesian-Dirichlet等价性(BDe)评分耗时更少。由于这种在准确性和速度之间的折衷是可取的,我们决定采用bfinder来包括麻省理工学院的分数。这使得用户不仅可以在动态BNs的情况下找到MIT分数最优的网络,如维恩等等。(2011年)也适用于拓扑受约束的静态BNs。我们当前的实现允许用户从所有三个评分函数中自由选择:MDL、BDe和MIT用于静态和动态BNs。此外,我们提供了连续变量的广义MIT评分(补充方法和教程)。

虽然BNFinder使用了一种高效的BN结构学习算法,但是由于Python解释器的限制,最初的实现仅限于在单个CPU上运行。从那时起,多核cpu已经成为主流,并且在Python语言中引入了多处理支持。BNFinder2利用这些发展来促进使用多个CPU核来实现更快的计算。由于bfinder中使用的学习方法对每个变量独立地执行父集优化,因此可以有效地并行化。补充图S2显示了使用BNFinder2可以实现与不同硬件平台上可用内核数量几乎成线性关系的加速。

综上所述,BNFinder2在几个方面都比原方法有了显著的改进。从用户的角度来看,它允许在分类设置中使用BNFinder2,具有自动交叉验证、准确性评分和ROC绘图。在方法上,它还提供了一种更全面的方法来推断具有预定错误率的网络,并介绍了在MIT分数下计算最优网络的可能性,该方法适用于处理连续变量和离散变量。最后,BNFinder2可以在多个机器上使用并行化来大大提高BN学习的运行时间,特别是在BDe分数的情况下。

基金波兰高等科学与发展部资助的波兰高等科学与发展基金会。

利益冲突:未声明。

工具书类

啤酒
妈妈
塔瓦佐伊
S
从序列预测基因表达
细胞
2004
,卷
117
(第
185
-
198
)
波恩
S
,等
染色质状态的组织特异性分析确定了胚胎发育过程中增强子活性的时间特征
纳特。吉奈特。
2012
,卷
44
(第
148
-
156
)
胆小鬼
D
贝叶斯网络的学习是NP完全的
人工智能与统计学报
1995
,卷
第1995卷
 
佛罗里达州
劳德代尔堡
达布罗夫斯基
,等
脑卒中和癫痫发作后顺式调节的保守特征系统子空间比较分析
BMC系统。生物。
2010
,卷
4
第页
86
 
多杰尔
N
学习贝叶斯网络并不一定是NP难的
LNCS公司
2006
,卷
4162
(第
305
-
314
)
多杰尔
N
,等
动态贝叶斯网络在基因表达数据扰动中的应用
BMC生物信息学
2006
,卷
7
第页
249
 
詹森
R
,等
从基因组数据预测蛋白质相互作用的贝叶斯网络方法
科学类
2003
,卷
302
(第
449
-
453
)
康特卡南
P
,等
基于监督边际似然的分类器学习
第十七届人工智能不确定性会议论文集
2001
西雅图,华盛顿
摩根考夫曼出版公司
(第
277
-
284
)
李约瑟
C
,等
计算生物学贝叶斯网络学习入门
公共科学图书馆计算机。生物。
2007
,卷
第页
e129号
 
T
,等
Rocr:r中分类器性能的可视化
生物信息学
2005
,卷
21
(第
3940
-
3941
)
范斯特恩塞尔
B
,等
染色质靶向相互作用的贝叶斯网络分析
基因组研究。
2010
,卷
20
(第
190
-
200
)
维恩
N
,等
GlobalMIT:用互信息检验准则学习全局最优动态贝叶斯网络
生物信息学
2011
,卷
27
(第
2765
-
2766
)
威尔钦斯基
B
多杰尔
N
贝叶斯网络精确学习方法
生物信息学
2009
,卷
25
第页
286
 
维尔钦斯基
B
,等
利用转录因子占有率和染色质状态的综合模型预测基因的时空表达
公共科学图书馆计算机。生物。
2012
,卷
8
第页
e1002798号
 

作者笔记

副主编:乔纳森·雷恩

这是一篇开放获取的文章,根据Creative Commons Attribution Non-Commercial License的条款分发(http://creativecommons.org/licenses/by nc/3.0/),允许在任何媒介中进行非商业性的再利用、分发和复制,前提是原著被正确引用。如需商业再利用,请联系杂志社。权限@oup.com

补充资料