跳到主要内容

从基因表达数据推断稀疏组合控制网络:一种消息传递方法

摘要

背景

转录基因调控是控制许多基本细胞过程的最重要机制之一,包括细胞发育、细胞周期控制和细胞对环境条件变化的反应。基因由转录因子和其他基因/蛋白质通过复杂的互联网络进行调控。这种调控联系可以使用微阵列表达数据进行预测,但大多数调控模型都假设转录因子独立性,当许多基因的表达水平高度相关时,这会导致虚假链接。

结果

我们提出了一种从基因表达数据推断组合控制网络的新算法。基于一个简单的组合基因调控模型,它包括一种消息传递方法,避免了在假定的基因调控网络上进行显式采样。该算法可以恢复面包酵母的简单人工细胞周期网络模型的结构。然后将其应用于大规模酵母基因表达数据集,以确定组合调控,并应用于具有直接医学意义的数据集,即多向耐药性(PDR)网络。

结论

最近的实验结果表明,我们设计的算法能够恢复有生物学意义的交互作用[1]. 此外,还预测了新的组合控制案例,显示了考虑到这一现象的简单模型如何能够导致信息预测,并允许从微阵列数据库中提取更多假定的调控相互作用。

背景

转录基因调控是活细胞的关键机制之一;基因表达的控制在细胞发育、细胞周期调节和对外界刺激的反应等过程中至关重要[25]. 随着测序基因组的数量快速增长,在更高水平上研究遗传信息变得越来越重要,.了解基因之间的相互依赖关系,并通过基因调节网络(GRN)的重建捕捉调节基因(例如转录因子(TF)或信号蛋白)与调节基因之间的关系。

了解基因调控的直接实验方法既费钱又费时。因此,基因组规模的调控网络仅为人们所知大肠杆菌[6]对于面包酵母,酿酒酵母[7,8]. 对于高等生物,知识仅限于深入研究的小功能模块,参见例如[9,10]. 这些GRN的一些特征是:

  • 方向性:调控是由调控者导向调控基因。

  • 稀疏度:每个基因都由有限数量的其他基因控制,与生物体的总基因含量(以及TF的总数)相比,这些基因的数量很小。

  • 组合控制基因的表达可能取决于各种调节蛋白的联合活性。

最后一项至关重要,它是非常活跃和多样化研究的主题[1115]. 酵母中组合控制的一个例子是转录因子Yrr1和Yrm1,它们竞争同一启动子序列的占有[16]. 存在许多其他类型的联合控制,例如TF形成异或同二聚体,或其他蛋白质对其进行翻译后修饰,这些都可以完全改变其靶点[17]. 另一方面,稀疏性假设已在研究充分的生物体中进行了实验验证,在那里观察到TF的数量与基因总数相比较低。

人们不禁要问,GRN能从基因表达数据中重建多远。在第一代基因表达微阵列问世后,十多年前[18],我们面临着越来越多的新的高通量技术,这些技术能够同时监测数千种细胞成分的浓度,特别是信使核糖核酸的浓度。新一代微阵列质量的提高、成本的降低以及迄今为止积累的实验数量要求开发大规模的数据分析方法。提出了不同的建模方法(参见[19]来自共同调控基因的粗粒度描述[20],分类方法[21,22]到布尔描述,其中基因是用逻辑开关来描述的,只有开/关活动状态[23](尤其是[24]对于布尔网络的推理问题),或考虑描述动力学细节的更现实的微分方程系统[25]. 对于GRN重建,也提出了不同来源的方法:系统控制理论[2629],贝叶斯推断[3033]、信息论[3436].

现有算法的许多局限性直接源于数据的数量和质量:

微阵列是细胞群的噪声平均值,可用阵列的数量通常远小于每个阵列中测量的探针数量。此外,微阵列测量的是mRNA,而不是活性蛋白浓度(对于TF来说,这是重要的参数)。这两者在细胞中可能不相关[37]. 但由于蛋白质组学数据比微阵列数据更稀疏,这不是一个容易解决的问题,许多建模方法仅使用mRNA浓度。另一个问题是基因调控中存在组合控制:预测这种情况是一个NP完全问题,因此由于计算复杂性,许多方法都无法实现,尽管在[33].

在本文中,我们介绍了一种基于消息传递技术的新算法策略,以仅基于全基因组表达数据推断生物体的调控网络,特别关注组合控制。我们的方法是概率和分布式的,允许快速探索网络空间。我们将该算法应用于三个酵母网络:(i)为了测试算法的效率,我们首先重构一个电子版基于人工生成数据的细胞周期调控网络[38]. (ii)我们建议使用经典的Gasch微阵列数据集大规模重建酵母调控网络[4],并分析组合控制的证据。(iii)我们使用SMD数据库中的酵母表达数据[39]恢复影响多效性耐药(PDR)相关基因的调控。由于越来越多的医院感染念珠菌酵母菌[40]它们能够通过将药物输出细胞来抵抗药物。这些抗性机制受PDR网络的基因调控,我们的目标是重建PDR网络。方法部分中给出了算法的详细描述。C语言的一个实现可以下载在[41].

结果和讨论

重建电子版酵母细胞循环网络

在讨论生物数据之前,我们在Tang的网络模型上测试了我们的方法等。[38]用于细胞周期调节酿酒酵母细胞周期由细胞周期蛋白/CDK复合物调节,这些复合物依次相互激活和抑制,形成细胞时钟的周期性。最近发现了独立于细胞周期蛋白激活的转录激活序列波[42,43],但模型中未考虑这些因素。无论如何,它是我们分析性能分析的理想起点,因为数据生成网络是明确已知的,可以与我们推断的监管交互进行比较。

在模型中[38],监管网络由N个=11个基因/蛋白质,由二元状态载体描述相互作用被编码为耦合矩阵包含个条目总的来说[38]包含15个激活和19个抑制链接。网络模型的定义由动态规则完成

(1)

具有

(2)

我们在这里的目的是根据不同的状态向量来推断这个网络模型的调节链接t吨.上述电子版动力学显示7个固定点,.动力学的稳态。每个固定点都可以通过吸引池的大小来表征,.根据其结束的初始随机初始条件的数量。Tang等。认为吸引盆最大的不动点可以用G公司细胞周期的1个阶段。如果有人扰乱静止G公司1状态通过将Cln3细胞周期蛋白翻转到其活动值,网络在再次达到之前经过13种不同的状态G公司1.的作者[38]认为这条轨迹有力地再现了酵母细胞周期的各个方面。

我们在两个不同的数据集上测试我们的算法:(i)首先将Cln3细胞周期蛋白翻转为活动值,并让系统进化到如前所述的平稳状态,从而获得13个状态,(ii)包含数据集配置的更大数据集(i)此外,在距离汉明距离1处进化所有构型获得的轨迹G公司1(70个不同的州)。在其他文件中1我们将这两个数据集与网络链接一起包括在内。

为了处理时间序列,公式(9)因为先验概率分布被转换为,表示目标基因0在时间上的条件概率t吨+1给出了当时其他基因的表达谱t吨。对于这两个数据集,我们修复了稀释字段小时到给出N的值效率根据等式,约为30(5). 对于原始数据集(i),我们固定σ D类 而对于较大的数据集(ii),置信传播(BP)的收敛性由σ保证 D类 = 0.3.

在图中1我们显示重新调用精度对于细胞周期和扰动细胞周期数据集,使用BP推断出的网络曲线(请参阅方法中关于观测值的段落,以获得精确定义和召回)。将结果与对链接进行排序的联合表达网络的性能进行比较j个根据Pearson相关性我们看到,在原始数据集上,BP能够在出现第一个错误之前正确推断出11个链接,而在两个正确预测的链接之后,皮尔逊相关性已经失败。这一结果表明,BP正确地考虑了组合控制效应,这是纯局部方法无法看到的(作为对相关性)。增加数据集可以提高BP算法的结果,较大的数据集可以在精度从1下降之前,得到16个正确预测的链路,并且精度始终高于从13状态轨迹获得的精度。值得注意的是,我们的算法推断出的第一个链接是在[44]对于通过对所有网络空间的完整枚举来再现细胞周期至关重要。

图1
图1

细胞周期推断的精确重算曲线.重新调用精度使用BP(细胞周期和扰动细胞周期数据集)和Pearson相关系数(仅细胞周期数据组)推断的网络曲线。在基于BP的推理的情况下,在产生第一个错误之前,我们分别正确推断了11个链接(cell-cycle)和16个链接(扰动cell-cyclike)。在基于相关性的推理的情况下,我们只在两个正确链接后出现第一个错误。

酵母对环境胁迫的反应

对于BP的第二个应用,在更大的范围内,我们使用Gasch的数据等。[4]由172个全基因组微阵列组成酿酒酵母在不同的环境条件下。我们过滤掉了所有差异表达很小(方差小于所测最小方差的三倍)或漏掉10个以上数据点的基因。因此,基因数量减少到2659个目标基因,约占整个基因组的一半。作为假定的调节器,我们考虑(i)被注释为转录因子或结构类似于已知转录因子的基因,以及(ii)参与信号传递的基因[45]:它们的总数总计为460个假定输入。

我们用σ=0.25运行我们的算法,这等于在整个数据集中发现的基因的最小方差。BP给出了概率结果,我们以95%以上的置信度保持了监管联系。

由于边际概率的分布遵循幂律分布(未显示数据),更改此阈值(例如,达到99%或90%)对最终网络几乎没有影响。该网络包含5779个监管链接,每个目标的平均链接数为2.17;连通性的分布最好地符合指数定律k个=总工程师γ=0.42时,该值与参考值非常接近[7]. 只有182个目标基因(7%)没有预测的调控因子。此外,1637个靶点(62%)由至少2个基因调控,在组合控制领域提供了丰富的潜在预测。有趣的是,每个目标2.17个链接的发现可以与Balaji的结果相抗衡等。[46]根据对芯片实验的回顾,报告了每个目标2.9个调节器的可比平均值。

组合控制

为了评估推断网络的相关性,我们首先将其与基于表达数据成对相关性的网络(共表达网络)进行比较,该网络构建为与BP网络具有相同数量的链接。选定的链接是所有输入-输出基因对之间皮尔逊相关性绝对值最高的链接。这显然是一个过于简化的模型,但它允许我们把握模型的重要特征。

我们算法的一个优点是通过多个转录因子明确推断组合控制机制。事实上,使用我们的方法推断出具有多个调节器的基因数量为1637个,而在成对相关网络的情况下,只有612个受管制的在我们的BP病例中,基因(即具有至少一个推断调控因子的基因)为2.33,必须与Balaji工作中的2.9进行比较等。[46]有趣的是,与共表达网络相比,BP结果更接近于实验网络。这一特征表明,对于绝大多数目标基因,我们的算法是如何通过结合几个假定的调控因子来描述基因的行为的。

研究组合控制的另一种方法是比较不同调节器的表达谱。具有高度相关表达谱的调节器携带与目标基因相似的信息,而具有不同表达谱的调控器可用于传递更多信息。这直接包含在我们的模型中:等式中引入的稀疏项。5减少表达谱高度相关的潜在调节物的影响。作为一个限制性的例子,让我们考虑两个具有相同表达谱的输入基因,调节一个目标基因。稀疏项将只随机选择其中一个,并将其标识为调节器。在更现实的情况下,没有两个基因显示完全相同的表达,只有最解释性的将从一组高度相关的潜在TF中选择该基因作为调节因子。

为了量化每个调节器携带的独立信息,我们计算了一个简单的测量值,即减去任何两个共同目标基因调节器之间的皮尔逊相关系数,见图2可以看出,使用我们的方法比简单的共同表达的信息含量要高得多,因为后者倾向于发现冗余信息,如图1所示针对靶基因YDR518W型这个具体的例子还表明,英国石油公司发现的二级调节器往往能够纠正第一调节器和目标基因之间的差异。

图2
图2

统计独立性概率分布统计独立性概率分布图(.1-|Pearson相关系数|)。红色曲线:共表达网络。蓝色曲线:BP网络。注意,BP推断的TF之间的统计独立性要高得多,表明组合控制中的信息含量更高。

图3
图3

组合控制的一个例子组合控制示例。顶部:BP发现的三个顶部输入,预测与实际输出相比较。左栏为训练,右栏为测试数据。底部:皮尔逊相关性最强的三个基因和相应的预测。过度(不足)表达用红色(蓝色)表示。

与实验TF结合数据的比较

为了进一步研究BP推断网络的重要性,我们将其与Balaji提出的实验验证网络进行了比较等。[46]以158个TF、4411个靶基因和12974个调控链为特征。在筛选出表达数据集中方差较低的基因后,分析的基因集由1919个靶基因和132个TF组成。实验验证的这些基因之间的联系数量因此减少到5533个。我们再次使用σ=0.25运行BP,它等于在完整数据集中发现的基因的最小方差,并且我们以90%以上的置信度保持监管联系。生成的网络具有6914条定向边。由于这些边缘描述了基因表达水平之间的逻辑含义,因此尚不清楚它们在多大程度上反映了与输入基因相关的TF与目标基因的启动子序列之间的物理结合。很容易想象,共调控基因被发现是相互预测的,或者调控级联中的次级靶点被认为是直接靶点。

事实上,与实验验证网络的重叠仅为206条边(生成的网络在附加文件中提供1). 为了对这个数字进行统计评估,我们将其与零模型的重叠进行了比较:我们随机地对BP网络中的链路进行置乱,以保持推断网络的阶数。与零模型重叠的边数为176±5.3,意味着z值为5.5,p值为1.18×10-8(假设重叠分布为高斯分布,且零模型给出了平均值和方差)。

为了检查更多实验的效果,我们从斯坦福微阵列数据库(SMD)下载了1013个微阵列[47]. 现在2614个靶基因和157个调控基因通过了统计测试,实验网络的覆盖范围增加到7635个链接。对于Gasch的数据集,我们使用了来自不同实验的6倍多的数组,因此我们在较高的噪声值σ=1.5下运行BP。由此产生的BP网络有16176条边(约为仅用Gasch数据集推断出的边数的三倍)。与实验验证网络的重叠部分为406条边(生成的网络在附加文件中提供1). 与零模型的重叠为314±7.9边。因此,我们发现z值为11.6,p值为1.6×10-31作为比较,我们决定用ARACNe公司软件[35]. 为了获得统计上相似的网络,我们设置数据处理不等式阈值(用于控制网络中总边数的可调参数)为0.10:生成的网络具有19775条定向边(注意阿拉伯国家石油公司生成无向链接)。与实验验证网络的重叠部分有480条边(附加文件中的数据)。与零模的重叠边缘为424±9.8,z值为5.7,p值为3.0×10-9.

与使用Gasch数据得出的结果相比,统计显著性的明显增加令人鼓舞:它以定量的形式表明,更大的微阵列数量将允许从基因表达数据中提取更多有关调控过程的信息。

PDR网络推断

最后,我们将算法应用于一个小数据集,以解决一个与医学直接相关的问题:酵母的耐药性。酿酒酵母利用“多效性耐药”网络中连接的一组基因,能够抵抗多种药物。其基本机制是,这些基因受主调节器PDR1调节,可以从细胞中输出广泛的物质,包括药物。这一普遍特征已在许多生物体中发现,并被认为是从细菌到酵母菌的耐药性的一种通用且强大的机制[48]. 尽管许多作品已经揭示了其中的一部分,但该网络中的精确规定仍不得而知[4952]. 在这里,我们建议在这个网络中寻找组合调控,以便更好地理解致力于耐药的转录因子是如何协作以确保细胞在恶劣条件下(即在药物存在的情况下)存活的。我们对已知参与PDR过程的40个基因作为靶点(选择基于文献)运行我们的算法,并使用数据库YEASTRACT中注释的所有157个转录因子[53]作为潜在的监管机构。表达数据由来自SMD的912个微阵列组成[47]. 由于其尺寸较小,推断网络的统计特性(见图4)与全球的完全不同:在95%的置信度下推断出265个链接,每个受调控的基因平均有6.65个调节因子。所有靶基因都至少有一个调节因子;事实上,只有一个调节器(GIS1→STB5对)。

图4
图4

推断的PDR网络英国石油公司推断的PDR调控网络,包括157个TF和40个靶点。目标显示为灰色。

再次,作为比较,我们决定分析相同的数据集阿拉伯国家石油公司。为了获得统计上相似的网络,我们设置数据处理不等式到0.10:247个链接被推断出来(注意阿拉伯国家石油公司产生无向链接)。附加文件中提供了这两个网络1。作为首次观察,我们注意到40个靶基因中有13个似乎在阿拉伯国家石油公司我们可以得出结论,至少在这种情况下,阿拉伯国家石油公司似乎产生了更多的链接集中目标数较小,in-dege为9.14±6.6TF/调节目标(与6.625±3.6的BP结果相对应)。

与YEASTRACT的最新版本相比,我们发现以下重叠链接的数量:在我们的情况下,16个链接(如果我们考虑TF→目标方向),28个链接(若不考虑方向)。阿拉伯国家石油公司它产生一个无向网络,只有22个重叠链接。我们还将我们的研究结果与Balaji工作中提出的网络进行了比较等。[46]:在BP案例中,我们匹配8条有向边和15条无向边,而阿拉伯国家石油公司匹配9个无向链接。

此外,更仔细地观察一些组合控制的预测案例,可以对耐药生物学提供有趣的见解。特别是,我们发现RPN4是蛋白酶体的转录调节器,受PDR3和YAP1的调节。抗药性和蛋白酶体之间的这种相互作用已经在以前关于全球应激抵抗的研究中有所暗示[54],最近通过实验证明[1]. 运行时未发现此情况阿拉伯国家石油公司在相同的数据集上,强调需要专门设计的算法,以发现组合控制的新情况。本分析预测的另一个有趣的组合调控案例是PDR1、PDR3和RPN4对YAP1和RAS1的交叉调控。因此,这种复杂的调节可以将耐药性和蛋白酶体调节与RAS1调节的细胞老化和增殖过程联系起来。然而,据我们所知,没有实验证据表明这一联系,这有待证实。

结论

在这项工作中,我们提出了一种有效的全基因组调控网络推断方法,特别是设计用于考虑遗传组合控制的情况。该方法基于消息传递,在一个小型电子版酵母细胞周期调控模型,然后应用于大规模和小规模数据集。测试表明了该方法在信息数据情况下的准确性,并且应用程序可以预测有意义的网络结构。

我们的算法的一个相关特征是它能够揭示组合控制的模式。即使我们使用的基因调节模型(输入的线性叠加,然后是非线性函数)非常简单,它也允许调节器只占目标表达的一部分,并且在其他条件下可以由其他调节器进行校正,参见图.

从算法的角度来看,我们的方法允许组合地探索监管网络的整个空间,同时保持较短的计算时间。该方法的灵活性允许整合其他类型的数据:例如,可以通过转录因子依赖的稀释域轻松整合输出基因调控区中假定转录因子结合位点的信息小时.

最后,我们的方法可以推广到处理基因调控推断领域的各种问题。一种可能性是尝试通过纠正方法发现新的监管机构,从已知的监管网络开始,并寻找最相关的法规添加到该网络中。另一种可能性是结合表达数据的性质使用组合控制的信息来解释哪些条件允许使用哪些组合控制,从而为丰富的遗传实验和更好地理解基因调控的复杂性打开了大门。

方法

数据编码

基因表达数据编码到(N个+ 1) ×M输入条目矩阵,使用= 0.1,...,N个μ= 1,...,M(M),其中M(M)是实验(数组)的数量,N个+1是基因的数量。价值观是量化基因表达水平的实数在样品中μ; 更准确地说,基因实际表达的对数比率以及同一基因在参考条件下的表达。负值(正值)表示基因表达不足(过度)i样品μ关于参考。这里我们使用向量表示法表示表达式模式μ.

任务是重建一个可以解释这些数据的网络模型。使用统计物理类比,从系统微观状态的快照开始,试图推断控制其行为的能量函数(哈密顿量)。请注意,由于基因网络的定向性质,这项任务可以在受调控基因上进行形式分解:我们可以首先问,哪些基因对基因0具有调控影响,以及它们如何组合相互作用。然后我们对基因1、2、……的调节器提出同样的问题,。。。,N个为了进一步简化其他基因对目标基因0的可能影响,我们旨在对基因的影响进行三元分类在0上:

这种分类方案显然过于简化了生物现实,在生物现实中,预期存在一系列积极和消极的相互作用强度。另一方面,考虑到可用表达模式数量有限所带来的特殊限制,使用简单但有意义的模型可以降低过度拟合的风险,并产生更容易解释的结果。我们的算法可以很容易地扩展到包含三个以上的值J型0; 在大多数情况下,我们分析了这种泛化并没有增加预测能力。

基因调控的最小确定性模型

作为一个最小功能模型,我们假设如果一个基因的调节因子的联合影响高于某个阈值-τ,则该基因会过度表达,如果联合影响低于-τ,则该基因会被抑制。因此,用符号(·)表示符号函数,并引入,我们期望

(3)

保持尽可能多的表达模式μ= 1,...,M(M)尽可能地。从这个意义上讲,每个模式都构成一个约束关于耦合向量J型= (J型1→0,...,J型N个0)以及找到一个好的候选向量的问题J型可以理解为约束满足问题。此问题的成本函数计算公式中的错误数(),

(4)

其中θ是Heaviside阶跃函数。显然,阈值函数只形成一个有限的函数空间。像XOR(或它的实值泛化)这样的函数不能以这种方式实现。然而,由于前面提到的数据数量和质量问题以及过拟合风险,我们必须将模型限制为一类生物学上合理但不依赖于太多参数的函数。

在这一点上,我们可以包括的最简单的先前生物学知识是稀疏监管网络。在这个意义上,我们正在寻找耦合向量J型尽可能稀疏,。其中包含尽可能少的非零元素。这些条目的数量按

(5)

并将纳入成本功能,

(6)

具有作为控制两种贡献相对重要性的参数:小时将有利于低耦合0,高小时将以可能不满足某些模式约束为代价迫使耦合稀疏。我们引入了一个形式化的逆温度β和相应的吉布斯分布

(7)

具有.最后,我们对低价感兴趣-β吉布斯分布集中于低成本配置的情况。

基因调控的最小随机模型

先前的确定性方案因其简单性而吸引人,但没有考虑实际数据中存在的噪声。我们首先假设基因0的实际表达值是测量值的总和和高斯噪声η零均值和方差σ2:

(8)

表示方差σ的中心高斯分布2通过,我们可以写出测量给定值的概率变量0为

(9)

对于σ→0,我们回到确定性模型(3),σ>0将Heaviside函数平滑为σ型函数。我们根据数据估计的噪声级编码为σ值。

贝叶斯推断

我们将(9)转化为概率贝叶斯框架[55]. 假设x的统计独立性μ对于μ= 1,...,N个,贝叶斯定理允许写出耦合向量的后验概率J型:

(10)

在耦合之前,我们使用分布(J型)经验{-hN(小时)效率(J型)}支持小型(稀疏)连接N个效率不出所料,对于σ→0,可以恢复方程(7).

从这个观点来看,优先权的选择是类似的1正则化方法[56],但在{±1,0}中元素的离散向量上,在这种情况下1正则化等价于0一个。

信仰传播

信念传播(BP)算法在树状图形模型上是精确的,但它被广泛用作解决稀疏图上定义的问题的启发式过程[57,58]. 最近,同样的方法也被证明是稠密图结构问题的一种很好的近似方法[5961]. BP是一种估计边际概率分布的迭代算法。它通过本地交换消息来工作,直到实现全局一致性。可变节点之间发送的消息(联轴器)和功能节点μ(约束)包括:

  • 概率ρμ(J型0)那个约束μ力变量假设价值J型0.

  • 概率μ(J型0)那个变量取得价值J型0在没有约束的情况下μ.

BP方程在这些信息之间建立了近似关系,

(11)
(12)

比例常数很容易通过归一化确定。该算法从随机初始化的消息开始,在达到收敛时停止。我们的收敛标准要求在同一时间内所有消息之间存在差异t吨以及相应的时间t吨-1小于预定义阈值(10-8在我们的模拟中)。收敛后,边际概率分布如下所示

(13)

从算法复杂性的角度来看,等式(12)仍包含超过的总和(3N个)因此,对于大型系统来说,直接实现BP是不可行的。这个问题可以近似地解决:方程(12)可以理解为结束N个-1个独立随机变量{J型j个0|j个},使用仅取决于耦合矢量的总和对于一个足够大的系统,我们可以使用中心极限定理,并通过单个高斯积分近似指数和,

(14)

使用

(15)
(16)

符号·j个μ代表P的平均值j个μ(J型j个0).

当然,中心极限定理在N个→ ∞. 在实践中,高斯近似产生与方程的精确计算相同的结果(12)已经为N个~10(精确计算显然可行)。

计算复杂性

通过高斯近似,公式(12)减少自(3N个)至(N个)和整个迭代的(明尼苏达州). 表面上的复杂性(明尼苏达州2)的更新M N公司及时发送消息(N个)可以简化为(明尼苏达州). 通过一个简单的技巧:等式中的总和(16)可以全面计算j个每个一次μ,所以只有必须在更新ρ时删除μ对于每个这允许在恒定时间内进行单个更新步骤。精确估计算法的总体复杂度需要控制收敛所需迭代次数的缩放。在一般情况下,BP收敛时间的理论分析仍然难以捉摸。有关更简单的匹配问题的一些最新进展,请参见[62]. 在本工作中提供的所有模拟中,收敛总是在少于50次迭代中实现的。

将我们的算法的效率与[33]基于模型空间上的蒙特卡罗马尔可夫链(MCMC)采样器。然而,根据我们的经验,MCMC方法通常存在一些内在相关的问题,主要是因为收敛(或混合)时间很难评估,并且通常是指数时间。

可观察项

页边距-我们的目标不是构建一个单独的高得分耦合向量J型就像在一个最大限度的方法。根据概率空间的形状,该向量可能与实际生成数据的向量大不相同。相反,我们感兴趣的是描述合奏所有得分较高的向量,或者更准确地说是边际概率,它告诉我们耦合的频率到0需要值J型0因此,我们可以对所有潜在耦合进行全球排名概率1为0- (J型0=0)非零。

处理由已知耦合向量生成的人工数据集时J型真的,我们可以测量推理结果的相似性J型使用真的联轴器。为此,我们定义

(17)

推理的目的是预测分数高精度的所有联轴器,即具有尽可能高的TP数和低的FP数。推理的质量可以通过对抗来解释回忆(或敏感)钢筋混凝土=N个 TP(转移定价) /(N个TP(转移定价)+N个FN公司)和精度(或特异性)公共关系=N个 TP(转移定价) /(N个 TP(转移定价) +N个 FP公司 ). 召回描述了算法恢复的所有现有非零耦合的分数,而精度告诉我们数据生成器中实际存在的所有预测链路的分数。

-一个有趣的测量量是熵,.与我们的数据集兼容的高得分耦合向量数的对数。在BP中,它可以近似为Bethe-熵

(18)

哪里S公司μ= -∑ J型 μ (J型)在 μ (J型)、和S公司 = -∑ (J型 )在 (J型 )、和 μ (J型)定义为

(19)

.它考虑了单个约束对J型.

参数固定与零熵准则

稀释场小时是有效链接数的共轭变量,所以我们可以等效地固定这两个量中的一个。人们可以决定确定有效链接的数量,从而确定搜索到的基因签名的大小,并选择小时相应地。要找到的正确值小时我们应用了一个冷却程序,在BP方程步骤的每个交互作用之后,我们增加(分别减少)小时取决于链路的有效数量是否高于(或低于)期望值。由于相关基因的真实数量未知,因此,本身是一个自由参数。实际上,在小时字段,我们监测熵的值,当它变得低于零时,我们停止迭代,在我们能够将问题的可能解的数量限制为次指数的时候(记住这里的熵表示解的数量的对数)。在进一步增加小时熵变为负值,在稀释参数的这个值上找不到零能量解小时.

在所有模拟中,我们都达到了极限β→ ∞.

工具书类

  1. Salin H、Fardeau V、Piccini E、Lelandais G、Tanty V、Lemoine S、Jacq C、Devaux F:酵母中驱动亚硒酸盐应激反应的转录网络的结构和特性。BMC基因组学2008, 9: 333. 10.1186/1471-2164-9-333

    第条 公共医学 公共医学中心 谷歌学者 

  2. DeRisi JL、Iyer VR、Brown PO:探索基因表达的代谢和遗传控制。科学类1997, 278(5338):680–686. [http://www.sciencemag.org/cgi/content/abstract/278/5338/680]10.1126/科学278.5338.680

    第条 中国科学院 公共医学 谷歌学者 

  3. Spellman PT、Sherlock G、Zhang MQ、Iyer VR、Anders K、Eisen MB、Brown PO、Botstein D、Futcher B:通过微阵列杂交综合鉴定酿酒酵母细胞周期调控基因。分子生物学细胞1998, 9(12):3273–3297. [http://www.molbiolcell.org/cgi/content/abstract/9/12/3273]

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  4. 垫圈A,.:酵母细胞对环境变化响应的基因组表达程序。分子生物学细胞2000, 11(12):4241–4257. [http://www.molbiolcell.org/cgi/content/abstract/11/12/4241]

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  5. Causton HC、Ren B、Koh SS、Harbison CT、Kanin E、Jennings EG、Lee TI、True HL、Lander ES、Young RA:酵母基因组表达的重塑对环境变化的响应。分子生物学细胞2001, 12(2):323–337. [http://www.molbiolcell.org/cgi/content/abstract/12/2/323]

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  6. Shen-Orr S,Milo R,Mangan S,Alon U:大肠杆菌转录调控网络中的网络基序。自然基因2002, 31: 64–68. 10.1038/纳克881

    第条 中国科学院 公共医学 谷歌学者 

  7. Guelzim N,Bottani S,Bourgine P,Kepes F:酵母转录调控网络的拓扑和因果结构。自然基因2002, 31: 60–63. 10.1038/ng873

    第条 中国科学院 公共医学 谷歌学者 

  8. Milo R、Shen-Orr S、Itzkovitz S、Kashtan N、Chklovskii D、Alon U:网络主题:复杂网络的简单构建块。科学类2002, 298(5594):824–827. [http://www.sciencemag.org/cgi/content/abstract/298/5594/824]10.1126/科学298.5594.824

    第条 中国科学院 公共医学 谷歌学者 

  9. 戴维森EH,:基因组调控发展网络。科学类2002, 295(5560):1669–1678. [http://www.sciencemag.org/cgi/content/abstract/255/560/1669]10.1126/科学.1069883

    第条 中国科学院 公共医学 谷歌学者 

  10. Albert R,Othmer H:调控相互作用的拓扑结构预测了果蝇片段极性基因的表达模式。理论生物学杂志2003, 223: 1–18. 10.1016/S0022-5193(03)00035-3

    第条 中国科学院 公共医学 谷歌学者 

  11. Aguilar D,Oliva B:酵母转录协同性预测方法的拓扑比较。BMC基因组学2008, 9: 137. 10.1186/1471-2164-9-137

    第条 公共医学 公共医学中心 谷歌学者 

  12. Banerjee N,Zhang MQ:鉴定控制酵母细胞周期的转录因子之间的合作性。核酸研究2003, 31(23):7024–7031. 10.1093/nar/gkg894

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  13. Chang YH,Wang YC,Chen BS:通过随机系统模型识别转录因子协同性。生物信息学2006, 22(18):2276–2282. 10.1093/生物信息学/btl380

    第条 中国科学院 公共医学 谷歌学者 

  14. Nagamine N,Kawada Y,Sakakibara Y:利用蛋白质相互作用识别合作转录调控。核酸研究2005, 33(15):4828–4837. 10.1093/nar/gki793

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  15. Tsai HK,Lu HHS,Li WH:鉴定酵母细胞周期转录因子的统计方法。《美国科学院院刊》2005, 102(38):13532–13537. 10.1073/pnas.0505874102

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  16. Lucau-Danila A、Delaveau T、Lelandais G、Devaux F、Jacq C:两种控制多药耐药现象的酵母同源转录因子对竞争性启动子的占用。生物化学杂志2003, 278(52):52641–52650. 10.1074/jbc。M309580200号

    第条 中国科学院 公共医学 谷歌学者 

  17. Benayoun BA,Veitia RA:转录因子的翻译后修饰代码:通过大量信号进行分类。趋势细胞生物2009, 19(5):189–197. 2016年10月10日/j.tcb.2009.02.003

    第条 中国科学院 公共医学 谷歌学者 

  18. Schena M,Shalon D,Davis RW,Brown PO:用互补DNA微阵列定量监测基因表达模式。科学类1995, 270(5235):467–470. [http://www.sciencemag.org/cgi/content/abstract/270/5235/467]10.1126/科学.270.5235.467

    第条 中国科学院 公共医学 谷歌学者 

  19. 李浩,宣杰,王毅,詹M:推断监管网络。Front Biosci公司2008, 13: 263–275. 10.2741/2677

    第条 中国科学院 公共医学 谷歌学者 

  20. Eisen MB、Spellman PT、Brown PO、Botstein D:全基因组表达模式的聚类分析和显示。美国国家科学院院刊1998, 95(25):14863–14868. [http://www.pnas.org/cgi/content/abstract/95/25-14863]10.1073/第95.25.14863页

    第条 中国科学院 谷歌学者 

  21. Ernst J,Beg QK,Kay KA,Balázsi G,Oltvai ZN,Bar-Joseph Z:预测转录因子-基因相互作用的半监督方法大肠杆菌.公共科学图书馆计算生物学2008年,4(3):e1000044。10.1371/日记.pcbi.1000044

    第条 公共医学 公共医学中心 谷歌学者 

  22. Mordelet F,Vert JP:SIRENE:监管网络的监督推断。生物信息学2008年,24(16):i76–82。[http://bioinformatics.oxfordjournals.org/cgi/content/abstract/24/16/i76]10.1093/生物信息学/btn273

    第条 公共医学 谷歌学者 

  23. Liang S,Fuhrman S,Somogyi R:Reveal,遗传网络结构推理的通用逆向工程算法。太平洋生物计算研讨会1998, 3: 18–29.

    谷歌学者 

  24. Liu W,Lähdesmäki H,Dougherty E,Shmulevich I:使用灵敏度正则化的布尔网络推理。EURASIP生物信息学和系统生物学杂志2008., 2008: 10.1155/2008/780541

    谷歌学者 

  25. Arkin A、Ross J、McAdams HH:噬菌体lambda感染者发育途径分叉的随机动力学分析大肠杆菌细胞。遗传学1998, 149(4):1633–1648. [http://www.genetics.org/cgi/content/abstract/149/4/1633]

    中国科学院 公共医学 公共医学中心 谷歌学者 

  26. D’Haeseler P,Liang S,Somogyi R:遗传网络推断:从共表达聚类到逆向工程。生物信息学2000, 16(8):707–726. [http://bioinformatics.oxfordjournals.org/cgi/content/abstract/16/8/707]10.1093/生物信息学/16.8.707

    第条 公共医学 谷歌学者 

  27. Yeung MKS,Tegner J,Collins JJ:使用奇异值分解和稳健回归对基因网络进行反向工程。美国国家科学院院刊2002, 99(9):6163–6168. [http://www.pnas.org/cgi/content/abstract/99/6163]10.1073/pnas.092576199

    第条 中国科学院 谷歌学者 

  28. Gardner TS、di Bernardo D、Lorenz D、Collins JJ:通过表达谱推断遗传网络和识别复合作用模式。科学类2003, 301(5629):102–105. [http://www.sciencemag.org/cgi/content/abstract/31/5629/102]10.1126/科学108.1900

    第条 中国科学院 公共医学 谷歌学者 

  29. Tegner J、Yeung MKS、Hasty J、Collins JJ:反向工程基因网络:将遗传扰动与动力学建模相结合。美国国家科学院院刊2003, 100(10):5944–5949. [http://www.pnas.org/cgi/content/abstract/100/5944]10.1073/pnas.0933416100

    第条 中国科学院 谷歌学者 

  30. Hartemink A,Gifford D,Jaakkola T,Young R:使用图形模型和基因组表达数据对遗传调控网络模型进行统计验证。太平洋生物计算研讨会2001, 6: 422–433.

    谷歌学者 

  31. Peer D,Regev A,Elidan G,Friedman N:从扰动的表达谱推断子网络。生物信息学2001年,17(补充1):S215–224。[http://bioinformatics.oxfordjournals.org/cgi/content/abstract/17/suppl_1/S215]

    第条 公共医学 谷歌学者 

  32. Wang K,Nemenman I,Banerjee N,Margolin A,加利福尼亚州A:人类B淋巴细胞转录相互作用调节剂的全基因组发现。计算分子生物学研究.第3909卷施普林格-柏林/海德堡;2006:348–362. [doi:10.1007/11732990][doi:10.1007/11732900]完整文本

    第章 谷歌学者 

  33. Mukherjee S、Pelech S、Neve RM、Kuo WL、Ziyad S、Spellman PT、Gray JW、Speed TP:稀疏组合推理在癌症生物学中的应用。生物信息学2009, 25(2):265–271. [http://bioinformatics.oxfordjournals.org/cgi/content/abstract/25/265]10.1093/生物信息学/btn611

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  34. Basso K、Margolin AA、Stolovitzky G、Klein U、Dalla-Favera R、Califano A:人类B细胞调节网络的逆向工程。自然基因2005, 37(4):382–390. 1038/ng1532年10月10日

    第条 中国科学院 公共医学 谷歌学者 

  35. Margolin A、Nemenman I、Basso K、Wiggins C、Stolovitzky G、Favera R、Califano A:ARACNE:哺乳动物细胞环境中基因调控网络重建的算法。BMC生物信息学2006年7月(补充1):S7。10.1186/1471-2105-7-S1-S7

    第条 公共医学 公共医学中心 谷歌学者 

  36. Santhanam N,Wainwright M:选择高维二进制图形模型的信息论极限。Arxiv预印本技术代表2008

    谷歌学者 

  37. Gygi SP、Rochon Y、Franza BR、Aebersold R:酵母中蛋白质和mRNA丰度的相关性。分子细胞生物学1999, 19(3):1720–1730.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  38. 李凤、龙T、鲁Y、欧阳Q、唐C:酵母细胞循环网络设计稳健。美国国家科学院院刊2004, 101(14):4781–4786. [http://www.pnas.org/cgi/content/abstract/101/14/4781]10.1073/pnas.0305937101

    第条 中国科学院 谷歌学者 

  39. Sherlock G、Hernandez-Boussard T、Kasarskis A、Binkley G、Matese JC、Dwight SS、Kaloper M、Weng S、Jin H、Ball CA、Eisen MB、Spellman PT、Brown PO、Botstein D、Cherry JM:斯坦福微阵列数据库。核酸研究2001, 29: 152–155. 10.1093/nar/29.1152

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  40. Trofa D,Gàcser A,Nosanchuk JD:副psilosis念珠菌,一种新出现的真菌病原体。临床微生物评论2008, 21(4):606–625. 10.1128/CMR.0013-08

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  41. 稀释感知器算法[http://www.polito.it/cmp/code/dilperc]

  42. Kovacs LAS、Orlando DA、Haase SB:转录网络和细胞周期蛋白/CDK:细胞周期振荡器的阴阳。细胞周期2008, 7(17):2626–2629.

    第条 中国科学院 谷歌学者 

  43. Orlando DA、Lin CY、Bernard A、Wang JY、Socolar JES、Iversen ES、Hartemink AJ、Haase SB:通过耦合CDK和网络振荡器对细胞周期转录的全局控制。自然2008, 453(7197):944–947. 10.1038/性质06955

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  44. Lau KY,Ganguli S,Tang C:功能约束网络结构和动力学:酵母细胞周期布尔网络的案例研究。物理评论E(统计、非线性和软物质物理学)2007, 75(5):051907. [http://link.aps.org/abstract/PRE/v75/e051907]

    第条 谷歌学者 

  45. Segal E、Shapira M、Regev A、Peer D、Botstein D、Koller D、Friedman N:模块网络:从基因表达数据中识别调节模块及其条件特异性调节器。自然基因2003, 34(2):166–176. 10.1038/ng1165

    第条 中国科学院 公共医学 谷歌学者 

  46. Balaji S、Madan Babu M、Lakshminarayan M、Luscombe N、Aravind L:利用酵母转录调控网络进行组合调控的综合分析。分子生物学杂志2006, 360: 213–227. 10.1016/j.jmb.2006.04.029

    第条 中国科学院 公共医学 谷歌学者 

  47. 斯坦福微阵列数据库[http://smd.stanford.edu/]

  48. Tal N,Schuldiner S:具有重叠特异性的运输者协调网络提供了稳健的生存策略。《美国科学院院刊》2009, 106(22):9051–9056. 10.1073/pnas.0902400106

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  49. Banerjee D、Lelandais G、Shukla S、Mukhopadhyay G、Jacq C、Devaux F、Prasad R:致病性和非致病性酵母对类固醇的反应揭示了多药耐药转录网络的功能和进化。真核细胞2008, 7: 68–77. 10.1128/EC.00256-07号

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  50. Crom SL、Devaux F、Marc P、Zhang X、Moye-Rowley WS、Jacq C:从YRR1转录因子调节系统的全基因组特征对多效性耐药网络的新见解。分子细胞生物学2002, 22(8):2642–2649. 10.1128/MCB.22.82642-2649.2002

    第条 公共医学 公共医学中心 谷歌学者 

  51. Fardeau V、Lelandais G、Oldfield A、Salin H、Lemoine S、Garcia M、Tanty V、Crom SL、Jacq C、Devaux F:PDR1在酵母耐药性基础中的中心作用。生物化学杂志2007, 282(7):5063–5074. 10.1074/jbc。M610197200型

    第条 中国科学院 公共医学 谷歌学者 

  52. Hikkel I、Lucau-Danila A、Delaveau T、Marc P、Devaux F、Jacq C:揭示转录因子特性的一般策略确定了酵母中一种新的耐药性调节器。生物化学杂志2003, 278(13):11427–11432. 10.1074/jbc。M208549200号

    第条 中国科学院 公共医学 谷歌学者 

  53. Teixeira MC、Monteiro P、Jain P、Tenreiro S、Fernandes AR、Mira NP、Alenquer M、Freitas AT、Oliveira AL、Sá-Correia I:YEASTRACT数据库:酿酒酵母转录调控关联分析工具。核酸研究2006年,(34数据库):D446-D451。10.1093/nar/gkj013年10月10日

  54. Wolf DH,Hilt W:蛋白酶体:细胞调节和废物处理的蛋白水解纳米机器。Biochim生物物理学报2004, 1695(1–3):19–31. 2016年10月10日/j.bbamcr.2004.10.007

    第条 中国科学院 公共医学 谷歌学者 

  55. 麦凯DJC:信息理论、推理和学习算法剑桥大学出版社;2002. [http://www.inference.phy.cam.ac.uk/mackay/itila/book.html]

    谷歌学者 

  56. Tibshirani R:通过套索进行回归收缩和选择。英国皇家统计学会杂志(B辑)1996, 58: 267–288.

    谷歌学者 

  57. Yedidia JS、Freeman W、Weiss Y:广义信念传播。神经信息处理系统(NIPS)进展13,丹佛,科罗拉多州编辑:press M.2001,772–778。

    谷歌学者 

  58. Kschichang FR、Frey BJ、Loeliger HA:因子图和和积算法。信息论,IEEE汇刊2001, 47(2):498–519. [http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=910572] 10.1109/18.910572

    第条 谷歌学者 

  59. Kabashima Y:一种基于信念传播的CDMA多用户检测算法。物理杂志A:数学与普通2003, 36(43):11111–11121. 10.1088/0305-4470/36/43/030

    第条 谷歌学者 

  60. Braunstein A,Zecchina R:通过离散突触网络中的信息传递进行学习。物理Rev Lett2005, 96: 030201. 10.1103/物理版次96.030201

    第条 谷歌学者 

  61. Pagnani A,Tria F,Weigt M:基因表达数据的分类和稀疏特征提取。统计力学杂志:理论与实验2009年、2009年(05):P05001。(22页)[http://stacks.iop.org/1742–5468/2009/P05001](22页)10.1088/1742-5468/2009/05/P05001

    第条 谷歌学者 

  62. Bayati M,Borgs C,Chayes J,Zecchina R:关于任意图上加权b-匹配的腔方法的精确性及其与线性程序的关系。统计力学杂志:理论与实验2008年、2008年(06):L06001。(10便士)[网址:http://stacks.io.org/1742–5468/2008/L06001](10页)10.1088/1742-5468/2008/06/L06001

    第条 谷歌学者 

下载参考资料

致谢

这项工作部分由微软TCI资助。作者想感谢M.Vergassola、F.Devaux和G.Lelandais,他们对PDR结果的解释提供了很大帮助。

作者信息

作者和附属机构

作者

通讯作者

与的通信安德烈亚·帕格纳尼.

其他信息

作者的贡献

所有作者都对这项工作做出了同等贡献。所有作者都阅读并批准了最终的手稿。

电子辅助材料

作者提交的原始图像文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Bailly-Bechet,M.,Braunstein,A.,Pagnani,A。等。从基因表达数据推断稀疏组合控制网络:消息传递方法。BMC生物信息学 11, 355 (2010). https://doi.org/10.1186/1471-2105-11-355

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-11-355

关键词