跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
BMC生物信息学。2010; 11:95。
2010年2月19日在线发布。 数字对象标识:10.1186/1471-2105-11-95
预防性维修识别码:项目经理2838870
PMID:20170493

微阵列数据差异网络分析的统计框架

摘要

背景

众所周知,基因并不是单独起作用的;相反,基因群在生物过程中协同作用。因此,基因的表达水平是相互依赖的。检测这种相互作用的基因对的实验技术已经存在了很长一段时间。随着微阵列技术的出现,人们提出了新的计算技术来检测基因表达之间的这种相互作用或关联,从而形成关联网络。虽然大多数微阵列分析寻找差异表达的基因,确定整个关联网络结构如何在两种或多种生物环境(例如正常细胞类型与疾病细胞类型)之间变化,具有潜在更大的意义。

结果

我们提供了在两个实验设置下对微阵列数据构建的网络进行差异分析的方法。我们方法的核心是一个连接度得分,它表示两个基因之间的遗传关联或相互作用的强度。我们使用这个分数为以下每个查询提出正式的统计测试:(i)两个网络的整体模块化结构是否不同,(ii)两个网络之间一组特定“感兴趣的基因”的连接性是否发生了变化,以及(iii)给定单个基因在两个网络之间的连接是否发生了变化。提供了该分数的一些示例。我们在两类模拟数据上实现了我们的方法:高斯网络和基于微分方程的网络。我们表明,对于连接分数和调优参数的适当选择,我们的方法在模拟数据上运行良好。我们还分析了一组真实的数据,包括正常小鼠和重小鼠,并确定了一组有趣的基因,这些基因可能在肥胖中起关键作用。

结论

研究网络结构的变化可以提供有关潜在生化途径的宝贵信息。具有适当连接性得分的差分网络分析是探索不同生物条件下网络结构变化的有用工具。我们的测试的R包可以从补充网站下载http://www.somnathdatta.org/Supp/DNA.

背景

生物网络的构建(基因-基因、蛋白质-蛋白、基因-蛋白等)在计算生物学家中引起了极大的兴趣,快速增长的文献证明了这一点[1]. 通常,通过计算方法构建网络被认为是实验方法更快、更可行的替代方法,特别是对于高通量研究。可以说,在许多基因组研究中,观察连接的基因对网络如何从一种实验条件变为另一种实验状态更令人感兴趣,因为这种变化可能提供有关潜在生物过程的重要线索,例如识别与这种变化相对应的途径。

尽管目前存在多种网络构建方法,但用于差异网络分析的方法却很少。因此,本文旨在介绍一种正式的统计方法来检测两个生物网络中的显著变化。我们在基因-基因相互作用网络的背景下描述和研究我们的方法,尽管可以想象,这些方法可以很容易地适用于其他类型的生物网络。具体而言,我们感兴趣的是统计测试,以回答以下与在两种实验条件下使用同一组基因构建的网络相关的问题:(i)两个网络的整体模块结构是否不同,(ii)一组特定“感兴趣的基因”的连通性是否不同以及(iii)给定单个基因的连接性在两个网络之间是否发生了变化。我们所有统计测试的构建块都是一组分数,用于衡量两个网络中基因对之间的关联/交互强度。我们提供了一些基因关联/相互作用的度量示例,如相关性、部分相关性、互信息、后验概率等。本文中大量使用的另一个度量是基于偏最小二乘法的[2-5]一个基因在其余基因上的表达建模。这些分数是在我们之前的论文中介绍的[6]遗传网络重构。

一项早期的尝试是研究两种植物基因之间的成对相关性是如何在[7]. 使用正常小鼠与重量级小鼠的肝脏基因表达数据进行了差异网络分析[8]为了确定潜在的遗传驱动因素和途径,他们还提出了一种测试单个基因差异连接性的方法。对正常与CFS(慢性疲劳综合征)患者的基因表达网络进行了横向比较[9]通过视觉分析,检测到某些节点基因的连接性变化,尽管他们没有进行任何统计显著性测试。他们的关联分数基于相互信息标准[10]. 最后[11]将单独的结构方程拟合到两组基因表达中,并测试了两个模型中系数相等的零假设,以表明整个网络结构中的相等。

在方法部分,我们描述了一种使用连接性得分测量关联/交互的方法,我们主要使用基于PLS的得分[6]. 我们还描述了如何在无监督的情况下从这些分数中识别模块和中心基因。然后,我们制定了三个测试统计数据,以检查两个网络的不同之处。与以前的方法不同,该方法使用差分连接性的每个概念提供了一个正式的统计测试。我们的模拟结果在结果部分中报告。我们从两种不同类型的模型中进行模拟,在这两种模型中,我们知道一些形式的基本事实。在结果部分,我们还重新分析了一项小鼠肥胖研究的数据集。

结果和讨论

我们在许多模拟数据集和一个真实数据集中研究了测试程序的性能。从这些研究中可以看出,拟议的统计测试在检测网络结构之间的差异方面是有效的。

模拟数据

我们使用两种类型的仿真模型来生成数据。第一种方法使用偏微分方程来建模表达式级别,可以生成各种结构和复杂性的网络,这些网络可能非常真实。第二个模拟模型生成一个简单的高斯网络,其中(转换的)基因表达是由多元正态分布生成的。通过选择方差-方差矩阵,我们可以在基因之间诱导各种类型的关联/交互作用;该模型的另一个优点是可以用相同的网络结构生成重复数据集,从而可以根据经验计算测试的统计特性(即大小和功率)。

基于微分方程的网络

SynTReN软件由开发[12]基于现有的生物子网络,模拟具有已知底层结构的生物网络,并使用Michaelis-Menten和Hill动力学方程进行建模。该软件用于生成两个网络N个=每个样品50个第页=50个基因。第一个网络(网络A)由五个单独的模块组成,每个模块有十个基因,而第二个网络(网B)只有一个模块,所有50个基因。该软件允许用户指定多个调谐参数,用于控制每个生成网络中的噪声和复杂性;治疗网络和控制网络的所有概率参数均设置为0.05。这两个网络如图所示图11使用Cytoscape软件[13].

保存图片、插图等的外部文件。对象名称为1471-2105-11-95-1.jpg

两个模拟网络使用SynTReN模拟两个网络中50个基因的50个样本的基因表达数据。网络A有五个模块,而网络B有一个模块。

我们考虑使用PLS连接性得分测试两个网络中的差分模块结构,如方法部分所述。显然,该方法的性能取决于最小模块尺寸的选择和ϵ,这是一个用户可选择的连接分数参数阈值,用于确定网络中两个节点(基因)之间是否应该存在边界。如果\1013»太大,则该方法将发现基因之间很少交互,因此很少(如果有)模块;如果ϵ太小,那么该方法会发现基因之间的交互作用太多,并且每个基因都位于同一个大模块中。作为模块数量增加J型1J型2减少。因此,我们对调谐参数进行了灵敏度分析和ϵ。p值的计算使用P(P)=1000个随机排列。

在这个模拟示例中,模块化结构之间存在统计上显著的差异和ϵ基于方法部分中不同模块结构的测试。表11显示最小模块大小的结果=5,有各种ϵ选项,表示测试统计值保存图片、插图等的外部文件。对象名为1471-2105-11-95-i1.gif以及相应的p值。的其他值的结果1和8之间非常相似,可以在补充网站上找到[14].

表1

测试SynTReN软件创建的两个网络中的差分模块结构。

ϵ保存图片、插图等的外部文件。对象名为1471-2105-11-95-i1.gifp值
.20.641.000
.25.862.000
.30.910.000
.35.919.001
.40.965.003

高斯网络

我们基于两个网络(治疗和控制)进行了模拟研究,每个网络均由具有零均值向量的多元高斯分布生成。在这种设置下,我们研究了方法部分中描述的每个基因的差异连接性测试的统计能力。

我们报告了两种网络设置的结果,其中一种具有第页=20个基因,另一个带有第页=100个基因。其他设置的其他结果,包括PLS分数,可在补充网站上获得[14]. 对于每个Monte-Carlo样本,每个测试的p值都基于1000个随机排列。由于每个此类计算都是基于原始样本的蒙特卡罗复制,而每个原始样本的观察显著性水平(p值)是基于另一个蒙特卡罗迭代水平,因此总的计算需求相当大。因此,我们的计算基于20基因和100基因网络的1000次Monte-Carlo迭代。

控制网络的协方差矩阵被视为单位矩阵。这表示一种假设情况,其中没有任何基因相互作用。治疗网络协方差矩阵的对角元素为1,前10个基因的非对角元素为ρ或-ρ取决于各个索引的总和是偶数还是奇数,其余的非对角元素为0。的三个值ρ用于较大的ρ表示关联性较高,因此我们可以预期测试的威力会随着ρ因此,前10个基因是“重要”基因,其连接存在于治疗网络中,但不存在于控制网络中;剩下的基因是“不重要的”,它们在两个网络中独立发挥作用。在本研究中,我们选择了两种样本大小,n个=50和200。一个合理的测试应该具有随着样本量的增加而增加的幂函数。

在每个设置中,我们计算以下数量:

(i) 敏感性:这是通过宣布存在显著差异连接的“重要”基因之间的比例来计算的。

(ii)特异性:这是通过宣布没有显著差异连接的“不重要”基因之间的比例计算得出的。

(iii)真实发现率(TDR):这是通过在“重要”基因中宣布存在显著差异连接的基因之间的比例来计算的。

(iv)真正的未发现率(TNR):这是通过在“不重要”基因中被宣布没有显著差异连接的基因之间的比例来计算的。

每个测量值的高值表明测试程序在某些方面表现良好。注意灵敏度与平均功率相同;也就是说,它是Monte-Carlo样本中每个给定“重要”基因的比例,在这些基因中,它被宣布为在所有十个“重要”的基因中具有显著差异连接的平均值。同样,减去特异性的一个值就是平均大小。

在这里,我们报告了相关分数测试的结果。由于它是一个使用依赖基因之间不同程度的相关性构建的高斯网络,因此使用样本相关性的结果最容易解释,也最自然。补充网站列出了使用其他分数的结果。的结果第页=20总结在表中表22而那些用于第页=100列在表中表3。所有测试的标称尺寸设置为α=5%,这意味着如果一个基因基于排列的p值小于0.05,则该基因被宣布为差异连接。的结果α=10%在补充网站中提供[14].

表2

使用在5%的目标标称水平上应用的相关分数,对单基因差异连接性测试的性能指标进行经验估计。

n个ρ敏感特异性TDR公司TNR公司
未经调整的调整后的未经调整的调整后的未经调整的调整后的未经调整的调整后的
50第5条.990.893.949.970.951.970.989.982
20011.946.970.949.97111
50.711.948.969.951.97011
20011.950.973.952.97311
50.911.946.969.948.97011
20011.948.968.950.96911

这些测量值是基于未调整的p值和基于BH多重性校正的p值报告的。“重要”基因数量为10个,总基因数量为20个。

表3

使用在5%的目标标称水平上应用的相关分数,对单基因差异连接性测试的性能指标进行经验估计。

n个ρ敏感特异性时间延迟TNR公司
未经调整的调整后的未经调整的调整后的未经调整的调整后的未经调整的调整后的
50.5.760.340.947.996.616.913.973.931
2001.999.949.994.687.94611
50.7.986.862.948.993.676.935.998.985
20011.949.993.685.94311
50.91.996.946.992.675.93611
20011.949.994.684.94811

测量是基于未调整的p值和基于BH多重性校正调整的p值报告的。“重要”基因数量为10个,总基因数量为100个。

对于第页=20,所有测试的灵敏度接近1。为了解释多个假设的同时测试,我们还考虑了标准Benjamini-Hochberg(BH)[15]调整p值以声明显著性。我们还尝试了其他相对较新的多假设调整程序。其中包括由于以下原因导致的本地FDR[16],由于的q值[17]和fdrtool由于[18]. 在不同的测量方法中,他们的表现各不相同,但总的来说,没有一个比不进行任何p值调整的测试做得更好。因此,这些没有在表格中报告。

对于第页=100,灵敏度增加为ρBH调整增加而降低。这些程序对BH调整具有很高的特异性。TNR也接近于1,未调整的TDR范围在60%-70%之间,这表明一些不重要的基因被认为是通过程序进行差异连接的,这并不意外,因为只有10%的基因是真正重要的。BH调整将TDR提高到90%-95%。

在这个模拟实验中,我们意识到了重要基因的身份。我们还研究了方法部分中描述的一类基因的差异连接性测试的性能。在每种情况下,当使用两两相关性时,检测重要基因类别的能力为1。完整结果显示在补充网站上[14].

高斯模拟的分析基于方法部分中描述的统计测试。虽然基于适当的渐近理论,对高斯模型使用正则化统计检验当然是可能的,但我们只将高斯模型作为一个简单的模型,我们可以很容易地进行模拟研究。方法部分中描述的更一般的统计检验不仅适用于高斯模型,也适用于从生物学角度来看更具吸引力的更复杂模型。

真实数据

我们使用实际数据集来说明我们的方法。

鼠标数据

我们将方法一节中描述的测试应用于从雌性小鼠肝组织获得的微阵列表达数据子集,以及之前通过以下方法分析的小鼠的相应临床特征:[8]. 完整的数据集由3421个基因和135只小鼠组成。通过删除缺失值的基因和小鼠,数据集进一步减少。为了进行差异分析,我们选择了两个小鼠网络。第一个网络由50只体重大于40.5的最重小鼠组成。第二个网络由50只体重小于36.9的最瘦小鼠组成。我们研究了一组筛选过的基因保存图片、插图等的外部文件。对象名为1471-2105-11-95-i2.gif基于使用所有小鼠对每个基因表达的小鼠重量的单变量回归;我们选择了z-scores大于5的314个基因。

使用PLS连接性得分和差分结构测试(最小模块尺寸为=5,阈值连通度得分ϵ=0.5),检验统计量的值为保存图片、插图等的外部文件。对象名称为1471-2105-11-95-i1.gif=.976,p值为第页(ℱ) = 0.033基于1000个随机排列;因此,这两个网络的模块化结构在5%的水平上显著不同。两个网络的模块结构在使用Cytoscape软件的补充材料网站中进行了说明[13]. 此外,我们对不同的ϵ进行了敏感性分析,发现对于任何适度的\1013 ;选择,模块结构在统计上都存在显著差异。关于ϵ∈{-0.35,0.40,0.45,0.50,0.55}的完整结果见补充材料网站[14].

接下来,使用单个基因的差异连接性测试,我们发现56个基因在0.05级显著,没有任何多重性校正。表中列出了基因名称、测试统计值以及20个最具差异连接基因的对应p值表4。4。补充材料网站上提供了完整的列表。下面,我们对使用Entrez Gene工具挖掘的一些基因的生物学功能进行简要评述[19].

表4

根据瘦鼠和重鼠网络之间的差异连接测试,选出20个最具差异连接的基因。

基因d日p值基因d日p值
Anxa2公司0.1180Spp1型0.2320
安克萨50.11909430028I06瑞克0.1530
阿波姆0.1860AA960558型0.1530.001
F类70.1220地图4k40.1450.001
免疫球蛋白70.1570专业0.1260.001
伊提赫10.14902310046G15瑞克0.1580.001
Kng2(千克2)0.1680埃尔布30.1670.003
Scnn1a号0.1490Ppic公司0.0970.003
Slc22a7系列0.1540图巴10.1320.003
Slc43a1型0.1620Igfbp20.1820.004

这个列表上的前两个基因,Anxa2公司安克萨5,对annexin家族成员进行编码。钙依赖性磷脂结合蛋白家族的成员在细胞生长调节和信号转导途径中发挥作用。这种蛋白作为一种自分泌因子发挥作用,可增强破骨细胞的形成和骨吸收。

载脂蛋白M,也称为APOM公司是一种人类基因。该基因编码的蛋白质是一种载脂蛋白,是脂蛋白家族的成员。它被发现与高密度脂蛋白相关,在较小程度上与低密度脂蛋白和富含甘油三酯的脂蛋白相关。编码蛋白通过质膜分泌,但仍保持膜结合状态,参与脂质转运。

基因第7层启动凝血的外源性途径。在文献中,该基因已被测试与各种疾病的相关性,包括凝血障碍、肝细胞癌、心血管疾病、脑梗死、冠心病和糖尿病血管病。

这个清单上的第五个基因,免疫球蛋白7已在文献中测试与各种形式肿瘤的相关性。它被提议参与诸如负调控细胞增殖和调控细胞生长等过程。

我们使用了大卫[20]表中基因的功能聚类表4。4表中报告了以下两个功能簇表55根据浓缩分数确定(DAVID使用Fisher精确测试进行)。我们还对瘦鼠和重鼠的两个网络中这些功能类的差异连接性进行了(事后)测试。相应的p值小于10-3(表的最后一列表5)。5). 图22说明了得分超过0.5的基因对的两个功能基因簇的重小鼠网络的连通性。对于瘦小鼠网络,这些基因对之间没有这种联系。

表5

差异连接基因的功能聚类。

群集描述基因p值
血液凝固Anxa2公司,安克萨5,F类7,专业0
分泌到细胞周围的蛋白质APOM公司,Anxa2公司,Spp1型,免疫球蛋白7,伊提赫1,专业,第14a1列0
保存图片、插图等的外部文件。对象名称为1471-2105-11-95-2.jpg

鼠标数据的网络结构.表5中基因簇的重小鼠网络的连通性(针对具有|保存图片、插图等的外部文件。对象名为1471-2105-11-95-i3.gif| ≥ 0.5). 相反,对于瘦小鼠网络(此处未显示),这些基因对之间没有联系。

结论

研究两种条件(例如,生物过程的两个阶段)之间的网络结构是如何变化的,为潜在的生化途径提供了重要线索。我们称之为差异网络分析,它提供了进行这种探索性调查的正式统计测试。这通常与差异基因表达分析相结合,并提供了比通过两种条件之间差异表达的基因列表获得的更深入的理解。事实上,这样的列表可以用作筛选或选择步骤,在这两种条件下进一步探索这些基因的网络结构。虽然本文中给出的实际数据示例是一个固定时间的实验,但这些方法可以用于检查网络在两个不同的时间段内是否存在差异表示。然而,分析具有多个条件的动态网络是一个更为复杂的课题,有待进一步研究。

我们探索了在构建网络中一对基因之间关系强度的度量标准时使用连接性得分,以及这种强度如何从一种生物条件变化到另一种生物状态。使用适当的分数集对我们的方法进行了模拟研究。尽管测试统计的公式可以很容易地进行调整,以纳入其他关联或交互度量,但选择适当的连接性度量很重要。PLS分数在大多数情况下都很好。

虽然统计水平的精确校准存在问题,但使用近似p值控制水平的结果方法会产生合理的性能(根据经验证明的各种度量)。此外,这些方法在探索性分析中的实用性也通过实际数据应用得到了很好的证明。

为了获得更好的统计零分布近似值,还有进一步的理论工作要做。在这方面,开发适当的全局错误率控制统计调整是另一个有趣的问题。从本质上讲,所有现有的程序都依赖于多重统计检验的独立性(或某种形式的弱依赖性),这对于检测基因对的相互作用分数的变化来说是不满足的。这些问题将在其他地方进行调查。

方法

为了描述我们的统计测试,需要使用一些符号。我们假设在两种不同的生物条件下对同一组基因进行了两次微阵列研究。这里,术语“生物条件”是非常通用的,根据应用可能对应于,例如,受试者类型(例如,男性与女性)、组织类型(正常与癌症)或时间进程实验中的时间指数。我们假设每个研究的数据(标准化和通常为对数转换的基因表达值)可以用N个×第页矩阵X(X)哪里N个是研究中的受试者数量第页是指研究中的基因数量(或者更恰当地说,是探针数量)。通常,某些形式的分数是根据表达式矩阵构建的X(X)对于每对基因来衡量它们之间的相互作用,通过连接相应得分超过阈值的基因对来构建网络。

一对基因之间的连接性得分

本节中描述的每个统计测试都基于连接性得分保存图片、插图等的外部文件。对象名为1471-2105-11-95-i4.gifth和k个th基因来源X(X).让x个是的(居中和缩放)表达式向量th基因。在这里,我们描述了一些可用于进行统计测试的连接性得分选择。所有这些衡量基因间关联/相互作用的方法都已在文献中提出,用于重建遗传网络。

相关性

皮尔逊相关系数是一种广泛使用的衡量两个基因之间关联强度的简单方法。基因之间的相关性和基因k个由提供

方程式图像

这给出了一个基因表达值与另一个基因的简单线性回归模型的系数,假设两者都是标准化的。有关更详细的讨论,请参阅[21]以及其中的参考文献。

偏相关

基于偏相关(PC)的网络构建分数由[22]. 偏相关与标准相关矩阵的逆相关P(P)可以使用以下关系计算

方程式图像

方程式图像

作者还提出了协方差矩阵不为正定(因而不可逆)时的修正,即N个<第页他们使用穆尔-彭罗斯伪逆序列,然后装袋。然而,在随后的一篇论文中[23],他们提出了一个协方差收缩估计量,由

方程式图像

哪里保存图片、插图等的外部文件。对象名为1471-2105-11-95-i9.gif表示协方差矩阵的估计P(P),T型表示复杂度较低的约束收缩目标协方差矩阵(假设某种形式的结构,如等方差、常数相关等),以及λ是平衡两个估计的偏差-方差权衡的收缩系数保存图片、插图等的外部文件。对象名为1471-2105-11-95-i9.gif(以相对较大的方差为特征)和T型(由于强制约束而产生偏差)。

基于偏最小二乘法的分数

对于一般的复杂数据集,我们早期工作中引入的关联/交互分数[6]往往工作得很好。这些分数的基础是每个基因表达载体与其余基因表达载体的偏最小二乘(PLS)拟合,以便

方程式图像
(1)

哪里v(v),表示PLS术语的数量保存图片、插图等的外部文件。对象名为1471-2105-11-95-i11.gif,是用户可选择的调谐参数和PLS组件保存图片、插图等的外部文件。对象名为1471-2105-11-95-i11.gif是以下各项的线性组合x个1,⋯,x个-1,x个+1个,⋯,x个第页通过以下算法获得:

(i) 设置Ş=1和X(X)(1)=========================================================[x个1,⋯,x个-1,x个+1个,⋯,x个第页].

(ii)计算

方程式图像

哪里

方程式图像

(iii)增加ℓ + 1、计算收缩设计矩阵

方程式图像

和whileℓ ≤v(v),转至步骤(i)。

它在[6]那个

方程式图像

是一对基因之间总关联/交互作用的适当(加权)度量k个,其中保存图片、插图等的外部文件。对象名为1471-2105-11-95-i16.gif是模型(1)中系数的最小二乘估计。有关这些分数的更多详细信息,请参阅[6]. 有关偏最小二乘回归的更多背景信息,我们建议读者参考[2-5]以及其中的参考文献。根据PLS回归系数的乘积定义PLS得分的另一种方法如所述[24].

何时N个第页很大,基于PLS分数的统计测试计算量很大。对于“结果与讨论”部分中描述的鼠标数据,在采用Intel Xeon 3.20 GHz处理器的Linux机器上,使用PLS分数和1000个排列进行的每个测试的计算时间大约为40分钟。本节中描述的每个统计测试都是在R中实现的[25]在补充网站上免费提供软件包[14].

基因模块

生物网络通常具有模块化结构,其中基因簇通过短路径连接,而属于不同簇的基因没有连接,表明它们之间没有(或弱)关联/交互作用。在一项非监督研究中,网络分析的目标之一是识别所有这些模块。这些大多是通过视觉方式完成的。然而,这里提供了构建网络后模块的数学上方便的定义。这种方法有助于构建测试,以调查两个网络中的整体模块结构是否不同。

为此,我们使用以下关于关联/交互网络的基因模块的数学定义。我们想指出,“模块”一词过去曾被不同的作者在不同的上下文中使用(参见[26]以及其中的参考)。在我们的定义中,最小尺寸参数阈值连接性参数ϵ是用户可选择的,因此该方法适合于探索性分析。有了这两个参数将被称为模块,如果(f)= |ℱ|, 基数ℱ,至少是而且,只要有两个基因(f)1(f)2英寸ℱ, 它们通过基因路径连接在一起ℱ,(f)1=1,⋯,k个=(f)2,对于一些k个≥2,使得路径上每对的关联/交互得分至少为ϵ,即。,保存图片、插图等的外部文件。对象名为1471-2105-11-95-i17.gif≥ϵ,对于所有1≤j个k个- 1. 此外,这样的集合必须是最大的集合,以便对于任何基因ℱ, |玻璃纤维|<所有人(f)英寸ℱ.

两个网络中差分模块结构的测试

假设已经构建了两个网络,例如,使用控件(X(X)1)和治疗(X(X)2)样本。给出两个调谐参数的选择以及ϵ,我们可以确定两个网络中所有模块(如上所述)的集合。保存图片、插图等的外部文件。对象名称为1471-2105-11-95-i18.gif至少是大小不同的模块和网络连接k个,用于k个= 1, 2. 保存图片、插图等的外部文件。对象名为1471-2105-11-95-i19.gif是两个网络中某个模块中存在的所有基因的集合。换句话说,保存图片、插图等的外部文件。对象名为1471-2105-11-95-i20.gif.

给一个基因保存图片、插图等的外部文件。对象名为1471-2105-11-95-i19.gif,让千焦()成为网络中的模块k个含有基因的,用于k个= 1, 2. 以下非重叠统计比例反映了两个网络中模块结构的差异程度:

方程式图像

其中为空和(例如,当保存图片、插图等的外部文件。对象名为1471-2105-11-95-i19.gif=ϕ)将被解释为0。请注意,它位于0和1之间,其中0表示两个网络中的模块结构相同,1表示两个网中的模块没有共同点。

还要注意,根据我们的定义,模块必然是不相交的,因此测试统计保存图片、插图等的外部文件。对象名为1471-2105-11-95-i1.gif定义明确。如果使用模块的替代定义,其中允许一个基因属于多个模块,则需要修改统计数据。例如,我们可以在保存图片、插图等的外部文件。对象名为1471-2105-11-95-i1.gif通过包含基因的模块对的相似数量的平均值.进一步考虑模块的替代定义超出了本文的范围。

为了控制1类统计错误率,需要使用以下置换方案计算p值。X(X)k个成为(N个k个×第页)的表达式值矩阵N个k个样品(副本)第页基因,第页= |保存图片、插图等的外部文件。对象名为1471-2105-11-95-i2.gif|,用于k个= 1, 2. 保存图片、插图等的外部文件。对象名为1471-2105-11-95-i22.gif成为(N个1+N个2) ×第页矩阵,其中第一个N个1第行,共行保存图片、插图等的外部文件。对象名为1471-2105-11-95-i22.gifN个1行,共行X(X)1和最后一个N个2行,共行保存图片、插图等的外部文件。对象名为1471-2105-11-95-i22.gifN个2行,共行X(X)2.排列保存图片、插图等的外部文件。对象名为1471-2105-11-95-i22.gif使用置换π得到置换矩阵保存图片、插图等的外部文件。对象名为1471-2105-11-95-i23.gif,并让保存图片、插图等的外部文件。对象名为1471-2105-11-95-i24.gif成为第一个N个1行,共行保存图片、插图等的外部文件。对象名为1471-2105-11-95-i23.gif保存图片、插图等的外部文件。对象名为1471-2105-11-95-i25.gif是剩下的N个2第行,共行保存图片、插图等的外部文件。对象名为1471-2105-11-95-i23.gif.对于每个排列π,计算表示的成对得分集合保存图片、插图等的外部文件。对象名称为1471-2105-11-95-i26.gif,k个=1,2,使用保存图片、插图等的外部文件。对象名为1471-2105-11-95-i24.gif保存图片、插图等的外部文件。对象名为1471-2105-11-95-i25.gif数据,并将置换数据的测试统计量计算为

方程式图像

哪里千焦(π)是两个网络中基于置换数据的不同模块,保存图片、插图等的外部文件。对象名为1471-2105-11-95-i28.gif换句话说,我们排列样本的标签,并对每个排列再次执行分析。

计算对应于的MDA统计信息后P(P)从所有排列集合中随机选择的排列,我们可以得到一个近似值第页-通过计算实现价值

方程式图像

金额被接管P(P)随机排列π在两个网络的模块结构相同的零假设下,基于此置换方案的假设检验具有正确的大小。

一类基因的差异连接性测试

在监督分析中,我们可能有兴趣了解一类特定的“感兴趣”基因的网络结构ℱ, 例如,那些与特定生物功能相对应的网络已经从一个网络变为另一个网络。在无人监督的情况下ℱ, 这可能是所有基因的过滤子集保存图片、插图等的外部文件。对象名为1471-2105-11-95-i2.gif这些人表示,对照组和治疗组样本之间的变化至少为5倍。另一种选择可能是其中一个网络的模块。

我们测量了通过以下平均绝对距离(MDA)统计

方程式图像

哪里保存图片、插图等的外部文件。对象名为1471-2105-11-95-i31.gif保存图片、插图等的外部文件。对象名为1471-2105-11-95-i32.gif是基因对之间的相互作用分数(,j个)分别在网络1和2中,每个网络使用该特定网络的基因表达数据如(2)中所构建。在使用该测量作为测试统计时如果Δ的值(ℱ) 足够大。该度量基于广泛使用的L(左)1距离。尽管在本文所考虑的一般情况下没有最优理论,但与其他基于距离和熵的度量相比,该度量是有利的。

Δ对应的p值(ℱ) 可以像以前一样通过随机排列进行计算

方程式图像

金额被接管的地方P(P)随机选择排列π

方程式图像

单个基因的差异连接性测试

单个基因连接性的差异在两个网络中,可以通过以下MDA统计进行评估

方程式图像

其中总和是网络中所有剩余基因的总和保存图片、插图等的外部文件。对象名为1471-2105-11-95-i36.gif是基因对之间的连接性得分(,g’)在网络中k个= 1, 2. 通过排列合并的数据列并使用排列的数据重建两个网络,然后计算每对网络的统计值,可以计算每个基因的该统计值的p值。注意,所有基因的p值可以使用相同的随机排列集同时计算。

作者的贡献

RG进行了计算并开发了一些方法。SoD开发了大多数方法并计划了手稿。SuD策划了这项研究并提供了生物学评论。这三位作者都为手稿的撰写做出了贡献。所有作者阅读并批准了最终手稿。

致谢

本研究部分由国家科学基金会(DMS-0706965授予Somnath Datta,DMS-0805559授予Susmta Datta)、国家卫生研究院(NCI-NIH,CA133844号和NIEHS-NIH,1P30ES014443至Susmita Datta)。

工具书类

  • Juric D、Lacayo NJ、Ramsey MC、Racevskis J、Wiernik PH、Rowe JM、Goldstone AH、O'Dwyer PJ、Paietta E、Sikic BI。BCR-ABL阳性和阴性成人急性淋巴细胞白血病的差异基因表达模式和相互作用网络。临床肿瘤学杂志。2007;25:1341–1349. doi:10.1200/JCO.2006.09.3534。[公共医学] [交叉参考][谷歌学者]
  • 棕色P。测量、回归和校准。纽约:牛津大学;1993[谷歌学者]
  • Datta S.探索基因表达的关系:偏最小二乘法。基因表达。2001;9:249–255. [PMC免费文章][公共医学][谷歌学者]
  • Stone B,Brooks RJ。连续回归:交叉验证的顺序构建预测,包括普通最小二乘、偏最小二乘和主成分回归。英国皇家统计学会期刊B辑。1990;52:237–269. [谷歌学者]
  • Wold S、Martens H、Wold H.In:数学讲义:矩阵铅笔。Ruhe A,Kägström B,编辑。海德堡,斯普林格·弗拉格;1983年,用PLS方法解决了化学中的多元校正问题;第286-293页。[谷歌学者]
  • Pihur V、Datta S和Datta S.从微阵列数据重建遗传关联网络:偏最小二乘法。生物信息学。2008;24:561–568. doi:10.1093/bioinformatics/btm640。[公共医学] [交叉参考][谷歌学者]
  • Weckwerth W、Loureiro ME、Wenzel K、Fiehn O。差异代谢网络揭示了沉默植物表型的影响。美国国家科学院院刊。2004;101:7809–7814. doi:10.1073/pnas.0303415101。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Fuller TF,A G,Aten JE,Drake TA,Lusis AJ,Horvath S.加权基因表达网络分析策略应用于小鼠体重。哺乳动物基因组。2007;18:463–472. doi:10.1007/s00335-007-9043-3。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Fuite J、Vernon SD、Broderick G。慢性疲劳综合征的神经内分泌和免疫网络重建:探索性分析。基因组学。2008;92:393–399. doi:10.1016/j.yge2008.08.008。[公共医学] [交叉参考][谷歌学者]
  • Margolin AA、Nemenman I、Basso K、Wiggins C、Stolovitzky G、Favrea RD、Califano A.ARACNE:哺乳动物细胞环境中基因调控网络重建的算法。BMC生物信息学。2006;7(补充1):S7。doi:10.1186/1471-2105-7-S1-S7。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Xiong M,Feghali-Bostwick CA,Arnett FC,Zhou X.复杂疾病遗传研究的系统生物学方法。FEBS信函。2006;579:5325–5332. doi:10.1016/j.febslet.2005.08.058。[公共医学] [交叉参考][谷歌学者]
  • Bulcke T Van den、Van Leemput K、Naudts B、Van Remortel P、Ma H、Verschoren A、De Moor B、Marchal K.Syntren:用于设计和分析结构学习算法的合成基因表达数据生成器。BMC生物信息学。2006;7:43.网址:10.1186/1471-2105-7-43。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Shannon P、Markiel A、Ozier O、Baliga NS、Wang JT、Ramage D、Amin N、Schwikowski B、Ideker T.Cytoscape:生物分子相互作用网络集成模型的软件环境。基因组研究。2003;13:2498–2504. doi:10.1101/gr.1239303。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • DNA补充网站。http://www.somnathdatta.org/DNA/supp.htm
  • Benjamini Y,Hochberg Y。控制错误发现率:一种实用且强大的多重测试方法。英国皇家统计学会期刊B辑。1995;57:289–300. [谷歌学者]
  • Efron B.大范围同步假设检验:无效假设的选择。美国统计协会杂志。2004;99:96–104. doi:10.1198/0162145000000089。[交叉参考][谷歌学者]
  • Storey JD公司。阳性错误发现率:贝叶斯解释和q值。统计年鉴。2003;31:2013–2035. doi:10.1214/aos/1074290335。[交叉参考][谷歌学者]
  • Strimmer K.错误发现率估计的统一方法。BMC生物信息学。2008;9:303.网址:10.1186/1471-2105-9-303。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
  • Entrez基因。http://www.ncbi.nlm.nih.gov/sites/entrez?db=gene
  • Dennis G、Sherman BT、Hosack DA、Yang J、Lane HC、Lempicki RA。DAVID:用于注释、可视化和集成发现的数据库。基因组生物学。2003;4:R60.doi:10.1186/gb-2003-4-9-R60。[公共医学] [交叉参考][谷歌学者]
  • Hastie T、Tibshirani R、Friedman J。统计学习要素:数据挖掘、推断和预测。纽约:Springer;2001[谷歌学者]
  • Schäfer J,Strimmer K。推断大规模基因关联网络的经验贝叶斯方法。生物信息学。2005;21:754–764. doi:10.1093/bioinformatics/bti062。[公共医学] [交叉参考][谷歌学者]
  • Schäfer J,Strimmer K。大规模协方差矩阵估计的收缩方法及其对功能基因组学的影响。统计学在遗传学和分子生物学中的应用。2005;4:32.doi:10.2202/1544-6115.1175。[公共医学] [交叉参考][谷歌学者]
  • Tenenhaus A、Guillemont V、Gidrol X、Frouin V。基于PLS回归的偏相关正则化估计从微阵列数据中获得基因关联网络。IEEE/ACM计算生物学和生物信息学汇刊。新闻界。[公共医学]
  • R。http://www.r-project.org
  • Wang X,Dalkic E,Wu M,Chan C.基因模块级分析:网络和动力学识别。生物技术的当前观点。2008;19:482–491. doi:10.1016/j.copbio.2008.07.011。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自BMC生物信息学由提供BMC公司