跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
耶鲁生物医学杂志。2012年9月;85(3):339–345。
2012年9月25日在线发布。
预防性维修识别码:PMC3447198型
采购管理信息:23012582
重点:在生物信息学方面自我教育

癌症基因组网络的系统解密

摘要

当细胞中的生长调节基因受损时,它可能会癌变。过去十年的技术进步使直接或间接表征这些细胞的整个基因组测量DNA变化。进行了补充分析,以了解生成的大量数据。这些分析中的绝大多数是开发用于构建基因之间的交互网络,主要来自,表达式数组数据。我们回顾了现有的技术和分析在过去十年中发展起来的。我们进一步认为,随着癌症基因组学的发展从单基因验证到基因网络推断,必须进行新的分析针对不同的技术平台开发。

关键词:基因网络,推理,微阵列,rna-seq,癌症

介绍

癌症是不受控制的加速细胞生长全世界大约13%的死亡人数[1]. 在过去的半个世纪里,我们对癌症的理解发展已从环境因素演变为遗传因素[2,]. 虽然这可能是两者的结合[4,5],过去三十年的许多研究都集中在基因方面常见病/常见变异假说的倾向[6,7]. 也就是说,疾病(癌症)是由一组常见的人群中可能跨越多个基因座的等位基因。同时某些等位基因的易感性导致癌症[8],全身随机体细胞突变没有遗传倾向的生物体的寿命也可能导致类似的结果结果。无论哪种情况,基因组不稳定性都是癌症的特征[6],导致躯体化突变包括单核苷酸多态性(SNP)、插入和缺失DNA的大小片段、染色体易位、反转和其他由断裂和重新连接的DNA、表观遗传修饰引起的结构重排(通常是染色质修饰),以及从其他来源获取DNA,如人乳头瘤病毒感染[9],其中所有这些都可能导致异常表达谱或蛋白质功能改变,因为氨基酸替代。

个体一生中获得的大多数突变可能是良性的;然而,当一个突变改变了一个基因或一个基因的表达时生长,恶性肿瘤出现。生长中的肿瘤中的细胞是原始细胞,其驱动因子或一组驱动因子基因启动了膨胀生长。一个恶性肿瘤反映了达尔文最初描述的选择性过程一个有选择的过程,奖励那些不受约束地成长和扩张的人。在最后十年来,人们开始尝试了解这些突变是如何导致癌症的通过许多“微”技术的发展。这些包括使用显微镜、生物化学和细胞生物学技术,以及先进的基于基因组的工具,过去十年重点关注后者[10].

由于基因调节细胞的生长,这是理解癌症的自然途径是为了确定“哪些基因出了问题?”在提出这个问题时回答这些问题的技术还没有很好的发展。因此,基于基因组工具就是出于这种需要而产生的。Southern blotting,使用寡核苷酸探针杂交与微阵列的发展芯片,一种带有数千个与特定基因对应的嵌入式探针的芯片,led随着基因数量的大量增加,人们可以同时进行研究。在过去的十年里,两种类型的阵列技术在我们的了解癌细胞与正常细胞的区别&一种测量基因表达和其他基因拷贝数。癌细胞病灶的表达分析通过测量样本肿瘤中低/高表达mRNA来研究基因调控,而第二个重点是通过复制和删除DNA。这两种技术都有各自的成功和困难。对于例如,阵列比较基因组杂交(aCGH)数据或拷贝数数据,明确告知基因组的哪些区域已被改变。然而,它是仍不确定改变区域内哪些特定基因异常表达。此外,表达分析可以指定低/过表达,但不告知因果分子机制潜在的基因表达变化。

2005年,基于桑格测序的概念,而非微阵列杂交,测序感兴趣的DNA成为基因组中的下一代发现技术[11-15]. 下一代测序(NGS)是使用参考库对DNA样本进行大规模测序的能力并行容量、革命性的样本分辨率和给那些样品排序[12].虽然成本最初禁止该技术广泛使用,但现在NGS比微阵列稍贵,在未来5个月内可能会价格相似[16]. NGS公司由于多种原因,技术是对微阵列的改进[17]. 第一,微阵列技术要求先验的感兴趣基因的知识,介绍探测偏差,而NGS技术没有。其次,微阵列片段可能交叉杂交到错误的探针,在信号中引入噪声,而NGS技术依赖于测序,测序计算单个核苷酸。因此通过这种单碱基对的解析,NGS技术可以识别点突变在癌症中[18,19]. 最后,NGS需要毫微克的材料,而微阵列更多地依赖数量级,增加了对PCR的依赖,因此,PCR偏差对结果有较大影响。大多数微阵列技术现在有合适的NGS类似物,例如RNA-seq的表达阵列[20]和aCGH至CNV-seq[21]是其中的一部分。然而,应该注意的是,虽然NGS可能会取代基于阵列的技术,目前可用的样品数量仍然不足多种类型的调查。因此,在收集到足够的NGS样品之前,仍然需要微阵列。

在微阵列或NGS技术之前,研究人员专注于单基因假设(图1A). 虽然这是一个彻底的癌症生物学的系统科学方法,由于很少基因一次被调查,是有偏见的,癌症经常被模拟用一个生物模型。已经采取了其他步骤来改进这种类型的通过RNA干扰进行询问击倒“mRNA转录本[22]. 虽然这些扫描允许许多基因一旦被问及,仍然有必要定义一组基因以调查什么类型的组织,在什么条件下。

保存图片、插图等的外部文件。对象名为yjbm_85_3_339_g01.jpg

一个显示了调查假设基因的典型过程互动。提出假设,进行实验,然后得出结果获得。B类显示了一个典型的过程,其中微阵列提供有关假设网络的信息。在许多全基因组阵列创建后,数据以某种算法的方式收集在一起(讨论在文本中)和(a)相互作用网络被推断出来。这些网络可以然后建议进行生物验证。基因关系网络根据以p53为网络中心的精选蛋白质数据库生成[43].

从一个角度来看,这些方法似乎可以通过从基因组癌开始,建议多个候选基因进行验证数据(图1B)也就是说,让表达或拷贝数告诉我们哪些基因在相互作用。确实,当前技术决定了成千上万个基因的顺序,因此需要扩增表达异常或拷贝数的基因由致病突变引起的。然而,由于细胞中的随机波动,因此,必须使用大样本量调查这些基因。由于使用了集体样本,概率方法必须用于识别感兴趣的基因。然而,只需识别兴趣不传递途径,也不一定产生信息癌症模型。癌症生物学的主要目标是将DNA改变映射到基因的致病功能改变。理解因果关系的一种方法是看在相互作用的基因网络中,即表达影响其他基因的基因。然而,如何以公正的方式发现集体活性基因并不是显而易见。因此,我们还必须以系统的、定义明确的数学方式,放大网络使用适当的模型。幸运的是,概率网络模型针对这些任务进行了优化。派生的来自建模和基因组数据的网络可以提高对基因的理解癌症进展中的相互作用,有助于将致病突变与疾病联系起来。

话题

统计工具:是否创建了所有网络识别工具相等?

在单个阵列或完整基因组上配备大量探针从NGS技术库中,整个基因组现在可以在一个实验。在创造癌症革命的同时,基因组技术仍然在数据分析中遇到困难[23-25]. 核心问题包括噪音和测试过多的假设。因为大多数基因都不是基因在细胞中异常表达时,其健康状况会发生波动稳态平均值。因此,每个基因都有一个可变的表达值范围可以是任意随机值。如果我们不小心,可能会错误地将与表达的偏差很大,即使表达只是癌症样本的波动。生物学家试图缓解这种情况增加技术复制数量,限制技术错误以及生物复制的增加减少了“乘客”基因——改变了的基因,但不是癌症的驱动因素。

尽管做出了这些努力,仍然很难区分变化和正常的统计波动。例如,假设一个基因是怀疑受到监管。表达平均值来自生物学癌症复制品和健康复制品。这些方法可以进行比较使用t检验,假设t统计量遵循t分布。如果我们的测量值有显著差异,然后t-统计量将位于t-分布的远尾,返回a小p值-测量观测值的极端程度[26]. 这个问题更进一步当我们测试数以万计的基因,其中有更大的出现较大统计波动的可能性。我们需要在以下方面更加严格我们称之为与正常统计数据相反的显著表达变化波动。通常,使用例如Bonferonni校正。然后,这归结为筛选出什么是基因重要的是,什么基因不是,你的分析表明什么基因是重要的但事实并非如此。最后三个被称为“假阳性”通过使用假象可以进一步改进调查确定“肯定”发现为真的可能性的发现率积极的(真实的结果)[27,28].

通常,癌症样本中候选基因的识别不足以建立一个癌症模型,因此有时我们必须尝试对样本进行表征在某种程度上基于测量的基因组改变。一种方法完成这项任务是通过聚类分析,例如层次分析聚类,用于将表达相似的基因分组[29],这通常会导致发现肿瘤亚型。这些类型的调查定义了代表“距离”基因表达谱的相似性及其分组一起。这里的问题是,出现了什么样的基因表达模式它们在样本中是否一致?这些类型的集群被称为无监督学习的分析通常不能说明为什么基因集群;然而,它可以推断出原因。其他时间,使使用表达式数据进行预测;例如,监督学习,利用大型数据集“训练”模型,如随机森林模型[30],人造神经网络[31]、和支持向量机[32],然后进行预测。

虽然这些分析有助于识别有趣的基因,收集信息,以及做出预测,他们不会构建网络相互作用基因。在这种情况下,“相互作用”包括化学、合成和通过蛋白质和其他因素间接调控一个基因对另一个基因的调控作为非编码RNA。在这些分析的基础上,人们希望可以开始来自全基因组实验,并让汇总结果告知哪些基因在网络中交互,而不仅仅是在网络中关联。重要的是这里的区别是相互作用与相关性.相关性仅描述基因之间的统计关系,返回一个仅通过对模型分布进行抽样得到信息的统计数据,而交互返回模型分布本身(注意:我们显式定义交互)。因此设计了概率模型使用例如贝叶斯网络来构建基因网络[33],信息理论模型[34],确定性模型[35]、和稀疏网络方法[36,37]. 所有这些模型都在以某种方式,尝试构建或帮助构建图形,即抽象连接顶点(通常是基因)和边(一种相互作用在这些基因之间)。每种方法都有自己的优点和精度和计算时间方面的缺点,以及每种方法调用它自己对交互本质的一组假设[38]. 例如,确定性模型通常称为ODE(常微分方程式)以相对简单的方式显式建模交互作用方程,没有噪音,但必须适合大量生物通常未知的参数。信息论模型,而成功识别癌症中的转录因子[39],无法处理中的循环网络和遭受来自间接交互的噪音从系统中删除信息。贝叶斯网络虽然成功,但通常计算成本很高。

物理方法……倒退

物理学家传统上通过编造数学模型,同时确保实验一致。例如,磁性力可以用粒子之间建立的数学模型来表示通常可以用能量或它们之间的相互作用来表示粒子。在处理统计量时,这些相互作用纳入概率模型的框架,该模型定义了处于特定状态。例如,处于状态的概率粒子1向上和粒子2向下是相互作用的函数在两个粒子之间。最近,物理学家对逆问题,即使用实验数据对典型的交互作用先验的定义。因此,回到遗传学家,而不是定义相互作用并检查结果改变基因状态的统计动力学,我们使用实验处于特定表达式或拷贝数状态的概率例如,基因1被删除,基因2被扩增,以确定相互作用基因之间。

如Lezon等人所示[40],可以采用此方法确定显式基因相互作用与统计测量数量之间的关系,例如皮尔逊相关性。巧合的是,概率模型与普通的自旋玻璃或伊辛系统物理学家已经研究了几十年。Lezon等人成功地将基因比作相互作用的粒子表明基因相互作用不等于表达协方差矩阵通常根据表达式技术计算,但等于协方差矩阵的逆矩阵。乍一看,这可能令人惊讶,但这些结果证明了一个事实,即补充统计信息的算法基因相互作用的相关性是不完整的,否则,基因相互作用将等于协方差矩阵。

幸运的是,这种方法不会像一些其他方法可以提供通常会提供的显式力先验的根据测量数据定义基因之间的关系,可以推断基因之间的相互作用很大,即使这些基因相关性很低[41],它可以是通过使用降维算法,如James-Stein收缩估计器和图形套索[36,37]. 然而,这种方法的一个困难是修改后,不生成有向图(谁导致谁未知)贝叶斯网络可以,例如BANJO[33]. 然而,最终发现的任何底层网络只有通过进一步的实验才能验证强相互作用(图1),蛋白质的使用交互数据库、路径查询和利用其他基于基因组的技术。

结论

从现有数据构建基因网络是一种试图填充的自下而上方法在差距和了解基因关系。虽然许多网络算法计算基因之间的统计相关性,通常不描述直接因果关系基因相互作用,这是我们希望捕捉的明确的生物学模型。改进这些计算方法可能是反向工程基因网络,在这里我们强调了一些有前景的借用统计物理学概念的方法。此外,由于不同的生物化学基因组技术代表不同可观察性,例如ChIP-seq[42],将其与其他可测量值结合起来可能会导致降维,改善候选基因假阳性并减少基因相互作用网络中的噪声。最后,其他非基因组技术,例如蛋白质相互作用[43]和路径[44]数据库,已被整理,可用于补充这些调查并验证发现的网络。它是癌症生物学希望这些数据可以整合成一个完整的模型定义癌症基因组。

缩写

苏格兰民族党单核苷酸多态性
aCGH公司阵列比较基因组杂交
NGS公司下一代测序
常微分方程常微分方程

工具书类

  • 美国癌症协会。全球癌症事实与数据第2版。亚特兰大:美国癌症学会;2011[谷歌学者]
  • Doll R,Peto R。癌症的原因:可避免风险的定量评估今天美国癌症的发病率。美国国家癌症研究所。1981;66(6):1191–1308.[公共医学][谷歌学者]
  • 上世纪和下世纪的癌症流行病学十年。自然。2011;411(6835):390–395。[公共医学][谷歌学者]
  • Reich DE,Lander ES。关于人类疾病的等位基因谱。趋势Genet。2001;17(9):502–510.[公共医学][谷歌学者]
  • Wang WY、Barratt BJ、Clayton DG、Todd JA。全基因组关联研究:理论与实践担忧。Nat Rev基因。2005;6(2):109–118.[公共医学][谷歌学者]
  • Balmain A、Gray J、Ponder B。癌症的遗传学和基因组学。自然遗传学。2003;33(补充):238–244。[公共医学][谷歌学者]
  • Johnson GC,托德JA。复杂疾病绘图中的策略。当前操作基因开发。2000年;10(3):330–334.[公共医学][谷歌学者]
  • Malkin D、Li FP、Strong LC、Fraumeni JF Jr.、Nelson CE、Kim DH。等。乳腺癌家族综合征中的生殖系p53突变,肉瘤和其他肿瘤。科学。1990;250(4985):1233–1238.[公共医学][谷歌学者]
  • Talbot SJ,克劳福德DH。病毒和肿瘤——更新。《欧洲癌症杂志》。2004;40(13):1998–2005.[公共医学][谷歌学者]
  • RL营地、Neumeister V、Rimm DL。组织微阵列十年:发现和研究进展癌症生物标志物的验证。临床肿瘤学杂志。2008;26(4):5630–5637.[公共医学][谷歌学者]
  • Margulies M、Egholm M、Altman WE、Attiya S、Bader JS、Bemben LA等人。微加工高密度微晶体的基因组测序反应堆。自然。2005;437(7057):376–380. [PMC免费文章][公共医学][谷歌学者]
  • Mardis ER。下一代DNA测序方法。Annu Rev基因组学Hum Genet。2008;9:387–402.[公共医学][谷歌学者]
  • von Bubnoff A.下一代测序:比赛开始了。单元格。2008;132(5):721–723.[公共医学][谷歌学者]
  • 郭J,Yu L,Turro NJ,Ju J.使用新型合成法进行DNA测序的集成系统核苷酸类似物。Acc化学研究。2010;43(4):551–563. [PMC免费文章][公共医学][谷歌学者]
  • Metzker ML.测序技术——下一代。Nat Rev基因。2010;11(1):31–46.[公共医学][谷歌学者]
  • DNA测序成本:NHGRI大基因组数据排序程序。Genome.com[互联网]可从以下位置获得:www.genome.gov/sequencingcosts网站.
  • 赫德PJ,纳尔逊CJ。下一代测序与微阵列相比的优势表观遗传学研究。功能基因组蛋白质组简介。2009;8(3):174–183.[公共医学][谷歌学者]
  • Mardis ER、Ding L、Dooling DJ、Larson DE、McLellan MD、Chen K.等。急性髓细胞白血病测序发现的复发突变基因组。N英格兰医学杂志。2009;361(11):1058–1066. [PMC免费文章][公共医学][谷歌学者]
  • 丁磊、埃利斯·MJ、李·S、拉尔森·德、陈凯、沃利斯·JW。等。基底样乳腺癌转移和异种移植物。自然。2010;464(7291):999–1055. [PMC免费文章][公共医学][谷歌学者]
  • Wang Z,Gerstein M,Snyder M.RNA-Seq:转录组学的革命性工具。Nat Rev基因。2009;10(1):57–63. [PMC免费文章][公共医学][谷歌学者]
  • Xie C,Tammi MT.CNV-seq,一种检测拷贝数变化的新方法高通量测序。BMC生物信息学。2009;10:80。 [PMC免费文章][公共医学][谷歌学者]
  • Boutros M,Ahringer J.基因筛选的艺术与设计:RNA干扰。Nat Rev基因。2008;9(7):554–566.[公共医学][谷歌学者]
  • Begley CG,Ellis LM。药物开发:提高临床前癌症标准研究。自然。2012;483(7391):531–533.[公共医学][谷歌学者]
  • Dupuy A,Simon RM。已发表癌症微阵列研究的评论统计分析和报告的结果和指南。美国国家癌症研究所。2007;99(2):147–157.[公共医学][谷歌学者]
  • Upton GJ、Sanchez-Garillet O、Rowsell J、Arteaga-Salas JM、Graham NS、Stalteri MA等人。关于Affymetrix基因芯片中异常值的原因数据。功能基因组蛋白质组简介。2009;8(3):199–212.[公共医学][谷歌学者]
  • Shaffer JP。多重假设检验。精神病年度回顾。1995;46(1):561–584. [谷歌学者]
  • Benjamini Y,Hochberg Y。控制错误发现率:一种实用且强大的方法多重测试方法。J R统计师Soc B。1995;57(1):289–300. [谷歌学者]
  • Storey JD公司。错误发现率的直接方法。J R统计师Soc B。2002年;64(3):479–498. [谷歌学者]
  • Eisen MB、Spellman PT、Brown PO、Botstein D.全基因组表达的聚类分析和显示模式。美国国家科学院程序。1998;95(25):14863–14868. [PMC免费文章][公共医学][谷歌学者]
  • 布雷曼L.随机森林。机器学习。2001;45(1):5–32. [谷歌学者]
  • Marchevsky AM、Patel S、Wiley KJ、Stephenson MA、Gondo M、Brown RW等。人工神经网络和逻辑回归作为工具I期和II期非小细胞肺患者的生存预测癌症。中度病理学。1998;11(7):618.[公共医学][谷歌学者]
  • Golub TR、Slonim DK、Tamayo P、Huard C、Gaasenbeek M、Mesirov JP等人。癌症的分子分类:类别发现和类别通过基因表达监测进行预测。科学。1999;286(5439):531–537.[公共医学][谷歌学者]
  • Yu J,Smith VA,Wang PP,Hartemink AJ,Jarvis ED.贝叶斯网络推理在因果关系生成中的应用进展来自观测生物数据的网络。生物信息学。2004;20(18):3594–3603.[公共医学][谷歌学者]
  • Margolin AA、Nemenman I、Basso K、Wiggins C、Stolovitzky G、Dalla Favera R.等人。ARACNE:基因调控重构算法哺乳动物细胞环境中的网络。BMC生物信息学。2006;7(补充1):S7。 [PMC免费文章][公共医学][谷歌学者]
  • de Jong H.基因调控系统的建模和模拟:a文献综述。计算机生物学杂志。2002年;9(1):67–103.[公共医学][谷歌学者]
  • Cherepinsky V,Feng J,Rejali M,Mishra B.基于收缩率的聚类分析相似性度量微阵列数据。美国国家科学院程序。2003;100(17):9668–9673. [PMC免费文章][公共医学][谷歌学者]
  • Friedman J,Hastie T,Tibshirani R.稀疏逆协方差估计套索。生物统计学。2008;9(3):432–441. [PMC免费文章][公共医学][谷歌学者]
  • Bansal M、Belcastro V、Ambesi-Impiombato A、di Bernardo D。如何从表达中推断基因网络配置文件。分子系统生物学。2007;:78. [PMC免费文章][公共医学][谷歌学者]
  • Cadeiras M、von Bayern M、Sinha A、Shahzad K、Latif F、Lim WK。等.绘制排斥网络——一种系统生物学方法心脏候选基因的鉴定移植。细胞分子医学杂志。2011;15(4):949–956. [PMC免费文章][公共医学][谷歌学者]
  • Lezon TR、Banavar JR、Cieplak M、Maritan A、Fedoroff NV。利用熵最大化原理推断遗传基因表达模式的相互作用网络。美国国家科学院程序。2006;103(50):19033–19038. [PMC免费文章][公共医学][谷歌学者]
  • Schneidman E,Berry MJ 2nd,Segev R,Bialek W.弱的成对相关性意味着强相关网络神经群体中的状态。自然。2006;440(7087):1007–1012. [PMC免费文章][公共医学][谷歌学者]
  • 驻车PJ。ChIP-seq:成熟的优势和挑战技术。Nat Rev基因。2009;10(10):669–680. [PMC免费文章][公共医学][谷歌学者]
  • Jensen LJ、Kuhn M、Stark M、Chaffron S、Creevey C、Muller J.等人。STRING 8——蛋白质及其功能的全球观点630个生物体内的相互作用。核酸研究。2009;37(补充1):D412–D416。 [PMC免费文章][公共医学][谷歌学者]
  • Kanehisa M、Goto S、Sato Y、Furumichi M、Tanabe M.KEGG用于大规模分子的整合和解释数据集。核酸研究。2012;40(数据库问题):D109–D114。 [PMC免费文章][公共医学][谷歌学者]

文章来自耶鲁大学生物学与医学杂志由以下人员提供耶鲁大学生物学与医学杂志