了解疾病的遗传基础可以通过阐明药物靶点的相关生化途径和进行个性化风险评估,从而彻底改变医学1,2随着技术在过去一个世纪的发展,遗传学家不再局限于研究孟德尔疾病,他们可以处理复杂的表型。由此发现的关联已经从主要位于编码区的个体变异扩大到更丰富的疾病结构,包括非编码变异、更广泛的等位基因谱、许多位点和弱效应大小(). 在过去几年里,新一波技术进步加速了向处理更复杂的遗传结构和揭示其背后的分子机制的转变。
表1
建筑 | 笔记 | 计算和调控基因组学的作用 |
---|
经典单基因性状 | 最早的人类基因特征是那些导致先天代谢错误的基因,加罗德在20世纪初证明这些基因遵循孟德尔遗传140,141人类疾病基因的现代研究始于克隆具有孟德尔遗传模式的高外显率单基因疾病的基因座,如苯丙酮尿症和囊性纤维化140,142,143,这最符合经典的映射方法。与单基因性状相关的变异也是20世纪80年代通过定位克隆首次发现的,一个经典的成功是CFTR公司导致大多数囊性纤维化病例的突变三,142,143. | 由于潜在突变倾向于改变蛋白质结构,预测其影响的计算挑战在于分子建模和结构研究。 |
具有多个疾病等位基因的单基因性状 | 即使是单基因疾病,单个风险等位基因在受影响个体中占主导地位的程度也有很大差异(等位基因异质性)。在光谱的一端,F508del等位基因立方英尺在约70%的囊性纤维化患者中发现144尽管已知数千个等位基因。相反,苯丙酮尿症是极不均匀的,具有不同的多环芳烃不同人群受影响个体中占优势的等位基因145。这类突变中的大多数是错义或无意义编码突变三. | 如上所述,对于蛋白质编码突变,相关的问题是预测氨基酸替代的生化效应。在等位基因异质性的情况下,观察到的替代可能太多,无法通过实验表征,因此需要计算模型(). |
具有独立贡献的多个位点(“寡基因”) | 许多变异增加或减少了疾病的风险,最终表型取决于许多位点的基因型(位点异质性)。通过连锁分析得到深入研究的一个例子是Hirschprung病,这是一种具有低性别依赖外显率的复杂疾病,至少涉及10个基因,包括酪氨酸激酶受体转塔和基因GDNF公司对配体进行编码146有趣的是,主要易感基因中最常见的变异房地产税是非编码的,是增强子中的单核苷酸多态性(SNP)。编码和非编码变体通常涉及一个或少数明确定义的路径。 | 寡聚遗传性状,其中少数特征良好的位点有助于表型,可能是观察和量化上位性相互作用的最佳机会。在涉及非编码区的情况下,这些单倍型可以在功能上进行映射,以分离最可能的因果变异(). |
大量变异共同对复杂性状的贡献较弱 | 关于复杂性状的GWAS也发现了许多弱贡献基因座。例如,最近对几项身高研究进行的荟萃分析发现,180个位点达到全基因组意义15,103,139,富含已知的骨骼生长缺陷的近基因。在身高研究和精神疾病研究中,已经表明多基因关联延伸到数千个常见变异,远远超出基因组范围内的重要位点135,139 | 与单基因性状下的变异相比,复杂性状中的变异绝大多数与错义或无意义编码突变无关,这表明它们的机制主要是调控性的11大组调控变体可与参考注释结合,以阐明相关途径和组织(,). |
调节“分子性状”的变体对生物体表型或适应度的影响未知 | 快速发现的变异直接影响分子数量性状,如基因表达或染色质状态,其中许多可能对生物体的表型或适应性没有影响38. | 需要QTL和等位基因特异性分析来表征这些变异(). 由于迄今为止所进行的研究仅对变异可能产生影响的一小部分细胞类型进行取样,因此变异表达相关性具有高度组织特异性147,可能仍有许多此类监管变体有待发现。 |
导致未知分子表型和对生物体表型或适合度无影响的变异 | 从适应性角度来看,大多数突变是中性的这一观点最初被提出时存在争议,现在已被广泛接受148–150. | 虽然很容易从遗传密码中计算出蛋白质编码突变的哪一部分会导致氨基酸改变,但对其他分子表型的类似估计则更具挑战性,需要在核苷酸水平上建立全面的调控模型。 |
私人和身体变异 | 生物体内的体细胞突变是癌症形成中常见的驱动突变151. | 个体变异和体细胞变异的解释()系统的监管注释也将极大地受益,因为它们可能会利用现有的监管途径,尽管它们受到细胞而非生物体的选择性压力。 |
在二十世纪早期,一些代谢紊乱被证明是遗传性和孟德尔遗传性的,后来的定位克隆允许识别许多这样的基因座,例如由人类在线孟德尔遗传数据库(OMIM)管理的基因座三,4从20世纪80年代开始,连锁分析被用于将家系性状的遗传与可通过限制性片段长度多态性(RFLP)分析分析的映射多态性标记的遗传相关联5,6然而,通过连锁分析绘制的区域必然很大,为后续关联研究、重新测序和功能分析克隆候选基因需要在人类基因组项目完成之前应用艰苦的分子技术7此外,复杂的表型不适合连锁,因为需要大量的样本来检测基因背景以上具有适度影响的位点8人类基因组的长单倍型结构,以及通过HapMap项目进行的系统定位9,允许将单核苷酸多态性(SNP)用作普通单倍型的标记,可以使用芯片技术进行基因分型。为无偏见的全基因组关联研究(GWAS)铺平了道路,以搜索无关个体10与复杂疾病和不同分子表型相关的常见变异(,).
四种下一代关联测试(a) 全基因组关联研究(GWAS)中进行了与生物体性状的遗传关联;在所示的位点上,G等位基因与疾病相关。GWAS发现的变异体的影响通过多层分子过程介导,其中一些也可以在全基因组范围内进行研究。(b) 可以使用分子性状而不是有机体性状,从而发现诸如表达数量性状位点(eQTL)等局部调控变体。在本例中,局部分子信号,如开放染色质区域,在个体间发生变化,并显示与T等位基因的存在共存;这种等位基因可能影响顺式-染色质的调控基序。(c) 单个细胞中的杂合位点可用于检测等位基因特异性效应;与在个体间发现的分子QTL不同,这些研究控制了反式遗传背景。在这个例子中,G等位基因不仅与该基因座上TF结合峰的存在有关,而且在杂合个体中,源自该基因座的ChIP-seq读码过度表达,表明TF特异性地与G等位蛋白结合。(d) 功能基因组学数据可以直接在病例和对照之间进行比较,以发现疾病的生物标记物,而不必将遗传原因归因于这些分子变化。事实上,这些生物标记物可能是由反式遗传因素、环境因素或疾病本身。
表2
分析类别 | 工具 | 笔记 |
---|
基因型和表型之间的全基因组关联(GWAS) | SNPTEST公司155 | 纳入插补 |
比姆-巴姆156 | 结合插补和关联概率的贝叶斯回归方法 |
EIGENSTRAT公司157 | 使用主成分分析对病例和对照之间的祖先差异建模 |
PLINK公司158 | 包括估算工具、人口分层控制和混合方法(如基于家庭的关联和基于人口的联系)的大型一揽子计划 |
基因型和分子性状之间的局部关联(例如eQTL) | eQTN浏览器159 | 基于TSS距离测试包含先验信息的贝叶斯层次模型 |
矩阵eQTL160 | 连续或分类基因型值与表达的快速关联测试 |
等位基因特异性表达和结合 | ChIP-SNP公司82 | 对于ChIP-ChIP数据 |
AlleleSeq系列161 | 对于ChIP-seq和RNA-seq数据 |
分子性状和表型之间的全基因组关联(例如,差异表达,EWAS) | 利马162 | 对于表达微阵列数据 |
边缘R163 | 对于RNA-seq数据 |
与连锁分析和测序相比,GWAS在同一位点的不同家族或个体中发生不同罕见突变的情况下作用较小(等位基因异质性)。然而,与家族研究相比,它们对复杂的多基因关联更为敏感,其中表型与跨不同基因座的许多弱贡献变异的联合效应有关(基因座异质性)。从这个意义上说,GWAS已经取得了巨大的成功,识别了数千个疾病相关位点以供进一步研究11揭示了克罗恩病、黄斑变性和2型糖尿病等疾病的先前未知机制2然而,对GWAS的追求也受到了批评(方框1)由于知识的结构,它一直在产生与高度渗透的孟德尔基因发现的决定论相关的知识2,12,13当前的紧张局势反映了20世纪初孟德尔学派(Mendelians)与生物测定学追随者高尔顿(Galton)之间的思想分歧,孟德尔学派将离散性状的遗传建模为由单个基因携带;R.A.Fisher对这些领域进行了调和,他提出数量性状的遗传力是由于许多基因的贡献,但影响很小14,15.
方框1
全基因组关联研究的潜力和局限性
尽管对GWAS提出了一些主要的批评,但对每一种批评的回应都可以指导未来的研究。
累积预测能力。通常,已发现的达到全基因组显著性的基因座对特定表型的加性预测能力较弱,这限制了它们目前对某些性状的临床相关性130–132然而,使用GWAS为复杂疾病发现的基因座进行风险预测通常与使用经典临床测试的结果类似,并且具有独特的特性,例如寿命的稳定性133联合使用数百或数千个弱贡献基因座的预测因子也被证明解释了比最初估计的更大比例的变异134,135。将这些发现纳入临床方案尚处于初级阶段,预计将趋于成熟。
影响未知的非编码变体。大多数基因座是非编码的,许多基因远离已发现的基因,并且由于连锁不平衡(LD),包含许多变体;因此,对于实验工作来说,它们并不能立即提供信息或进行生物化学处理。为非编码突变的有害性指定一个先验概率是一个挑战136为了应对这一挑战,通过ENCODE项目等系统性工作,正在快速注释非编码序列21和路线图表观基因组学绘图联盟22,并通过研究常见变异对全基因组分子表型的影响,如下所述。
罕见变异的检测。显著位点往往只能额外解释一小部分表型的狭义遗传力12这表明,罕见而非常见的变异可能是它们遗传的基础,而这只能通过全基因组测序或基于家族的研究来发现13对发现的共变异关联中的“隐性遗传力”提出了许多解释12稀有和常见变体的相对重要性是一个激烈争论的话题137从认为与常见变体的关联实际上是由长程LD中与大效应罕见变体的合成关联驱动的论点138弱效应的常见关联对遗传力的贡献远远超过统计显著性阈值139在许多双胞胎研究中,由于上位性被伪装成可加性,狭义遗传力可能被高估98.
再现性。GWAS有时不会在研究或人群中重复140这导致了误报和对新联想有效性的怀疑,尤其是当它们是非编码的时候。这可能部分是由于基因型的输入困难,这将受益于对人类常见变异的进一步了解,以及对生物体表型的定义不明确140,这可以从下面讨论的分子疾病生物标记物中受益。此外,虽然涉及的特定位点可能在不同人群中有所不同,但它们可能反映相同的潜在分子途径,因此调控注释可能在不同群体中更具重复性。专注于分子表型可以通过分离潜在的社会经济或其他环境因素来提高再现性,这些因素发生在分子表型的下游,并可能强烈影响生物体的表型。
在这篇综述中,我们讨论了通过GWAS和医学重测序发现的大量非编码疾病相关变体所带来的计算挑战和机遇。我们首先调查了可用的调控注释类型,包括来自功能基因组学和比较基因组学以及数量性状位点(QTL)和等位基因特异性事件的调控注释,以及这些注释用于解剖疾病相关单倍型以确定某个位点上最有希望的因果变异的方法。然后,我们讨论了这些调控注释在GWAS和等位基因谱的系统级分析中的作用,揭示了相关的细胞类型和调控机制。最后,我们提出了该领域面临的各种生物信息学障碍和计算挑战,例如发现上位性相互作用、分子和生物体表型之间的联系,以及必须从潜在敏感医学数据中挖掘的模式。
非编码基因组的系统注释
解释疾病相关基因座的分子机制可能是一个巨大的挑战。尽管蛋白质生物化学已被用来表征错义和无意义编码突变,而这些突变通常是单基因性状的基础,但在健康个体中发现功能丧失突变和罕见编码变异的频率16,17这表明我们的理解还远远不够完整。鉴于非编码功能的多样性、监管要素的不完整注释以及监管控制的潜在未知机制,非编码变体的解释挑战更大。几项开创性的研究通过揭示人类疾病的多种作用机制,包括转录、剪接和翻译水平,为所需的系统调控注释类型提供了一个模型().
表3
非编码元素中断 | 分子功能和突变的影响。 | 疾病协会 |
---|
拼接和拼接增强 | 剪接是一些转录物的组成部分,对其他转录物具有高度组织特异性,依赖于外显子-内显子连接处的规范序列以及分布在整个转录物中的弱指定序列基序。影响组成剪接位点的突变可能具有与无义或错义突变类似的效果,导致异常包含内含子或跳过外显子,有时导致非感觉介导的衰变(NMD)。 | 拼接调控变异与几种疾病有关164,165. |
最近的一项分析表明,OMIM中大多数致病点突变可能通过剪接发挥作用166. |
中的替代拼接位点变体工作任务1与弗雷泽综合征(FS)有关的基因167 |
跳过的外显子7表面活性剂该基因参与脊髓性肌萎缩(SMA)168 |
调节翻译、稳定性和本地化的序列 | mRNA 5′非翻译区(UTR)中的序列可以影响翻译调控,例如上游ORF、过早AUG或AUC密码子以及形成抑制性干环的回文序列1693′-UTR中的序列基序被微RNA和RNA-结合蛋白(RBP)识别。 | 5′-UTR的功能缺失突变CDKN2A型个人易患黑色素瘤170. |
一种罕见的突变,在基因转录物中产生miRNA hs-miR-189的结合位点SLITRK1系列与Tourette综合征有关171. |
编码反式调节RNA的基因 | 非编码RNA参与了一系列调节功能,从已知的转移和核糖体RNA到最近发现的长非编码RNA172,173. | 基因中罕见和常见的突变风险管理建议编码线粒体RNA加工核糖核酸酶的RNA成分与软骨发育不全有关174 |
非编码RNA突变可导致许多其他疾病175. |
发起人 | 启动子区域是转录起始和RNA聚合酶及相关调节物组装的重要组成部分。突变可以影响激活物或阻遏物的结合、染色质状态、核小体定位,以及启动子与远端调控元件的环状接触。编码疾病突变的基因也可能含有与表达相关的独立相关调控变体,以等位基因特异的方式与蛋白质结合,并破坏或产生调控基序176. | HIV1进展相关基因启动子的突变CCR5号机组,与它编码的受体的表达相关,并与至少三种转录因子差异结合177,178 |
APOE公司启动子突变与阿尔茨海默病相关179,180 |
血红素加氧酶-1(HO-1型)启动子突变导致表达改变并与许多疾病相关181 |
增强器 | 增强子是末端调控元件,从其靶基因开始,通常存在10000到100000个核苷酸。其中的突变可以破坏序列特异性转录因子、染色质调节器和核小体定位信号的序列基序。包括反转和易位在内的结构变体可以通过使其远离靶点、破坏局部染色质构象或与绝缘体或阻遏物产生相互作用来破坏其调节活性。虽然人们认为与启动子区域的环状相互作用起到了一定作用,但增强子-基因靶向的规则仍不清楚。 | 甚至在GWAS之前,许多孟德尔疾病就已经表明了远端增强子在疾病中的作用,其中一些患者的易位或其他结构变异远离启动子182–184. |
在早期的一项研究中,点突变被定位在邻近基因内含子的一个未链接的位点上,该内含子距离发育基因有一百万个核苷酸嘘
185; 这个远端位点是嘘并概括了小鼠的多趾表型。 |
许多GWAS命中率已被验证为功能增强剂186; 例如,与癌症易感性相关的常见变异映射到8号染色体上的一个基因沙漠,其中一个SNP被证明破坏TCF7L2结合位点并抑制癌基因的长期激活MYC公司187–189. |
蛋白质编码序列中的同义突变 | 上述所有调控元件也可以编码在蛋白编码外显子本身中。因此,蛋白质编码区内的同义突变可能与非编码功能有关,在DNA水平上起到转录前作用,或在RNA水平上起着转录后作用。 | 多巴胺受体基因中的一个同义变体DRD2(DRD2)与精神分裂症和酒精中毒相关的研究表明,通过mRNA折叠和稳定性的差异来调节受体的产生190. |
在每一种情况下,都需要进行广泛的实验随访,以揭示与疾病关联信号有关的分子机制,还有更多的疾病关联变体仍然没有特征化,强调需要系统方法来注释调节区域、其功能核苷酸、,及其相互连接。
认识到需要对非编码疾病相关变异进行系统解释,目前正在进行几个大型项目,以加强非编码基因组的注释(). 这些依赖于使用功能基因组学和比较基因组学的参考注释图,并且可以显著增加调节元件的注释,这可以对解释现有的GWAS和个人基因组产生强烈影响。
通过关联测试发现的单倍型分析这三个例子是注释包含几个连锁SNP(在本例中为三个)的位点的方法,以发现那些最可能是因果关系的位点。(a) 功能基因组学技术正在开发中,以发现假定的调控元件,并将这些元件与其靶基因联系起来。在这里,中间的SNP位于组织1和组织3中的增强子中,并调节左侧的基因。(b) 调控基因组学信息可以预测增强子类中活跃的序列模体,这可以与变体引起的模体创建/破坏相结合。在这种情况下,中间SNP删除与基序B的匹配,该基序预计在组织1和组织3中发现的增强子中活性。(c) 比较基因组学在非编码序列中识别进化约束区域。这里,仅围绕中间SNP的序列在哺乳动物中受到限制。
参考功能基因组学和染色质状态图
大规模并行的短读测序技术消除了以前用于绘制人类基因组生化活性区域的极其昂贵的平铺微阵列的需要。这使得染色质免疫沉淀随后应用高通量测序(ChIP-seq)绘制转录因子结合、染色质调节物或组蛋白修饰标记18,使用亚硫酸氢盐测序(BS-Seq)绘制DNA甲基化19通过DNase超敏分析(DNase-Seq)绘制可接触染色质区域20通过有监督或无监督机器学习对这些数据集进行计算集成,可以在全基因组范围内映射功能性非编码元件,如远端增强子、转录因子结合位点和调节性RNA基因。例如,DNA元素百科全书(ENCODE)项目正在发布染色质状态、TF结合和转录的综合图,用于选择细胞系和许多初级细胞的DNase图21和NIH表观基因组路线图项目22和BluePrint项目23两者都旨在构建数百个原代细胞和培养细胞的参考表观基因组图。调控图可以引导单倍型上最可能的因果调控因子().
核苷酸再溶监管注释
虽然调控区域的地图信息丰富,但将其分辨率从数百个核苷酸提高到单个核苷酸需要额外的计算或实验开发。这可以利用寻求阐明转录因子结合特异性的系统努力24,25和拼接调节器26,27,并根据其富集和保守性发现全基因组调控基序28,29同样,新技术也被应用于增强现有技术,例如使用DNAse-seq的数字基因组足迹30,微生物核酸酶(MNase)的动态应用31或使用lambda核酸外切酶(ChIP-exo)32,即使不了解所涉及的特定基序,也能显著提高调控元件的映射分辨率。
变量效应的预测模型
即使功能元件和基序已知,我们也需要模型来区分调控基序或元件不同位置的突变如何影响其功能。这些模型可以用于区分沉默突变和有害突变,这在蛋白质编码区是可能的。这需要序列基序、染色质状态和表达模式的综合模型24,33–36可以在实验性可处理的组织上训练,也可以通过在体外实验并应用于预测新观察到的罕见和私有突变的影响。大规模的监管预测,包括数百个监管机构和数百万个监管主题实例,相应地需要大规模的并行方法来验证它们。这些方法利用了新兴的大规模合成和测序技术,这些技术正在模型生物和培养的人类细胞中开发37–39,并能够以前所未有的规模测试关于因果变异的机械假设().
相关物种的比较基因组学
即使很少使用一种调节元素,并且在所采样的细胞类型和组织中未观察到其活性,其对适应性的影响仍然可以根据其在多个相关物种中的优先保护来识别。对许多哺乳动物的全基因组比较分析显示出一幅高分辨率的限制性元素地图,涵盖了人类基因组的4.5%40,41它揭示了数百万可能的新元素,包括单个转录因子结合位点,其核苷酸在进化过程中一直被保存。除了进化约束的整体水平之外,编码在相关物种替换、插入和删除模式中的特定进化特征可以提供受约束元素可能编码的分子功能类型的信息41–44结合约束和进化特征可以精确定位功能转录因子结合基序和单个结合位点()非编码RNA基因和结构、microRNA及其靶点,以及具有选择性优势的未标记序列元素。
进化保守的生化活性
即使在缺乏保守序列的情况下,生物化学活性的保守也可以指示保守的功能元件,即使相应的序列特征由于转换而无法通过传统的排列和限制措施检测到45,46由于蛋白质结合和RNA转录的某些部分可能是无功能的“噪音”,转录因子结合的跨物种分析47或基因表达48可以帮助揭示最有可能发挥作用的元素子集。然而,谱系特有的元素可能仍然很重要,不能通过这种方法捕获。
使用功能基因组注释解释变体
对于蛋白质编码突变,蛋白质结构和功能的知识,以及遗传密码的明确性质,使得开发一类预测算法成为可能,可以对错义和无意义变体的严重性进行评分49–52需要参考注释,以使功能数据集能够理解疾病相关常见变异在各个区域的分子作用,尤其是非编码变异(). 此外,需要新的方法来定义全球遗传结构和全基因组功能景观之间的关系。
确定变体优先级的工具
GWAS从业者最关心的是非编码变体的解释和优先级53.许多资源,包括HaploReg54(L.D.W.和M.K.),RegulomeDB55和ENSEMBL的变量效应预测56目的利用保守性、功能基因组学和调控基序数据注释关联研究中的非编码常见变体。数据库,如ANNOVAR57和VAAST58专门用于注释全基因组/外显子组测序数据,并利用群体水平的负选择来识别最有可能具有功能的极为罕见的编码等位基因。然而,这些工具目前都没有汇集上一节中列出的所有可用注释资源,它们需要不断更新,以反映监管知识的指数级增长().
表4
系统注释变体的最新工具的比较在过去十年中,许多此类工具已作为数据库或软件发布;下面列出了最新的示例。
工具 | 类型 | 输入法 | 蛋白质注释 | 法规注释 | 其他 |
---|
西雅图序列191 | 服务器 | 变体 | 毒性评分 | 保守性得分 | dbSNP临床关联数据 |
ANNOVAR公司57 | 软件 | 变体,区域 | 用户定义:用户下载所需的变体、保存、编码和非编码功能注释 |
ENSEMBL VEP公司56 | 服务器 | 变体,区域 | 有害性得分 | 调控基序改变得分 | OMIM、GWAS数据 |
VAAST公司58 | 软件 | 变体 | 有害性得分 | 保守性得分 | 聚集以发现病例对照中的罕见变异 |
HaploReg公司54 | 服务器 | 变体,研究 | dbSNP结果数据 | 染色质状态、蛋白质结合、DNA酶、保守、调控基序改变得分 | GWAS数据、eQTL、LD计算、每项研究的富集分析 |
规则数据库55 | 服务器 | 变体,区域 | | 组蛋白修饰、蛋白质结合、DNA酶、保守性、调节性基序改变得分 | eQTL、报告者分析、每个变量的综合得分分析 |
基因集富集分析
基因表达研究利用了基因相互关系的先验知识来发现差异调节途径,即使这些途径中的单个基因改变表达太少而无法达到统计显著性59这些基因集富集分析(GSEA)方法正被应用于GWAS,在GWAS中,类似地,遗传风险预计将沿着生物途径集中,多重测试降低了单独考虑的相关性的统计显著性。已经开发了数十种方法,利用基因功能注释数据库中的先验知识对GWAS进行通路分析60,61().
系统级分析超越孤立的常见单倍型。(a) 遗传结构的基因富集分析GWAS结果的典型分析将比较相关基因座附近的一组基因与这些基因的先前知识,从而得出有关所涉及路径的假设(在本例中,过程A而非过程B)。(b) 利用调控注释对遗传结构进行非编码富集分析。各种监管注释的高分辨率地图也可以与GWAS结果相交。例如,组织相关增强子、eQTL、DNAse峰或等位基因特异性聚合酶结合在GWAS结果中富集。此外,调控注释可以与基于基因的注释和链接信息相结合,在这种情况下,发现与过程A所涉及的基因相关的增强子的富集。(c) 解释显示高度等位基因异质性的连锁位点。在某些情况下,只有一个基因座上的罕见突变才有助于其遗传机制,而这些区域只能通过经典的连锁分析才能发现。现在可以通过WES/WGS查询这些区域,并且在案例中可以观察到假定有害等位基因的不平衡负担(如左例所示)。有了监管注释,这些负担测试现在可以扩展到非编码区域(如右图所示)(d) 解释整个基因组中的因果变异。个人基因组面临的挑战是,通过关联或连锁研究暴露出与表型相关的罕见或低遗传率的潜在因果变异。对于编码等位基因,当前在分析个人基因组时以多种方式使用了先验知识:遗传密码的知识(过滤非同义变体),从群体面板推断负选择(过滤常见变体),以及根据生物物理原理开发的模型(重点关注那些最可能改变蛋白质结构和功能的氨基酸替换)。需要为监管区域开发类似的管道。我们建议使用种群水平和跨物种选择信号(不仅过滤出常见的变体,而且过滤出那些不受哺乳动物限制的变体),以及前面提到的所有调控模型(预测的调控元件和其中活跃的基序,分子性状关联,如eQTL等)这样一条管道对于解释将在临床和研究环境中收集的大量测序数据至关重要。
调控元素富集分析
最近的一项研究使用染色质状态图发现在几个GWAS的顶级关联中细胞类型特异性增强子的富集62(L.D.W.、M.K.和同事),证明了高分辨率功能基因组图作为一种途径注释的实用性。在大量细胞类型中使用DNase超敏反应图也可以看到类似的结果63以及通过检测表达数量性状位点(eQTL)和GWAS之间的一致性64,65这些方法证明了参考表观基因组识别相关组织以进行进一步研究的能力(). 使用关于变量函数的先验知识的另一种方法是通过贝叶斯方法将信息纳入关联研究本身61,66–69或使用boosting确定疾病网络的优先级70然而,很难评估这些加权方案的效用,因为这些加权方案基本上丢弃了功能数据最少的位点。
负荷试验;处理异质性
对于通过全基因组测序发现的可能导致因果关系的罕见变异,已经开发出一类技术,通过基因、通路或其他功能注释和过滤器在个体间汇集突变,成功处理等位基因异质性和低等位基因频率71; 最近提出了功能基因组图的额外用途72。改进非编码区域的注释将明显增强这种类型的分析().
列出了将监管要素与GWAS相结合的计算方法的新见解示例。
表5
试验等级 | 发现 | 使用的计算工具 |
---|
相关基因座附近的基因集富集 | 川崎病相关五种蛋白质的调控网络192 | 创意路径分析(封闭源代码) |
脂肪中差异表达的基因与肥胖的基因重叠193 | 差异表达的微阵列分析 |
TGF-β途径、Hedgehog信号途径在高度GWAS基因座中富集103 | GSEA使用MAGENTA194,使用GRAIL从短信发送网络195,OMIM中已知的疾病基因4,eQTL富集 |
与eQTL结果一致 | 复制过程中eQTL优先排序有助于验证两个克罗恩病易感基因座196 | eQTL富集 |
涉及免疫系统的GWAS显示淋巴母细胞eQTL富集64 | eQTL富集(RTC64) |
染色质状态富集 | 许多GWAS显示生物相关细胞类型中增强子的富集62 | ChromHMM定义离散染色质状态197(M.K.和同事);富集分析 |
TF结合位点与DNase超敏富集 | 许多GWAS显示ENCODE标记的DNAse和ChIP位点富集198 | 富集分析 |
许多GWAS显示DNAse在生物相关细胞类型中富集63 | 定义离散超敏位点的热点算法199; 富集分析 |
乳腺癌GWAS基因座中富含FOXA1和雌激素受体结合位点200 | 变量集丰富(VSE200) |
利用分子表型中的群体变异解释变异
虽然到目前为止,我们已经讨论了参考细胞系的调控注释,但生化活性本身是基因型依赖性的,因此单一的参考注释无法捕捉调控基因组的复杂性。此外,我们将LD视为人类基因组的一种属性,而实际上它是特定于人群的,并且LD和选择的模式在地理和时间上都有所不同。事实上,这种增加的复杂性可以用来获得对基因组调控的更多见解,并为上述分析提供额外的动力。
基因型相关分子活性
已经出现了两种强有力的工具来识别影响分子表型的非编码位点:关联研究和等位基因特异性研究。协会研究()已被用于发现甲基化的非编码顺式调控因子(meQTL)73,DNA酶I敏感性(dsQTL)74,转录因子结合75,基因表达(eQTL)76,以及可选拼接77与GWAS在生物体水平定量性状方面的研究方式相同,这些研究考虑了与特定基因组位点相关的表型(例如与基因相对应的稳态mRNA水平),这些表型是在不相关的个体中分离出来的同一细胞类型中,并寻找这些分子过程的遗传调控因子。最近的一项相关研究使用eQTL数据揭示了有害编码变异体和调节其外显率的调控变异体之间上位性的选择性特征78,该方法应广泛适用于检验基因组学模型中关于顺式调控相互作用的假设。
等位基因特异性活性
相反,等位基因特异性测试着眼于个体中的杂合子位点,并寻找其中一个等位基因的分子信号偏斜(). 等位基因特异甲基化79,组蛋白修饰80,DNAse I敏感性81,蛋白质结合82、和表达式83已经在全基因组范围内进行了调查。虽然关联研究的优点是可以识别可能作用于与受调控基因座有一定遗传距离的调控变异,并且可以包括样本中的纯合子个体,但可以对单个个体进行等位基因特异性研究,并内在控制由个体遗传背景引起的可能的跨调控差异。
特定人群影响的重要性
相关单倍型中的因果变异不仅应被确定用于进一步研究,还应用于遗传咨询;由于LD模式的变异,在一个群体中有效标记风险单倍型的SNP在另一个群体可能不存在84.明确模拟混合人口种族背景的计算方法可以通过利用他们的共同祖先来增强他们的力量85.
种群分化与正向选择
来自HapMap项目的单倍型结构和等位基因频率9和1000基因组项目86提供当前作用于人类血统的正选择和负选择的证据。虽然人口结构和选择性清扫在近代人类历史中的相对重要性仍有争议87–89,许多非编码基因座显示了多行局部适应证据90.
利用人口结构和相关性
最终,连锁分析和GWAS对互补遗传结构敏感,但广泛的疾病可能同时表现出位点和等位基因异质性。由于与复杂疾病相关的基因组分布信号较弱,种群分层和隐性关联的潜在混杂效应对控制尤为重要。连锁分析和传递不平衡检验(TDT)等基于家族的方法不存在这些复杂问题,并且在一类新的方法中与关联检验相结合91此外,系统发育组学和祖先重组图重建的新方法提供了一个机会,可以通过明确考虑种群结构和区域特定相关性来加强关联研究92,93.
净化选择的综合措施
等位基因频率数据建模94,95和序列差异数据46这表明哺乳动物保守元素之外发生了大量的负选择,证明了广泛的非编码功能。这些相同的力量可以根据其外显率和表达率在人群中维持较低频率的疾病相关等位基因。
识别变量之间的高阶关系
即使在考虑疾病相关区域功能注释的全基因组丰富性时,上述方法迄今为止也认为每个位点都是独立作用的,并认为其影响是相加的。功能基因组学通过利用功能和变异信息构建相互作用和调控网络,使我们能够考虑这些个体基因座之间的高阶相互作用。然后,这些网络可以指导对上位效应的搜索。
检测鼻出血从头开始的
对于上位性在复杂疾病遗传基础中的相对重要性存在着实质性分歧96–98虽然酵母中的遗传相互作用已被系统地绘制出来99在人类中发现了病例66,仍然无法测试所有可能的交互;可以理解,在关联研究中检测上位性是一个非常有理论兴趣的领域66,100,101.一种方法102通过使用多因素降维(MDR)方法,结合家系不平衡测试中的连锁信息,成功发现影响尼古丁依赖的两个味觉受体基因之间的上位性,类似于前面描述的混合连锁关联研究91.
上位性导引搜索
一些方法建议通过只搜索最重要的独立关联位点来限制相互作用的搜索空间;该方法未能发现与身高相关的180个基因座之间的任何相互作用103对搜索空间的另一个提出的限制是来自基因注释和蛋白质-蛋白质相互作用的先验知识104–106此外,表观基因组图谱和改进的监管注释有望集中关注可能相互作用的SNP的相关组合。
使用物理相互作用数据将增强子与其靶基因联系起来
与启动子不同,增强子面临着双重挑战,既要在大量非功能序列中精确定位其位置,又要将其与目标基因联系起来。这些远端调控元件通常与启动子发生物理相互作用,检测这些相互作用的技术,如染色质构象捕获(3C,Hi-C)107,108和染色质相互作用配对标记(ChIA-PET)109发展迅速。
利用细胞间变异性将增强子与其靶基因联系起来
检测增强子-基因关系的另一种方法是测量这些元素的活性与多种细胞类型和条件下表达的相关性。这项技术被用于推断人类的基因调控网络35和模型生物99,110虽然蛋白质相互作用和代谢网络是整合到现有算法中的最常见的先验知识类型,但这些调控网络可能为上位性搜索提供更有用的起点。
从个体对个体的变异性推断网络
从诱导间变异中发现的分子QTL数据也可用于帮助推断调控网络111不同于仅从表达模式中获得的证据,它为因果关系提供了明确的方向性。
从系统扰动推断网络
培养细胞的化学扰动已用于网络推理。这些实验不仅有助于理解药理机制,而且有助于揭示正常细胞和癌细胞之间网络拓扑的差异112包括与解释癌症遗传结构相关的基因-基因和基因-药物相互作用。
模型生物的人工选择和药物反应实验
虽然人类遗传历史和选择压力紧密交织在一起,但模型生物提供了一个机会,可以在受控环境中测量选择的全球影响以及由此产生的遗传相互作用113,114.模型生物也被证明可用于测试基因99和基因药物115人类不可能有如此规模的相互作用。
医疗环境中的功能基因组学
虽然基因分型和测序在发现疾病位点和越来越多的临床诊断中已经变得司空见惯,未来,全基因组分子图谱技术的民主化将进一步推动队列水平的分子关联研究和个人功能基因组学在医学环境中的应用。这些可以用疾病状态的分子水平诊断来补充现有的遗传和化学生物标志物。
疾病队列的功能基因组学
DNA微阵列的主要临床应用之一是识别疾病相关基因,并通过全基因组表达特征对疾病亚型进行分类116,以及来自微阵列和RNA-seq的疾病相关基因集可用于定义生物途径,如分子特征数据库(MSigDB)中的生物途径117类似地,染色质图谱可以跨谱系或在疾病和正常组织之间进行比较,以定义一组调控位点(). 如前所述,这些集合可用于GWAS的富集和途径分析。
表观基因组-表型关联
基于微阵列的甲基化分析现在首次允许“表观基因组关联研究”(EWAS)118识别与疾病相关的差异甲基化位点,而不考虑基因型(). 这些研究可能会绕过一些降低遗传因素外显率的环境变异性119将家庭成员纳入EWAS研究可能特别有用,以便测试印记和其他亲缘影响。
确定因果关系的分子表型与遗传关联
分子QTL的一个重要未来用途可能是支持孟德尔随机化研究120,121分子性状——表达、表观遗传状态或生物标记——可能是遗传变异和复杂表型之间的重要垫脚石,但分子性状和有机体性状之间的因果关系方向尚不清楚。最近的一项研究使用这种方法对提高高密度脂蛋白胆固醇水平可以降低心肌梗死风险的观点提出了质疑,表明高密度脂素的等位基因并没有传递出心脏病的遗传保护,如果胆固醇是病因的话,这种保护是可以预期的122.
预测罕见和私有突变的分子后果
一旦从功能基因组学和分子变异中预测到这些调控机制,下一个挑战就是将这一知识应用于通过全基因组测序发现的罕见变异(). 调控基因组学的一个目标应该是开发预测新调控变体影响的模型,其准确性与新蛋白编码变体的现有方法相同。
个人功能基因组学
一些疾病亚型或进展的表达特征已经在临床上使用,其使用有望增加。然而,类似于通过测序发现的罕见变异问题,临床功能基因组学样本也将显示出人群中罕见的模式,而这些模式与疾病无关。最近一项针对个人的初步研究表明123解释这种个人组学分析既有巨大的力量,也有许多挑战,需要新的计算模型,从常见遗传和功能变异的影响推广到个人遗传学和功能基因组学。
生物医学信息学和互操作性的障碍
除了这些不同数据集的统计和计算集成的概念挑战外,每个主题都依赖于基因组学和医学遗传学研究人员之间的广泛数据共享。然而,由于隐私问题和数据库互操作性的信息学挑战,共享仍然受到限制。对于医疗记录和药物反应等非基因组数据集来说,这些挑战更大,导致信息宝库仍然闲置。为了将基因组学整合到药物发现和靶向验证管道中,还需要克服几个额外的障碍:
GWAS P值共享
为了便于综合分析,GWAS研究人员应该报告所有变体的关联,而不仅仅是那些最重要的变体。《自然遗传学》编辑委员会最近阐明了这方面的政策124,但人们仍然担心,为了保护主体隐私,需要充分消除关联结果125中央档案馆的程序,如NCBI的基因型和表型数据库(dbGaP)和欧洲基因-表型档案馆(EGA),对于平衡受试者的权利和科学开放原则至关重要。
数据库集成
数据库的互操作性对于综合分析仍然至关重要。UCSC基因组浏览器和ENSEMBL基因组浏览器的持续努力促进了表观基因组和变异数据的整合,但更好地连接到特定领域的知识库,如GTex eQTL浏览器、dbGaP分析和NHGRI GWAS目录11将扩大遗传学家可用的联系范围。
病历标准化
医疗记录已被成功挖掘,以发现流行病学模式126,药物不良反应127、疾病风险因素和异质性128随着电子病历中充斥着遗传数据,将需要与临床医生合作,以挖掘患者数据中与生物标记物和疾病的遗传关联,并发现疾病异质性的新模式129.
医学和药物基因组学数据集的集成
最终,需要解决信息学方面的挑战,以便将由此产生的分子预测与患者记录、环境变量、药物筛选和反应数据库联系起来,从而使基因组学成为临床实践中的普遍现象。