Interpreting non-coding variation in complex disease genetics

Lucas D. Ward; Manolis Kellis

doi:10.1038/nbt.2422

国家生物技术。作者手稿；PMC 2013年7月7日提供。

以最终编辑形式发布为：

国家生物技术公司。2012年11月；30(11): 1095–1106.

2012年11月8日在线发布。数字对象标识：10.1038/nbt.2422

预防性维修识别码：项目经理3703467

NIHMSID公司：NIHMS415408标准

PMID：23138309

解读复杂疾病遗传学中的非编码变异

卢卡斯·沃德^1,²和马诺利斯·凯利斯^1,²

作者信息版权和许可信息 PMC免责声明

摘要

关联研究提供了有关复杂疾病遗传基础的全基因组信息，但由于难以解释非编码突变，医学研究主要集中于蛋白质编码变体。随着功能性非编码元件的系统注释的进步，这种情况发生了变化。进化保守性、功能基因组学、染色质状态、序列基序和分子数量性状位点都提供了有关非编码功能的补充信息。这些功能图可以帮助确定风险单倍型变异的优先级，筛选临床中遇到的突变，并进行系统级分析以揭示疾病关联的潜在过程。预测模型的进展可以使数据集集成揭示基因座和等位基因之间共享的通路，更丰富的调控模型可以指导上位性相互作用的搜索。最后，新的大规模平行报告实验可以系统地验证监管预测。最终，监管和系统基因组学的进展可以帮助释放全基因组测序对个性化基因组风险评估、诊断和治疗的价值。

了解疾病的遗传基础可以通过阐明药物靶点的相关生化途径和进行个性化风险评估，从而彻底改变医学^1,2随着技术在过去一个世纪的发展，遗传学家不再局限于研究孟德尔疾病，他们可以处理复杂的表型。由此发现的关联已经从主要位于编码区的个体变异扩大到更丰富的疾病结构，包括非编码变异、更广泛的等位基因谱、许多位点和弱效应大小(表1). 在过去几年里，新一波技术进步加速了向处理更复杂的遗传结构和揭示其背后的分子机制的转变。

表1

人类表型下遗传结构的多样性。

建筑	笔记	计算和调控基因组学的作用
经典单基因性状	最早的人类基因特征是那些导致先天代谢错误的基因，加罗德在20世纪初证明这些基因遵循孟德尔遗传^140,141人类疾病基因的现代研究始于克隆具有孟德尔遗传模式的高外显率单基因疾病的基因座，如苯丙酮尿症和囊性纤维化^140,142,143，这最符合经典的映射方法。与单基因性状相关的变异也是20世纪80年代通过定位克隆首次发现的，一个经典的成功是CFTR公司导致大多数囊性纤维化病例的突变^三,142,143.	由于潜在突变倾向于改变蛋白质结构，预测其影响的计算挑战在于分子建模和结构研究。
具有多个疾病等位基因的单基因性状	即使是单基因疾病，单个风险等位基因在受影响个体中占主导地位的程度也有很大差异（等位基因异质性）。在光谱的一端，F508del等位基因立方英尺在约70%的囊性纤维化患者中发现¹⁴⁴尽管已知数千个等位基因。相反，苯丙酮尿症是极不均匀的，具有不同的多环芳烃不同人群受影响个体中占优势的等位基因¹⁴⁵。这类突变中的大多数是错义或无意义编码突变^三.	如上所述，对于蛋白质编码突变，相关的问题是预测氨基酸替代的生化效应。在等位基因异质性的情况下，观察到的替代可能太多，无法通过实验表征，因此需要计算模型(图3c).
具有独立贡献的多个位点（“寡基因”）	许多变异增加或减少了疾病的风险，最终表型取决于许多位点的基因型（位点异质性）。通过连锁分析得到深入研究的一个例子是Hirschprung病，这是一种具有低性别依赖外显率的复杂疾病，至少涉及10个基因，包括酪氨酸激酶受体转塔和基因GDNF公司对配体进行编码¹⁴⁶有趣的是，主要易感基因中最常见的变异房地产税是非编码的，是增强子中的单核苷酸多态性（SNP）。编码和非编码变体通常涉及一个或少数明确定义的路径。	寡聚遗传性状，其中少数特征良好的位点有助于表型，可能是观察和量化上位性相互作用的最佳机会。在涉及非编码区的情况下，这些单倍型可以在功能上进行映射，以分离最可能的因果变异(图2).
大量变异共同对复杂性状的贡献较弱	关于复杂性状的GWAS也发现了许多弱贡献基因座。例如，最近对几项身高研究进行的荟萃分析发现，180个位点达到全基因组意义^15,103,139，富含已知的骨骼生长缺陷的近基因。在身高研究和精神疾病研究中，已经表明多基因关联延伸到数千个常见变异，远远超出基因组范围内的重要位点^135,139	与单基因性状下的变异相比，复杂性状中的变异绝大多数与错义或无意义编码突变无关，这表明它们的机制主要是调控性的¹¹大组调控变体可与参考注释结合，以阐明相关途径和组织(图3b,表5).
调节“分子性状”的变体对生物体表型或适应度的影响未知	快速发现的变异直接影响分子数量性状，如基因表达或染色质状态，其中许多可能对生物体的表型或适应性没有影响³⁸.	需要QTL和等位基因特异性分析来表征这些变异(图1b、c). 由于迄今为止所进行的研究仅对变异可能产生影响的一小部分细胞类型进行取样，因此变异表达相关性具有高度组织特异性¹⁴⁷，可能仍有许多此类监管变体有待发现。
导致未知分子表型和对生物体表型或适合度无影响的变异	从适应性角度来看，大多数突变是中性的这一观点最初被提出时存在争议，现在已被广泛接受^148–150.	虽然很容易从遗传密码中计算出蛋白质编码突变的哪一部分会导致氨基酸改变，但对其他分子表型的类似估计则更具挑战性，需要在核苷酸水平上建立全面的调控模型。
私人和身体变异	生物体内的体细胞突变是癌症形成中常见的驱动突变¹⁵¹.	个体变异和体细胞变异的解释(图3d)系统的监管注释也将极大地受益，因为它们可能会利用现有的监管途径，尽管它们受到细胞而非生物体的选择性压力。

在单独的窗口中打开

在二十世纪早期，一些代谢紊乱被证明是遗传性和孟德尔遗传性的，后来的定位克隆允许识别许多这样的基因座，例如由人类在线孟德尔遗传数据库（OMIM）管理的基因座^三,4从20世纪80年代开始，连锁分析被用于将家系性状的遗传与可通过限制性片段长度多态性（RFLP）分析分析的映射多态性标记的遗传相关联^5,6然而，通过连锁分析绘制的区域必然很大，为后续关联研究、重新测序和功能分析克隆候选基因需要在人类基因组项目完成之前应用艰苦的分子技术⁷此外，复杂的表型不适合连锁，因为需要大量的样本来检测基因背景以上具有适度影响的位点⁸人类基因组的长单倍型结构，以及通过HapMap项目进行的系统定位⁹，允许将单核苷酸多态性（SNP）用作普通单倍型的标记，可以使用芯片技术进行基因分型。为无偏见的全基因组关联研究（GWAS）铺平了道路，以搜索无关个体¹⁰与复杂疾病和不同分子表型相关的常见变异(图1,表2).

在单独的窗口中打开

图1

四种下一代关联测试

（a）全基因组关联研究（GWAS）中进行了与生物体性状的遗传关联；在所示的位点上，G等位基因与疾病相关。GWAS发现的变异体的影响通过多层分子过程介导，其中一些也可以在全基因组范围内进行研究。（b）可以使用分子性状而不是有机体性状，从而发现诸如表达数量性状位点（eQTL）等局部调控变体。在本例中，局部分子信号，如开放染色质区域，在个体间发生变化，并显示与T等位基因的存在共存；这种等位基因可能影响顺式-染色质的调控基序。（c）单个细胞中的杂合位点可用于检测等位基因特异性效应；与在个体间发现的分子QTL不同，这些研究控制了反式遗传背景。在这个例子中，G等位基因不仅与该基因座上TF结合峰的存在有关，而且在杂合个体中，源自该基因座的ChIP-seq读码过度表达，表明TF特异性地与G等位蛋白结合。（d）功能基因组学数据可以直接在病例和对照之间进行比较，以发现疾病的生物标记物，而不必将遗传原因归因于这些分子变化。事实上，这些生物标记物可能是由反式遗传因素、环境因素或疾病本身。

表2

关联分析的计算工具。

分析类别	工具	笔记
基因型和表型之间的全基因组关联（GWAS）	SNPTEST公司¹⁵⁵	纳入插补
	比姆-巴姆¹⁵⁶	结合插补和关联概率的贝叶斯回归方法
	EIGENSTRAT公司¹⁵⁷	使用主成分分析对病例和对照之间的祖先差异建模
	PLINK公司¹⁵⁸	包括估算工具、人口分层控制和混合方法（如基于家庭的关联和基于人口的联系）的大型一揽子计划
基因型和分子性状之间的局部关联（例如eQTL）	eQTN浏览器¹⁵⁹	基于TSS距离测试包含先验信息的贝叶斯层次模型
基因型和分子性状之间的局部关联（例如eQTL）	矩阵eQTL¹⁶⁰	连续或分类基因型值与表达的快速关联测试
等位基因特异性表达和结合	ChIP-SNP公司⁸²	对于ChIP-ChIP数据
等位基因特异性表达和结合	AlleleSeq系列¹⁶¹	对于ChIP-seq和RNA-seq数据
分子性状和表型之间的全基因组关联（例如，差异表达，EWAS）	利马¹⁶²	对于表达微阵列数据
分子性状和表型之间的全基因组关联（例如，差异表达，EWAS）	边缘R¹⁶³	对于RNA-seq数据

在单独的窗口中打开

注：使用基因型信息进行分析需要工具调用变体，如BirdSeed¹⁵²阵列数据或GATK上¹⁵³测序数据和基因型插补工具，如MaCH¹⁵⁴.

与连锁分析和测序相比，GWAS在同一位点的不同家族或个体中发生不同罕见突变的情况下作用较小（等位基因异质性）。然而，与家族研究相比，它们对复杂的多基因关联更为敏感，其中表型与跨不同基因座的许多弱贡献变异的联合效应有关（基因座异质性）。从这个意义上说，GWAS已经取得了巨大的成功，识别了数千个疾病相关位点以供进一步研究¹¹揭示了克罗恩病、黄斑变性和2型糖尿病等疾病的先前未知机制²然而，对GWAS的追求也受到了批评(方框1)由于知识的结构，它一直在产生与高度渗透的孟德尔基因发现的决定论相关的知识^2,12,13当前的紧张局势反映了20世纪初孟德尔学派（Mendelians）与生物测定学追随者高尔顿（Galton）之间的思想分歧，孟德尔学派将离散性状的遗传建模为由单个基因携带；R.A.Fisher对这些领域进行了调和，他提出数量性状的遗传力是由于许多基因的贡献，但影响很小^14,15.

方框1

全基因组关联研究的潜力和局限性

尽管对GWAS提出了一些主要的批评，但对每一种批评的回应都可以指导未来的研究。

累积预测能力。通常，已发现的达到全基因组显著性的基因座对特定表型的加性预测能力较弱，这限制了它们目前对某些性状的临床相关性^130–132然而，使用GWAS为复杂疾病发现的基因座进行风险预测通常与使用经典临床测试的结果类似，并且具有独特的特性，例如寿命的稳定性¹³³联合使用数百或数千个弱贡献基因座的预测因子也被证明解释了比最初估计的更大比例的变异^134,135。将这些发现纳入临床方案尚处于初级阶段，预计将趋于成熟。

影响未知的非编码变体。大多数基因座是非编码的，许多基因远离已发现的基因，并且由于连锁不平衡（LD），包含许多变体；因此，对于实验工作来说，它们并不能立即提供信息或进行生物化学处理。为非编码突变的有害性指定一个先验概率是一个挑战¹³⁶为了应对这一挑战，通过ENCODE项目等系统性工作，正在快速注释非编码序列²¹和路线图表观基因组学绘图联盟²²，并通过研究常见变异对全基因组分子表型的影响，如下所述。

罕见变异的检测。显著位点往往只能额外解释一小部分表型的狭义遗传力¹²这表明，罕见而非常见的变异可能是它们遗传的基础，而这只能通过全基因组测序或基于家族的研究来发现¹³对发现的共变异关联中的“隐性遗传力”提出了许多解释¹²稀有和常见变体的相对重要性是一个激烈争论的话题¹³⁷从认为与常见变体的关联实际上是由长程LD中与大效应罕见变体的合成关联驱动的论点¹³⁸弱效应的常见关联对遗传力的贡献远远超过统计显著性阈值¹³⁹在许多双胞胎研究中，由于上位性被伪装成可加性，狭义遗传力可能被高估⁹⁸.

再现性。GWAS有时不会在研究或人群中重复¹⁴⁰这导致了误报和对新联想有效性的怀疑，尤其是当它们是非编码的时候。这可能部分是由于基因型的输入困难，这将受益于对人类常见变异的进一步了解，以及对生物体表型的定义不明确¹⁴⁰，这可以从下面讨论的分子疾病生物标记物中受益。此外，虽然涉及的特定位点可能在不同人群中有所不同，但它们可能反映相同的潜在分子途径，因此调控注释可能在不同群体中更具重复性。专注于分子表型可以通过分离潜在的社会经济或其他环境因素来提高再现性，这些因素发生在分子表型的下游，并可能强烈影响生物体的表型。

在这篇综述中，我们讨论了通过GWAS和医学重测序发现的大量非编码疾病相关变体所带来的计算挑战和机遇。我们首先调查了可用的调控注释类型，包括来自功能基因组学和比较基因组学以及数量性状位点（QTL）和等位基因特异性事件的调控注释，以及这些注释用于解剖疾病相关单倍型以确定某个位点上最有希望的因果变异的方法。然后，我们讨论了这些调控注释在GWAS和等位基因谱的系统级分析中的作用，揭示了相关的细胞类型和调控机制。最后，我们提出了该领域面临的各种生物信息学障碍和计算挑战，例如发现上位性相互作用、分子和生物体表型之间的联系，以及必须从潜在敏感医学数据中挖掘的模式。

非编码基因组的系统注释

解释疾病相关基因座的分子机制可能是一个巨大的挑战。尽管蛋白质生物化学已被用来表征错义和无意义编码突变，而这些突变通常是单基因性状的基础，但在健康个体中发现功能丧失突变和罕见编码变异的频率^16,17这表明我们的理解还远远不够完整。鉴于非编码功能的多样性、监管要素的不完整注释以及监管控制的潜在未知机制，非编码变体的解释挑战更大。几项开创性的研究通过揭示人类疾病的多种作用机制，包括转录、剪接和翻译水平，为所需的系统调控注释类型提供了一个模型(表3).

表3

非编码变体影响人类疾病的机制。

非编码元素中断	分子功能和突变的影响。	疾病协会
拼接和拼接增强	剪接是一些转录物的组成部分，对其他转录物具有高度组织特异性，依赖于外显子-内显子连接处的规范序列以及分布在整个转录物中的弱指定序列基序。影响组成剪接位点的突变可能具有与无义或错义突变类似的效果，导致异常包含内含子或跳过外显子，有时导致非感觉介导的衰变（NMD）。	拼接调控变异与几种疾病有关^164,165.
		最近的一项分析表明，OMIM中大多数致病点突变可能通过剪接发挥作用¹⁶⁶.
		中的替代拼接位点变体工作任务1与弗雷泽综合征（FS）有关的基因¹⁶⁷
		跳过的外显子7表面活性剂该基因参与脊髓性肌萎缩（SMA）¹⁶⁸
调节翻译、稳定性和本地化的序列	mRNA 5′非翻译区（UTR）中的序列可以影响翻译调控，例如上游ORF、过早AUG或AUC密码子以及形成抑制性干环的回文序列¹⁶⁹3′-UTR中的序列基序被微RNA和RNA-结合蛋白（RBP）识别。	5′-UTR的功能缺失突变CDKN2A型个人易患黑色素瘤¹⁷⁰.
调节翻译、稳定性和本地化的序列		一种罕见的突变，在基因转录物中产生miRNA hs-miR-189的结合位点SLITRK1系列与Tourette综合征有关¹⁷¹.
编码反式调节RNA的基因	非编码RNA参与了一系列调节功能，从已知的转移和核糖体RNA到最近发现的长非编码RNA^172,173.	基因中罕见和常见的突变风险管理建议编码线粒体RNA加工核糖核酸酶的RNA成分与软骨发育不全有关¹⁷⁴
编码反式调节RNA的基因	非编码RNA参与了一系列调节功能，从已知的转移和核糖体RNA到最近发现的长非编码RNA^172,173.	非编码RNA突变可导致许多其他疾病¹⁷⁵.
发起人	启动子区域是转录起始和RNA聚合酶及相关调节物组装的重要组成部分。突变可以影响激活物或阻遏物的结合、染色质状态、核小体定位，以及启动子与远端调控元件的环状接触。编码疾病突变的基因也可能含有与表达相关的独立相关调控变体，以等位基因特异的方式与蛋白质结合，并破坏或产生调控基序¹⁷⁶.	HIV1进展相关基因启动子的突变CCR5号机组，与它编码的受体的表达相关，并与至少三种转录因子差异结合^177,178
		APOE公司启动子突变与阿尔茨海默病相关^179,180
		血红素加氧酶-1(HO-1型)启动子突变导致表达改变并与许多疾病相关¹⁸¹
增强器	增强子是末端调控元件，从其靶基因开始，通常存在10000到100000个核苷酸。其中的突变可以破坏序列特异性转录因子、染色质调节器和核小体定位信号的序列基序。包括反转和易位在内的结构变体可以通过使其远离靶点、破坏局部染色质构象或与绝缘体或阻遏物产生相互作用来破坏其调节活性。虽然人们认为与启动子区域的环状相互作用起到了一定作用，但增强子-基因靶向的规则仍不清楚。	甚至在GWAS之前，许多孟德尔疾病就已经表明了远端增强子在疾病中的作用，其中一些患者的易位或其他结构变异远离启动子^182–184.
		在早期的一项研究中，点突变被定位在邻近基因内含子的一个未链接的位点上，该内含子距离发育基因有一百万个核苷酸嘘 ¹⁸⁵; 这个远端位点是嘘并概括了小鼠的多趾表型。
		许多GWAS命中率已被验证为功能增强剂¹⁸⁶; 例如，与癌症易感性相关的常见变异映射到8号染色体上的一个基因沙漠，其中一个SNP被证明破坏TCF7L2结合位点并抑制癌基因的长期激活MYC公司^187–189.
蛋白质编码序列中的同义突变	上述所有调控元件也可以编码在蛋白编码外显子本身中。因此，蛋白质编码区内的同义突变可能与非编码功能有关，在DNA水平上起到转录前作用，或在RNA水平上起着转录后作用。	多巴胺受体基因中的一个同义变体DRD2（DRD2）与精神分裂症和酒精中毒相关的研究表明，通过mRNA折叠和稳定性的差异来调节受体的产生¹⁹⁰.

在单独的窗口中打开

在每一种情况下，都需要进行广泛的实验随访，以揭示与疾病关联信号有关的分子机制，还有更多的疾病关联变体仍然没有特征化，强调需要系统方法来注释调节区域、其功能核苷酸、，及其相互连接。

认识到需要对非编码疾病相关变异进行系统解释，目前正在进行几个大型项目，以加强非编码基因组的注释(图2). 这些依赖于使用功能基因组学和比较基因组学的参考注释图，并且可以显著增加调节元件的注释，这可以对解释现有的GWAS和个人基因组产生强烈影响。

在单独的窗口中打开

图2

通过关联测试发现的单倍型分析

这三个例子是注释包含几个连锁SNP（在本例中为三个）的位点的方法，以发现那些最可能是因果关系的位点。（a）功能基因组学技术正在开发中，以发现假定的调控元件，并将这些元件与其靶基因联系起来。在这里，中间的SNP位于组织1和组织3中的增强子中，并调节左侧的基因。（b）调控基因组学信息可以预测增强子类中活跃的序列模体，这可以与变体引起的模体创建/破坏相结合。在这种情况下，中间SNP删除与基序B的匹配，该基序预计在组织1和组织3中发现的增强子中活性。（c）比较基因组学在非编码序列中识别进化约束区域。这里，仅围绕中间SNP的序列在哺乳动物中受到限制。

参考功能基因组学和染色质状态图

大规模并行的短读测序技术消除了以前用于绘制人类基因组生化活性区域的极其昂贵的平铺微阵列的需要。这使得染色质免疫沉淀随后应用高通量测序（ChIP-seq）绘制转录因子结合、染色质调节物或组蛋白修饰标记¹⁸，使用亚硫酸氢盐测序（BS-Seq）绘制DNA甲基化¹⁹通过DNase超敏分析（DNase-Seq）绘制可接触染色质区域²⁰通过有监督或无监督机器学习对这些数据集进行计算集成，可以在全基因组范围内映射功能性非编码元件，如远端增强子、转录因子结合位点和调节性RNA基因。例如，DNA元素百科全书（ENCODE）项目正在发布染色质状态、TF结合和转录的综合图，用于选择细胞系和许多初级细胞的DNase图²¹和NIH表观基因组路线图项目²²和BluePrint项目²³两者都旨在构建数百个原代细胞和培养细胞的参考表观基因组图。调控图可以引导单倍型上最可能的因果调控因子(图2a).

核苷酸再溶监管注释

虽然调控区域的地图信息丰富，但将其分辨率从数百个核苷酸提高到单个核苷酸需要额外的计算或实验开发。这可以利用寻求阐明转录因子结合特异性的系统努力^24,25和拼接调节器^26,27，并根据其富集和保守性发现全基因组调控基序^28,29同样，新技术也被应用于增强现有技术，例如使用DNAse-seq的数字基因组足迹³⁰，微生物核酸酶（MNase）的动态应用³¹或使用lambda核酸外切酶（ChIP-exo）³²，即使不了解所涉及的特定基序，也能显著提高调控元件的映射分辨率。

变量效应的预测模型

即使功能元件和基序已知，我们也需要模型来区分调控基序或元件不同位置的突变如何影响其功能。这些模型可以用于区分沉默突变和有害突变，这在蛋白质编码区是可能的。这需要序列基序、染色质状态和表达模式的综合模型^24,33–36可以在实验性可处理的组织上训练，也可以通过在体外实验并应用于预测新观察到的罕见和私有突变的影响。大规模的监管预测，包括数百个监管机构和数百万个监管主题实例，相应地需要大规模的并行方法来验证它们。这些方法利用了新兴的大规模合成和测序技术，这些技术正在模型生物和培养的人类细胞中开发^37–39，并能够以前所未有的规模测试关于因果变异的机械假设(图2b).

进化保守的生化活性

即使在缺乏保守序列的情况下，生物化学活性的保守也可以指示保守的功能元件，即使相应的序列特征由于转换而无法通过传统的排列和限制措施检测到^45,46由于蛋白质结合和RNA转录的某些部分可能是无功能的“噪音”，转录因子结合的跨物种分析⁴⁷或基因表达⁴⁸可以帮助揭示最有可能发挥作用的元素子集。然而，谱系特有的元素可能仍然很重要，不能通过这种方法捕获。

使用功能基因组注释解释变体

对于蛋白质编码突变，蛋白质结构和功能的知识，以及遗传密码的明确性质，使得开发一类预测算法成为可能，可以对错义和无意义变体的严重性进行评分^49–52需要参考注释，以使功能数据集能够理解疾病相关常见变异在各个区域的分子作用，尤其是非编码变异(图2). 此外，需要新的方法来定义全球遗传结构和全基因组功能景观之间的关系。

确定变体优先级的工具

GWAS从业者最关心的是非编码变体的解释和优先级⁵³.许多资源，包括HaploReg⁵⁴（L.D.W.和M.K.），RegulomeDB⁵⁵和ENSEMBL的变量效应预测⁵⁶目的利用保守性、功能基因组学和调控基序数据注释关联研究中的非编码常见变体。数据库，如ANNOVAR⁵⁷和VAAST⁵⁸专门用于注释全基因组/外显子组测序数据，并利用群体水平的负选择来识别最有可能具有功能的极为罕见的编码等位基因。然而，这些工具目前都没有汇集上一节中列出的所有可用注释资源，它们需要不断更新，以反映监管知识的指数级增长(表4).

表4

系统注释变体的最新工具的比较

在过去十年中，许多此类工具已作为数据库或软件发布；下面列出了最新的示例。

工具	类型	输入法	蛋白质注释	法规注释	其他
西雅图序列¹⁹¹	服务器	变体	毒性评分	保守性得分	dbSNP临床关联数据
ANNOVAR公司⁵⁷	软件	变体，区域	用户定义：用户下载所需的变体、保存、编码和非编码功能注释
ENSEMBL VEP公司⁵⁶	服务器	变体，区域	有害性得分	调控基序改变得分	OMIM、GWAS数据
VAAST公司⁵⁸	软件	变体	有害性得分	保守性得分	聚集以发现病例对照中的罕见变异
HaploReg公司⁵⁴	服务器	变体，研究	dbSNP结果数据	染色质状态、蛋白质结合、DNA酶、保守、调控基序改变得分	GWAS数据、eQTL、LD计算、每项研究的富集分析
规则数据库⁵⁵	服务器	变体，区域		组蛋白修饰、蛋白质结合、DNA酶、保守性、调节性基序改变得分	eQTL、报告者分析、每个变量的综合得分分析

在单独的窗口中打开

基因集富集分析

基因表达研究利用了基因相互关系的先验知识来发现差异调节途径，即使这些途径中的单个基因改变表达太少而无法达到统计显著性⁵⁹这些基因集富集分析（GSEA）方法正被应用于GWAS，在GWAS中，类似地，遗传风险预计将沿着生物途径集中，多重测试降低了单独考虑的相关性的统计显著性。已经开发了数十种方法，利用基因功能注释数据库中的先验知识对GWAS进行通路分析^60,61(图3a).

在单独的窗口中打开

图3

系统级分析超越孤立的常见单倍型。（a）遗传结构的基因富集分析

GWAS结果的典型分析将比较相关基因座附近的一组基因与这些基因的先前知识，从而得出有关所涉及路径的假设（在本例中，过程A而非过程B）。（b）利用调控注释对遗传结构进行非编码富集分析。各种监管注释的高分辨率地图也可以与GWAS结果相交。例如，组织相关增强子、eQTL、DNAse峰或等位基因特异性聚合酶结合在GWAS结果中富集。此外，调控注释可以与基于基因的注释和链接信息相结合，在这种情况下，发现与过程A所涉及的基因相关的增强子的富集。（c）解释显示高度等位基因异质性的连锁位点。在某些情况下，只有一个基因座上的罕见突变才有助于其遗传机制，而这些区域只能通过经典的连锁分析才能发现。现在可以通过WES/WGS查询这些区域，并且在案例中可以观察到假定有害等位基因的不平衡负担（如左例所示）。有了监管注释，这些负担测试现在可以扩展到非编码区域（如右图所示）（d）解释整个基因组中的因果变异。个人基因组面临的挑战是，通过关联或连锁研究暴露出与表型相关的罕见或低遗传率的潜在因果变异。对于编码等位基因，当前在分析个人基因组时以多种方式使用了先验知识：遗传密码的知识（过滤非同义变体），从群体面板推断负选择（过滤常见变体），以及根据生物物理原理开发的模型（重点关注那些最可能改变蛋白质结构和功能的氨基酸替换）。需要为监管区域开发类似的管道。我们建议使用种群水平和跨物种选择信号（不仅过滤出常见的变体，而且过滤出那些不受哺乳动物限制的变体），以及前面提到的所有调控模型（预测的调控元件和其中活跃的基序，分子性状关联，如eQTL等）这样一条管道对于解释将在临床和研究环境中收集的大量测序数据至关重要。

调控元素富集分析

最近的一项研究使用染色质状态图发现在几个GWAS的顶级关联中细胞类型特异性增强子的富集⁶²（L.D.W.、M.K.和同事），证明了高分辨率功能基因组图作为一种途径注释的实用性。在大量细胞类型中使用DNase超敏反应图也可以看到类似的结果⁶³以及通过检测表达数量性状位点（eQTL）和GWAS之间的一致性^64,65这些方法证明了参考表观基因组识别相关组织以进行进一步研究的能力(图3b). 使用关于变量函数的先验知识的另一种方法是通过贝叶斯方法将信息纳入关联研究本身^61,66–69或使用boosting确定疾病网络的优先级⁷⁰然而，很难评估这些加权方案的效用，因为这些加权方案基本上丢弃了功能数据最少的位点。

负荷试验；处理异质性

对于通过全基因组测序发现的可能导致因果关系的罕见变异，已经开发出一类技术，通过基因、通路或其他功能注释和过滤器在个体间汇集突变，成功处理等位基因异质性和低等位基因频率⁷¹; 最近提出了功能基因组图的额外用途⁷²。改进非编码区域的注释将明显增强这种类型的分析(图3c).

表5列出了将监管要素与GWAS相结合的计算方法的新见解示例。

表5

遗传关联的监管富集分析示例。

试验等级	发现	使用的计算工具
相关基因座附近的基因集富集	川崎病相关五种蛋白质的调控网络¹⁹²	创意路径分析（封闭源代码）
	脂肪中差异表达的基因与肥胖的基因重叠¹⁹³	差异表达的微阵列分析
	TGF-β途径、Hedgehog信号途径在高度GWAS基因座中富集¹⁰³	GSEA使用MAGENTA¹⁹⁴，使用GRAIL从短信发送网络¹⁹⁵，OMIM中已知的疾病基因⁴，eQTL富集
与eQTL结果一致	复制过程中eQTL优先排序有助于验证两个克罗恩病易感基因座¹⁹⁶	eQTL富集
与eQTL结果一致	涉及免疫系统的GWAS显示淋巴母细胞eQTL富集⁶⁴	eQTL富集（RTC⁶⁴)
染色质状态富集	许多GWAS显示生物相关细胞类型中增强子的富集⁶²	ChromHMM定义离散染色质状态¹⁹⁷（M.K.和同事）；富集分析
TF结合位点与DNase超敏富集	许多GWAS显示ENCODE标记的DNAse和ChIP位点富集¹⁹⁸	富集分析
	许多GWAS显示DNAse在生物相关细胞类型中富集⁶³	定义离散超敏位点的热点算法¹⁹⁹; 富集分析
	乳腺癌GWAS基因座中富含FOXA1和雌激素受体结合位点²⁰⁰	变量集丰富（VSE²⁰⁰)

在单独的窗口中打开

利用分子表型中的群体变异解释变异

虽然到目前为止，我们已经讨论了参考细胞系的调控注释，但生化活性本身是基因型依赖性的，因此单一的参考注释无法捕捉调控基因组的复杂性。此外，我们将LD视为人类基因组的一种属性，而实际上它是特定于人群的，并且LD和选择的模式在地理和时间上都有所不同。事实上，这种增加的复杂性可以用来获得对基因组调控的更多见解，并为上述分析提供额外的动力。

基因型相关分子活性

已经出现了两种强有力的工具来识别影响分子表型的非编码位点：关联研究和等位基因特异性研究。协会研究(图1b)已被用于发现甲基化的非编码顺式调控因子（meQTL）⁷³，DNA酶I敏感性（dsQTL）⁷⁴，转录因子结合⁷⁵，基因表达（eQTL）⁷⁶，以及可选拼接⁷⁷与GWAS在生物体水平定量性状方面的研究方式相同，这些研究考虑了与特定基因组位点相关的表型（例如与基因相对应的稳态mRNA水平），这些表型是在不相关的个体中分离出来的同一细胞类型中，并寻找这些分子过程的遗传调控因子。最近的一项相关研究使用eQTL数据揭示了有害编码变异体和调节其外显率的调控变异体之间上位性的选择性特征⁷⁸，该方法应广泛适用于检验基因组学模型中关于顺式调控相互作用的假设。

等位基因特异性活性

相反，等位基因特异性测试着眼于个体中的杂合子位点，并寻找其中一个等位基因的分子信号偏斜(图1c). 等位基因特异甲基化⁷⁹，组蛋白修饰⁸⁰，DNAse I敏感性⁸¹，蛋白质结合⁸²、和表达式⁸³已经在全基因组范围内进行了调查。虽然关联研究的优点是可以识别可能作用于与受调控基因座有一定遗传距离的调控变异，并且可以包括样本中的纯合子个体，但可以对单个个体进行等位基因特异性研究，并内在控制由个体遗传背景引起的可能的跨调控差异。

特定人群影响的重要性

相关单倍型中的因果变异不仅应被确定用于进一步研究，还应用于遗传咨询；由于LD模式的变异，在一个群体中有效标记风险单倍型的SNP在另一个群体可能不存在⁸⁴.明确模拟混合人口种族背景的计算方法可以通过利用他们的共同祖先来增强他们的力量⁸⁵.

种群分化与正向选择

来自HapMap项目的单倍型结构和等位基因频率⁹和1000基因组项目⁸⁶提供当前作用于人类血统的正选择和负选择的证据。虽然人口结构和选择性清扫在近代人类历史中的相对重要性仍有争议^87–89，许多非编码基因座显示了多行局部适应证据⁹⁰.

利用人口结构和相关性

最终，连锁分析和GWAS对互补遗传结构敏感，但广泛的疾病可能同时表现出位点和等位基因异质性。由于与复杂疾病相关的基因组分布信号较弱，种群分层和隐性关联的潜在混杂效应对控制尤为重要。连锁分析和传递不平衡检验（TDT）等基于家族的方法不存在这些复杂问题，并且在一类新的方法中与关联检验相结合⁹¹此外，系统发育组学和祖先重组图重建的新方法提供了一个机会，可以通过明确考虑种群结构和区域特定相关性来加强关联研究^92,93.

净化选择的综合措施

等位基因频率数据建模^94,95和序列差异数据⁴⁶这表明哺乳动物保守元素之外发生了大量的负选择，证明了广泛的非编码功能。这些相同的力量可以根据其外显率和表达率在人群中维持较低频率的疾病相关等位基因。

识别变量之间的高阶关系

即使在考虑疾病相关区域功能注释的全基因组丰富性时，上述方法迄今为止也认为每个位点都是独立作用的，并认为其影响是相加的。功能基因组学通过利用功能和变异信息构建相互作用和调控网络，使我们能够考虑这些个体基因座之间的高阶相互作用。然后，这些网络可以指导对上位效应的搜索。

检测鼻出血从头开始的

对于上位性在复杂疾病遗传基础中的相对重要性存在着实质性分歧^96–98虽然酵母中的遗传相互作用已被系统地绘制出来⁹⁹在人类中发现了病例⁶⁶，仍然无法测试所有可能的交互；可以理解，在关联研究中检测上位性是一个非常有理论兴趣的领域^66,100,101.一种方法¹⁰²通过使用多因素降维（MDR）方法，结合家系不平衡测试中的连锁信息，成功发现影响尼古丁依赖的两个味觉受体基因之间的上位性，类似于前面描述的混合连锁关联研究⁹¹.

上位性导引搜索

一些方法建议通过只搜索最重要的独立关联位点来限制相互作用的搜索空间；该方法未能发现与身高相关的180个基因座之间的任何相互作用¹⁰³对搜索空间的另一个提出的限制是来自基因注释和蛋白质-蛋白质相互作用的先验知识^104–106此外，表观基因组图谱和改进的监管注释有望集中关注可能相互作用的SNP的相关组合。

使用物理相互作用数据将增强子与其靶基因联系起来

与启动子不同，增强子面临着双重挑战，既要在大量非功能序列中精确定位其位置，又要将其与目标基因联系起来。这些远端调控元件通常与启动子发生物理相互作用，检测这些相互作用的技术，如染色质构象捕获（3C，Hi-C）^107,108和染色质相互作用配对标记（ChIA-PET）¹⁰⁹发展迅速。

利用细胞间变异性将增强子与其靶基因联系起来

检测增强子-基因关系的另一种方法是测量这些元素的活性与多种细胞类型和条件下表达的相关性。这项技术被用于推断人类的基因调控网络³⁵和模型生物^99,110虽然蛋白质相互作用和代谢网络是整合到现有算法中的最常见的先验知识类型，但这些调控网络可能为上位性搜索提供更有用的起点。

从个体对个体的变异性推断网络

从诱导间变异中发现的分子QTL数据也可用于帮助推断调控网络¹¹¹不同于仅从表达模式中获得的证据，它为因果关系提供了明确的方向性。

从系统扰动推断网络

培养细胞的化学扰动已用于网络推理。这些实验不仅有助于理解药理机制，而且有助于揭示正常细胞和癌细胞之间网络拓扑的差异¹¹²包括与解释癌症遗传结构相关的基因-基因和基因-药物相互作用。

模型生物的人工选择和药物反应实验

虽然人类遗传历史和选择压力紧密交织在一起，但模型生物提供了一个机会，可以在受控环境中测量选择的全球影响以及由此产生的遗传相互作用^113,114.模型生物也被证明可用于测试基因⁹⁹和基因药物¹¹⁵人类不可能有如此规模的相互作用。

医疗环境中的功能基因组学

虽然基因分型和测序在发现疾病位点和越来越多的临床诊断中已经变得司空见惯，未来，全基因组分子图谱技术的民主化将进一步推动队列水平的分子关联研究和个人功能基因组学在医学环境中的应用。这些可以用疾病状态的分子水平诊断来补充现有的遗传和化学生物标志物。

疾病队列的功能基因组学

DNA微阵列的主要临床应用之一是识别疾病相关基因，并通过全基因组表达特征对疾病亚型进行分类¹¹⁶，以及来自微阵列和RNA-seq的疾病相关基因集可用于定义生物途径，如分子特征数据库（MSigDB）中的生物途径¹¹⁷类似地，染色质图谱可以跨谱系或在疾病和正常组织之间进行比较，以定义一组调控位点(图1d). 如前所述，这些集合可用于GWAS的富集和途径分析。

表观基因组-表型关联

基于微阵列的甲基化分析现在首次允许“表观基因组关联研究”（EWAS）¹¹⁸识别与疾病相关的差异甲基化位点，而不考虑基因型(图1d). 这些研究可能会绕过一些降低遗传因素外显率的环境变异性¹¹⁹将家庭成员纳入EWAS研究可能特别有用，以便测试印记和其他亲缘影响。

确定因果关系的分子表型与遗传关联

分子QTL的一个重要未来用途可能是支持孟德尔随机化研究^120,121分子性状——表达、表观遗传状态或生物标记——可能是遗传变异和复杂表型之间的重要垫脚石，但分子性状和有机体性状之间的因果关系方向尚不清楚。最近的一项研究使用这种方法对提高高密度脂蛋白胆固醇水平可以降低心肌梗死风险的观点提出了质疑，表明高密度脂素的等位基因并没有传递出心脏病的遗传保护，如果胆固醇是病因的话，这种保护是可以预期的¹²².

预测罕见和私有突变的分子后果

一旦从功能基因组学和分子变异中预测到这些调控机制，下一个挑战就是将这一知识应用于通过全基因组测序发现的罕见变异(图2d). 调控基因组学的一个目标应该是开发预测新调控变体影响的模型，其准确性与新蛋白编码变体的现有方法相同。

个人功能基因组学

一些疾病亚型或进展的表达特征已经在临床上使用，其使用有望增加。然而，类似于通过测序发现的罕见变异问题，临床功能基因组学样本也将显示出人群中罕见的模式，而这些模式与疾病无关。最近一项针对个人的初步研究表明¹²³解释这种个人组学分析既有巨大的力量，也有许多挑战，需要新的计算模型，从常见遗传和功能变异的影响推广到个人遗传学和功能基因组学。

生物医学信息学和互操作性的障碍

除了这些不同数据集的统计和计算集成的概念挑战外，每个主题都依赖于基因组学和医学遗传学研究人员之间的广泛数据共享。然而，由于隐私问题和数据库互操作性的信息学挑战，共享仍然受到限制。对于医疗记录和药物反应等非基因组数据集来说，这些挑战更大，导致信息宝库仍然闲置。为了将基因组学整合到药物发现和靶向验证管道中，还需要克服几个额外的障碍：

GWAS P值共享

为了便于综合分析，GWAS研究人员应该报告所有变体的关联，而不仅仅是那些最重要的变体。《自然遗传学》编辑委员会最近阐明了这方面的政策¹²⁴，但人们仍然担心，为了保护主体隐私，需要充分消除关联结果¹²⁵中央档案馆的程序，如NCBI的基因型和表型数据库（dbGaP）和欧洲基因-表型档案馆（EGA），对于平衡受试者的权利和科学开放原则至关重要。

数据库集成

数据库的互操作性对于综合分析仍然至关重要。UCSC基因组浏览器和ENSEMBL基因组浏览器的持续努力促进了表观基因组和变异数据的整合，但更好地连接到特定领域的知识库，如GTex eQTL浏览器、dbGaP分析和NHGRI GWAS目录¹¹将扩大遗传学家可用的联系范围。

病历标准化

医疗记录已被成功挖掘，以发现流行病学模式¹²⁶，药物不良反应¹²⁷、疾病风险因素和异质性¹²⁸随着电子病历中充斥着遗传数据，将需要与临床医生合作，以挖掘患者数据中与生物标记物和疾病的遗传关联，并发现疾病异质性的新模式¹²⁹.

医学和药物基因组学数据集的集成

最终，需要解决信息学方面的挑战，以便将由此产生的分子预测与患者记录、环境变量、药物筛选和反应数据库联系起来，从而使基因组学成为临床实践中的普遍现象。

结论

来自GWAS和全基因组测序的数据继续扩大了与人类疾病相关的非编码变异的目录，需要来自表观基因组绘图联盟的数据以及监管模型的补充，以优先考虑候选因果变异和候选受影响组织。通过联合考虑GWAS中发现的许多弱加性关联，以及在寻找变体之间的上位性相互作用时，对基因集的系统注释和手动注释以及高分辨率功能图进行周密整合，可能是关联路径和细胞类型的关键。然后可以在组织或在体外预测将重现表型的实验条件。此外，高通量测序技术促进了功能基因组学数据的激增，使“中间”分子表型与生物体表型和基因型都相关。这种新型数据可以与遗传关联相结合，以破译复杂疾病的潜在机制。

致谢

L.D.W.和M.K.由NIH拨款R01HG004037和RC1HG005334以及NSF职业研究拨款0644282资助。

工具书类

1柯林斯·F·革命到来了吗？自然。2010;464:674–675. [PMC免费文章][公共医学][谷歌学者]

2兰德ES。人类基因组测序的初步影响。自然。2011;470:187–197.[公共医学][谷歌学者]

三。Botstein D，Risch N.发现人类表型的基因型：孟德尔病的过去成就，复杂疾病的未来方法。自然遗传学。2003;33:228–237.[公共医学][谷歌学者]

4Hamosh A.人类孟德尔在线遗传（OMIM），人类基因和遗传疾病的知识库。核酸研究。2004;33：D514–D517。 [PMC免费文章][公共医学][谷歌学者]

5Botstein D，White RL，Skolnick M，Davis RW。利用限制性片段长度多态性构建人类遗传连锁图。美国人类遗传学杂志。1980;32:314–331. [PMC免费文章][公共医学][谷歌学者]

6Lander ES，Botstein D.使用RFLP连锁图绘制数量性状背后的孟德尔因子。遗传学。1989;121:185–199. [PMC免费文章][公共医学][谷歌学者]

7沃森JD。人类基因组计划：过去、现在和未来。科学。1990;248:44–49.[公共医学][谷歌学者]

8.Lander E，Kruglyak L.复杂性状的遗传解剖：解释和报告连锁结果的指南。自然遗传学。1995;11:241–247.[公共医学][谷歌学者]

9Gibbs RA等人，《国际HapMap项目》。自然。2003;426:789–796.[公共医学][谷歌学者]

10MI McCarthy等人，《复杂性状的全基因组关联研究：共识、不确定性和挑战》。《自然评论遗传学》。2008;9:356–369.[公共医学][谷歌学者]

11Hindorff LA等人。人类疾病和特征的全基因组关联位点的潜在病因学和功能意义。美国国家科学院。2009;106:9362–9367. [PMC免费文章][公共医学][谷歌学者]

12Manolio TA等人，寻找复杂疾病的缺失遗传力。自然。2009;461:747–753. [PMC免费文章][公共医学][谷歌学者]

13Cirulli ET，Goldstein DB。通过全基因组测序揭示罕见变异在常见疾病中的作用。《自然评论遗传学》。2010;11:415–425.[公共医学][谷歌学者]

14费希尔R。孟德尔遗传假设下亲属之间的相关性。爱丁堡皇家学会会刊。1918;52:399–433. [谷歌学者]

15Visscher PM，McEVOY B，Yang J.从Galton到GWAS：人类身高的定量遗传学。遗传学研究。2010;92:371–379.[公共医学][谷歌学者]

16麦克阿瑟DG等人，《人类蛋白编码基因功能缺失变异的系统调查》。科学。2012;335:823–828. [PMC免费文章][公共医学][谷歌学者]

17.Nelson MR等。14002人202个药物靶基因序列中的丰富稀有功能变体。科学。2012年doi:10.1126/science.1217876。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

18驻车PJ。ChIP–seq：成熟技术的优势和挑战。《自然评论遗传学》。2009;10:669–680. [PMC免费文章][公共医学][谷歌学者]

19Meissner A等人。用于比较高分辨率DNA甲基化分析的减少代表性亚硫酸氢盐测序。核酸研究。2005;33:5868–5877. [PMC免费文章][公共医学][谷歌学者]

20Boyle AP等。基因组开放染色质的高分辨率定位和表征。单元格。2008;132:311–322. [PMC免费文章][公共医学][谷歌学者]

21.ENCODE项目联盟。人类基因组中DNA元素的综合百科全书。自然。2012;489:57–74. [PMC免费文章][公共医学][谷歌学者]

22Bernstein BE等人。NIH路线图表观基因组学绘图联盟。国家生物技术。2010;28:1045–1048. [PMC免费文章][公共医学][谷歌学者]

23Adams D等人，用BLUEPRINT解码血液中的表观遗传特征。自然生物技术。2012;30:224–226.[公共医学][谷歌学者]

24Bussemaker HJ，Foat BC，Ward LD。基因组mRNA表达的预测模型：从模块到分子。生物物理和生物分子结构年鉴。2007;36:329–347.[公共医学][谷歌学者]

25Tompa M等人。评估用于发现转录因子结合位点的计算工具。自然生物技术。2005;23:137–144.[公共医学][谷歌学者]

26Barash Y等，解译拼接码。自然。2010;465:53–59.[公共医学][谷歌学者]

27Wang Z、Burge CB。拼接规范：从规范元素的零件列表到集成的拼接代码。RNA。2008;14:802–813. [PMC免费文章][公共医学][谷歌学者]

28Xie X，等。通过对几种哺乳动物的比较，系统地发现人类启动子和3|[prime]|UTR中的调控基序。自然。2005;434:338–345. [PMC免费文章][公共医学][谷歌学者]

29Moses A，Chiang D，Pollard D，Iyer V，Eisen M.MONKEY：使用结合位点特异性进化模型在多重比对中识别保守转录因子结合位点。基因组生物学。2004;5：R98。 [PMC免费文章][公共医学][谷歌学者]

30Hesselberth JR等。通过数字基因组足迹绘制体内蛋白质-DNA相互作用的全球地图。自然方法。2009;6:283–289. [PMC免费文章][公共医学][谷歌学者]

31.Henikoff JG、Belsky JA、Krassovsky K、MacAlpine DM、Henikof S.单基对分辨率下的表观基因组表征。美国国家科学院。2011;108:18318–18323. [PMC免费文章][公共医学][谷歌学者]

32.Rhee HS，Pugh BF.在单核苷酸分辨率下检测到的全基因组蛋白质-DNA相互作用。单元格。2011;147:1408–1419. [PMC免费文章][公共医学][谷歌学者]

33Beer MA，Tavazoie S.从序列预测基因表达。单元格。2004;117:185–198.[公共医学][谷歌学者]

34Roy S等人。果蝇modENCODE功能元件和调节电路的鉴定。科学。2010;330:1787–1797. [PMC免费文章][公共医学][谷歌学者]

35Gerstein MB等人。从ENCODE数据导出的人类调节网络架构。自然。新闻界。[PMC免费文章][公共医学][谷歌学者]

36Davidson EH等人，《基因组调控发展网络》。科学。2002;295:1669–1678.[公共医学][谷歌学者]

37Patwardhan RP等。哺乳动物体内增强子的大规模平行功能解剖。国家生物技术。2012;30:265–270. [PMC免费文章][公共医学][谷歌学者]

38Sharon E等。从数千个系统设计的启动子的高通量测量中推断基因调控逻辑。国家生物技术。2012;30:521–530. [PMC免费文章][公共医学][谷歌学者]

39Melnikov A等人。使用大规模平行报告试验对人类细胞中的诱导增强子进行系统解剖和优化。国家生物技术。2012;30:271–277. [PMC免费文章][公共医学][谷歌学者]

40Davydov EV，et al.使用GERP识别受选择性限制的高比例人类基因组++公共科学图书馆计算生物学。2010;6：e1001025。 [PMC免费文章][公共医学][谷歌学者]

41Lindblad-Toh K等人。使用29种哺乳动物绘制的人类进化约束高分辨率地图。自然。2011;478:476–482. [PMC免费文章][公共医学][谷歌学者]

42Kellis M，Patterson N，Endrizzi M，Birren B，Lander ES。酵母物种的测序和比较，以确定基因和调控元件。自然。2003;423:241–254.[公共医学][谷歌学者]

43Stark A等人。利用进化特征在12个果蝇基因组中发现功能元件。自然。2007;450:219–232. [PMC免费文章][公共医学][谷歌学者]

44Papatsenko D，Kislyuk A，Levine M，Dubchak I.不同果蝇物种不同功能序列类别的保护模式。基因组学。2006;88:431–442.[公共医学][谷歌学者]

45Dermitzakis ET，Clark AG。哺乳动物基因调控区转录因子结合位点的进化：保护和周转。分子生物学进化。2002;19:1114–1121.[公共医学][谷歌学者]

46Meader S，Ponting CP，Lunter G.人类和其他哺乳动物基因组中功能序列的大规模转换。基因组研究。2010;20:1335–1343. [PMC免费文章][公共医学][谷歌学者]

47Schmidt D等人。五种脊椎动物ChIP-Seq揭示了转录因子结合的进化动力学。科学。2010;328:1036–1040. [PMC免费文章][公共医学][谷歌学者]

48Brawand D等人。哺乳动物器官中基因表达水平的进化。自然。2011;478:343–348.[公共医学][谷歌学者]

49Ng PC，Henikoff S.SIFT：预测影响蛋白质功能的氨基酸变化。核酸研究。2003;31:3812–3814. [PMC免费文章][公共医学][谷歌学者]

50Yue P，Melamud E，Moult J.SNPs3D：关联研究的候选基因和SNP选择。BMC生物信息学。2006;7:166. [PMC免费文章][公共医学][谷歌学者]

51Ramensky V、Bork P、Sunyaev S。《人类非同义SNPs：服务器和调查》。核酸研究。2002;30:3894–3900. [PMC免费文章][公共医学][谷歌学者]

52Adzhubei IA等人。预测破坏性错义突变的方法和服务器。自然方法。2010;7:248–249. [PMC免费文章][公共医学][谷歌学者]

53贝克·M·功能基因组学：重要的变化。自然。2012;482:257–262.[公共医学][谷歌学者]

54.Ward LD，Kellis M.HaploReg：探索染色质状态、保存和基因连锁变体组中调控基序变化的资源。核酸研究。2012;40：D930-934。 [PMC免费文章][公共医学][谷歌学者]

55Boyle AP等人。使用RegulomeDB注释个人基因组中的功能变异。基因组研究。2012;22:1790–1797. [PMC免费文章][公共医学][谷歌学者]

56McLaren W等人。利用集成API和SNP效应预测因子推导基因组变异的结果。生物信息学。2010;26:2069–2070. [PMC免费文章][公共医学][谷歌学者]

57Wang K，Li M，Hakonarson H.ANNOVAR：高通量测序数据中遗传变异的功能注释。核酸研究。2010;38：e164–e164。 [PMC免费文章][公共医学][谷歌学者]

58Yandell M等人，《个人基因组的概率疾病基因发现者》。基因组研究。2011年doi:10.1101/gr.123158.111。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

59Subramanian A等。基因集富集分析：解释全基因组表达谱的基于知识的方法。美国国家科学院。2005;102:15545–15550. [PMC免费文章][公共医学][谷歌学者]

60Wang K，Li M，Hakonarson H。全基因组关联研究中的生物路径分析。Nat Rev基因。2010;11:843–854.[公共医学][谷歌学者]

61McKinney BA，新墨西哥州帕杰夫斯基。六个程度的终结：GWAS的统计网络模型。前发电机。2012;2 [PMC免费文章][公共医学][谷歌学者]

62.Ernst J等人。九种人类细胞类型染色质状态动力学的绘图和分析。自然。2011;473:43–49. [PMC免费文章][公共医学][谷歌学者]

63Maurano MT等。常见疾病相关调控DNA变异的系统定位。科学。2012;337:1190–1195. [PMC免费文章][公共医学][谷歌学者]

64Nica AC等。通过整合具有复杂性状遗传关联的表达QTL的候选因果调控效应。公共科学图书馆-遗传学。2010;6：e1000895。 [PMC免费文章][公共医学][谷歌学者]

65Nicolae DL等人。性状相关SNPs更有可能是eQTLs：增强GWAS发现的注释。公共科学图书馆-遗传学。2010;6：e1000888。 [PMC免费文章][公共医学][谷歌学者]

66Cantor RM、Lange K、Sinsheimer JS。GWAS结果的优先次序：统计方法及其应用建议综述。美国人类遗传学杂志。2010;86:6–22. [PMC免费文章][公共医学][谷歌学者]

67Knight J，Barnes MR，Breen G，Weale ME。使用功能注释实证确定基因组范围关联研究分析的Bayes因子。《公共科学图书馆·综合》。2011;6：e14808。 [PMC免费文章][公共医学][谷歌学者]

68Lewinger JP、Conti DV、Baurley JW、Triche TJ、Thomas DC。通过全基因组关联扫描对标记关联进行分级Bayes优先排序，以进行进一步研究。基因流行病学。2007;31:871–882.[公共医学][谷歌学者]

69.Chen GK，Witte JS。利用层次建模丰富全基因组关联研究的分析。美国人类遗传学杂志。2007;81:397–404. [PMC免费文章][公共医学][谷歌学者]

70Lee I、Blom UM、Wang PI、Shim JE、Marcotte EM。通过基于网络的全基因组关联数据提升来优先考虑候选疾病基因。基因组研究。2011;21:1109–1121. [PMC免费文章][公共医学][谷歌学者]

71Dering C，Hemmelmann C，Pugh E，Ziegler A.罕见序列变异的统计分析：崩塌方法概述。遗传流行病学。2011;35：S12–S17。 [PMC免费文章][公共医学][谷歌学者]

72Bansal V、Libiger O、Torkamani A、Schork NJ。涉及罕见变异的关联研究的统计分析策略。《自然评论遗传学》。2010;11:773–785. [PMC免费文章][公共医学][谷歌学者]

73Pai AA、Bell JT、Marioni JC、Pritchard JK、Gilad Y.多个人类和黑猩猩组织中DNA甲基化模式和基因表达水平的全基因组研究。公共科学图书馆-遗传学。2011;7：e1001316。 [PMC免费文章][公共医学][谷歌学者]

74Degner JF等。DNase I敏感性QTL是人类表达变异的主要决定因素。自然。2012;482:390–394. [PMC免费文章][公共医学][谷歌学者]

75Kasowski M等人，《人类转录因子结合的变异》。科学。2010;328:232–235. [PMC免费文章][公共医学][谷歌学者]

76Majewski J，Pastinen T.通过RNA-seq对eQTL变异的研究：从SNP到表型。遗传学趋势。2011;27:72–79.[公共医学][谷歌学者]

77Pickrell JK等人。通过RNA测序了解人类基因表达变异的机制。自然。2010;464:768–772. [PMC免费文章][公共医学][谷歌学者]

78.Lappalainen T、Montgomery SB、Nica AC、Dermitzakis ET。人类进化和疾病中编码和调控变异的上位选择。美国人类遗传学杂志。2011;89:459–463. [PMC免费文章][公共医学][谷歌学者]

79Kerkel K等人通过甲基化敏感SNP分析进行的基因组调查确定了序列依赖性等位基因特异性DNA甲基化。自然遗传学。2008;40:904–908.[公共医学][谷歌学者]

80Prendergast JG，Tong P，Hay DC，Farrington SM，Semple CA。人类胚胎干细胞全基因组筛查揭示了与已知疾病位点相关的等位基因特异性组蛋白修饰的新位点。表观遗传学与染色质。2012;5:6. [PMC免费文章][公共医学][谷歌学者]

81McDaniell R等人，《人类遗传性个体特异性和等位基因特异性染色质特征》。科学。2010;328:235–239. [PMC免费文章][公共医学][谷歌学者]

82Maynard ND，Chen J，Stuart RK，Fan JB，Ren B.人类细胞中等位基因特异性蛋白-DNA相互作用的全基因组定位。自然方法。2008;5:307–309.[公共医学][谷歌学者]

83Ge B等。高密度等位基因表达分析揭示的人类细胞顺式变异的全球模式。自然遗传学。2009;41:1216–1222.[公共医学][谷歌学者]

84Ng PC、Murray SS、Levy S、Venter JC。个性化医疗议程。自然。2009;461:724–726.[公共医学][谷歌学者]

85Patterson N等。疾病基因的高密度混合作图方法。美国人类遗传学杂志。2004;74:979–1000. [PMC免费文章][公共医学][谷歌学者]

86联合体T.1000 G.P.人群规模测序的人类基因组变异图。自然。2010;467:1061–1073. [PMC免费文章][公共医学][谷歌学者]

87Coop G等人，《地理在人类适应中的作用》。公共科学图书馆-遗传学。2009;5：e1000500。 [PMC免费文章][公共医学][谷歌学者]

88Hernandez RD等人。经典的选择性扫描在最近的人类进化中是罕见的。科学。2011;331:920–924. [PMC免费文章][公共医学][谷歌学者]

89Sabeti PC等人。人类血统中的正向自然选择。科学。2006;312:1614–1620.[公共医学][谷歌学者]

90Grossman SR等。多信号组合识别正选择区域中的因果变量。科学。2010;327:883–886.[公共医学][谷歌学者]

91Ott J、Kamatani Y、Lathrop M.全基因组关联研究的家族设计。《自然评论遗传学》。2011;12:465–474.[公共医学][谷歌学者]

92Minichiello MJ，Durbin R.利用推断的祖先重组图绘制性状位点。美国人类遗传学杂志。2006;79:910–922. [PMC免费文章][公共医学][谷歌学者]

93Wu Y.复杂疾病与祖先重组图的关联映射：模型和有效算法。计算机生物学杂志。2008;15:667–684.[公共医学][谷歌学者]

94Asthana S等。人类基因组中广泛分布的非编码纯化选择。美国国家科学院。2007;104:12410–12415. [PMC免费文章][公共医学][谷歌学者]

95.Ward LD，Kellis M.人类最近获得的调节功能的丰富净化选择证据。科学。2012年doi:10.1126/science.1225057。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

96Hill WG、Goddard ME、Visscher PM。数据和理论表明，复杂性状的遗传方差主要是加性的。公共科学图书馆-遗传学。2008;4：e1000008。 [PMC免费文章][公共医学][谷歌学者]

97邵华，等。复杂性状的遗传结构：大表型效应和普遍侵袭性。美国国家科学院。2008;105:19910–19914. [PMC免费文章][公共医学][谷歌学者]

98Zuk O，Hechter E，Sunyaev SR，Lander ES。遗传力缺失之谜：遗传相互作用创造幻影遗传力。美国国家科学院。2012年doi:10.1073/pnas.119675109。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

99Costanzo M等人，《细胞的遗传景观》。科学。2010;327:425–431. [PMC免费文章][公共医学][谷歌学者]

100科迪尔HJ。检测导致人类疾病的基因|[ndash]|基因相互作用。《自然评论遗传学》。2009;10:392–404. [PMC免费文章][公共医学][谷歌学者]

101Musani SK等。人类人口数据全基因组关联研究中基因x基因相互作用的检测。哼，这里。2007;63:67–84.[公共医学][谷歌学者]

102Lou XY等，《家庭研究中检测基因和基因-环境相互作用的组合方法》。美国人类遗传学杂志。2008;83:457–467. [PMC免费文章][公共医学][谷歌学者]

103Allen HL等。成百上千个基因位点和生物途径中的变异影响人类身高。自然。2010;467:832–838. [PMC免费文章][公共医学][谷歌学者]

104Emily M、Mailund T、Hein J、Schauser L、Schierup MH。在全基因组关联研究中使用生物网络搜索相互作用位点。《欧洲人类遗传学杂志》。2009;17:1231–1240. [PMC免费文章][公共医学][谷歌学者]

105Mechanic LE，Luke BT，Goodman JE，Chanock SJ，Harris CC。多态性相互作用分析（PIA）：一种研究复杂基因-基因相互作用的方法。BMC生物信息学。2008;9:146. [PMC免费文章][公共医学][谷歌学者]

106Pattin KA，Moore JH。利用蛋白质组改进人类常见疾病发作的全基因组遗传分析。人类遗传学。2008;124:19–29. [PMC免费文章][公共医学][谷歌学者]

107.Dekker J，Rippe K，Dekker M，Kleckner N.捕获染色体构象。科学。2002;295:1306–1311.[公共医学][谷歌学者]

108Lieberman-Aiden E等人。对长程相互作用的综合绘图揭示了人类基因组的折叠原理。科学。2009;326:289–293. [PMC免费文章][公共医学][谷歌学者]

109Fullwood MJ等。雌激素受体-α结合人类染色质相互作用组。自然。2009;462:58–64. [PMC免费文章][公共医学][谷歌学者]

110Cheng C等人。从高通量测序数据中获得的综合调控网络的构建和分析。公共科学图书馆计算生物学。2011;7：e1002190。 [PMC免费文章][公共医学][谷歌学者]

111朱杰等。整合大规模功能基因组数据以剖析酵母调控网络的复杂性。自然遗传学。2008;40:854–861. [PMC免费文章][公共医学][谷歌学者]

112Barretina J等人。《癌症细胞系百科全书》能够对抗癌药物敏感性进行预测建模。自然。2012;483:603–607. [PMC免费文章][公共医学][谷歌学者]

113Burke MK等人，果蝇长期进化实验的全基因组分析。自然。2010;467:587–590.[公共医学][谷歌学者]

114Gresham D等人。酵母对营养有限的受控环境的进化适应的全过程和动力学。公共科学图书馆-遗传学。2008;4：e1000303。 [PMC免费文章][公共医学][谷歌学者]

115Perlstein EO、Ruderfer DM、Roberts DC、Schreiber SL、Kruglyak L.酵母中小分子药物反应个体差异的遗传基础。自然遗传学。2007;39:496–502.[公共医学][谷歌学者]

116.Quackenbush J.微阵列分析和肿瘤分类。N英格兰医学杂志。2006;354:2463–2472.[公共医学][谷歌学者]

117Liberzon A等人，分子签名数据库（MSigDB）3.0。生物信息学。2011;27:1739–1740. [PMC免费文章][公共医学][谷歌学者]

118Rakyan VK、Down TA、Balding DJ、Beck S.常见人类疾病的全表观基因组关联研究。《自然评论遗传学》。2011;12:529–541. [PMC免费文章][公共医学][谷歌学者]

119Petronis A.表观遗传学是复杂性状和疾病病因学的统一原则。自然。2010;465:721–727.[公共医学][谷歌学者]

120Chen LS、Emmert-Streib F、Storey JD。利用自然随机转录推断基因之间的调控关系。基因组生物学。2007;8：R219。 [PMC免费文章][公共医学][谷歌学者]

121Lawlor DA、Harbord RM、Sterne JAC、Timpson N、Davey Smith G.Mendelian随机化：将基因用作流行病学因果推断的工具。统计医学。2008;27:1133–1163.[公共医学][谷歌学者]

122Voight-BF等。血浆HDL胆固醇与心肌梗死风险：一项孟德尔随机研究。《柳叶刀》。doi:10.1016/S0140-6736（12）60312-2。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

123Chen R等。个人Omics分析揭示动态分子和医学表型。单元格。2012;148:1293–1307. [PMC免费文章][公共医学][谷歌学者]

124要求更多。自然遗传学。2012;44:733–733.[公共医学][谷歌学者]

125Homer N等，《利用高密度SNP基因分型芯片解决个人向高度复杂混合物贡献微量DNA的问题》。公共科学图书馆-遗传学。2008;4：e1000167。 [PMC免费文章][公共医学][谷歌学者]

126.SalathéM等人，《数字流行病学》。公共科学图书馆计算生物学。2012;8：e1002616。 [PMC免费文章][公共医学][谷歌学者]

127Brownstein JS、Sordo M、Kohane IS、Mandl KD。Tell-Tale Heart:基于人群的监测揭示了罗非昔布和塞来昔布与心肌梗死的相关性。《公共科学图书馆·综合》。2007;2 [PMC免费文章][公共医学][谷歌学者]

128Roque FS等。使用电子病历发现疾病相关性并对患者队列进行分层。公共科学图书馆计算生物学。2011;7：e1002141。 [PMC免费文章][公共医学][谷歌学者]

129Wilke-RA等。电子病历在药物基因组学中的新兴作用。临床药理学。2011;89:379–386. [PMC免费文章][公共医学][谷歌学者]

130卡夫P，亨特DJ。遗传风险预测-我们还在吗？《新英格兰医学杂志》。2009;360:1701–1703.[公共医学][谷歌学者]

131Yngvadottir B、MacArthur DG、Jin H、Tyler-Smith C.个人基因组学的前景和现实。基因组生物学。2009;10:237. [PMC免费文章][公共医学][谷歌学者]

132Roberts NJ等人，《个人基因组测序的预测能力》。科学与运输医学。2012;4：133ra58–133ra58。 [PMC免费文章][公共医学][谷歌学者]

133Jostins L，Barrett JC。复杂疾病的遗传风险预测。Hum Mol基因。2011;20：R182–188。 [PMC免费文章][公共医学][谷歌学者]

134Stahl EA等。类风湿关节炎多基因结构的贝叶斯推断分析。自然遗传学。2012;44:483–489. [PMC免费文章][公共医学][谷歌学者]

135.Purcell SM等人。常见的多基因变异会增加精神分裂症和双相情感障碍的风险。自然。2009;460:748–752. [PMC免费文章][公共医学][谷歌学者]

136Cooper GM、Shendure J.《针堆中的针：在大量基因组数据中发现致病性变体》。《自然评论遗传学》。2011;12:628–640.[公共医学][谷歌学者]

137Gibson G.罕见和常见变体：二十个参数。《自然评论遗传学》。2012;13:135–145. [PMC免费文章][公共医学][谷歌学者]

138戈尔茨坦数据库。合成关联的重要性只能通过经验来解决。《公共科学图书馆·生物》。2011;9 [PMC免费文章][公共医学][谷歌学者]

139杨杰等。常见SNP解释了人类身高遗传率的很大一部分。自然遗传学。2010;42:565–569. [PMC免费文章][公共医学][谷歌学者]

140Nebert DW，Zhang G，Vesell ES。从人类遗传学和基因组学到药物遗传学和药物基因组学：过去的教训，未来的方向。药物Metab Rev。2008;40:187–224. [PMC免费文章][公共医学][谷歌学者]

141Garrod AE，Harris H。先天性代谢错误。1909 [谷歌学者]

142Woo SL、Lidsky AS、Güttler F、Chandra T、Robson KJ。克隆人苯丙氨酸羟化酶基因可用于典型苯丙酮尿症的产前诊断和携带者检测。自然。1983;306:151–155.[公共医学][谷歌学者]

143Riordan JR等。囊性纤维化基因的鉴定：互补DNA的克隆和表征。科学。1989;245:1066–1073.[公共医学][谷歌学者]

144Audrézet M等。CFTR基因的基因组重排：广泛的等位基因异质性和不同的突变机制。人类突变。2004;23:343–357.[公共医学][谷歌学者]

145.Zschocke J.欧洲苯丙酮尿症突变。人类突变。2003;21:345–356.[公共医学][谷歌学者]

146Amiel J等人，《先天性巨结肠，相关综合征和遗传学：综述》。医学遗传学杂志。2008;45:1–14.[公共医学][谷歌学者]

147Nica AC等，《跨多个人类组织的基因调控变异架构：MuTHER研究》。公共科学图书馆-遗传学。2011;7：e1002003。 [PMC免费文章][公共医学][谷歌学者]

148King JL，Jukes TH.非达尔文进化。科学。1969;164:788–798.[公共医学][谷歌学者]

149木村M.分子水平上的进化速率。自然。1968;217:624.[公共医学][谷歌学者]

150Ohno S.在我们的基因组中有这么多“垃圾”DNA。布鲁克海文生物学专题讨论会。1972;23:366–370.[公共医学][谷歌学者]

151Stratton MR、Campbell PJ、Futreal PA。癌症基因组。自然。2009;458:719–724. [PMC免费文章][公共医学][谷歌学者]

152Korn JM等。SNP、常见拷贝数多态性和罕见CNV的综合基因型调用和关联分析。自然遗传学。2008;40:1253–1260. [PMC免费文章][公共医学][谷歌学者]

153基因组分析工具包：用于分析下一代DNA测序数据的MapReduce框架。基因组研究。2010;20:1297–1303. [PMC免费文章][公共医学][谷歌学者]

154Li Y，Willer CJ，Ding J，Scheet P，Abecasis GR.MaCH：使用序列和基因型数据估计单倍型和未观察到的基因型。基因流行病学。2010;34:816–834. [PMC免费文章][公共医学][谷歌学者]

155Marchini J、Howie B、Myers S、McVean G、Donnelly P。通过基因型插补进行全基因组关联研究的新多点方法。自然遗传学。2007;39:906–913.[公共医学][谷歌学者]

156Servin B，Stephens M.关联研究的基于输入的分析：候选区域和数量性状。公共科学图书馆-遗传学。2007;三：e114。 [PMC免费文章][公共医学][谷歌学者]

157Price AL等。主成分分析纠正了全基因组关联研究中的分层。自然遗传学。2006;38:904–909.[公共医学][谷歌学者]

158Purcell S等人，《PLINK：全基因组关联和基于群体的连锁分析的工具集》。美国人类遗传学杂志。2007;81:559–575. [PMC免费文章][公共医学][谷歌学者]

159Veyrieras J-B等。表达QTL的高分辨率定位揭示了人类基因调控。公共科学图书馆-遗传学。2008;4 [PMC免费文章][公共医学][谷歌学者]

160Shabalin AA.矩阵eQTL：通过大矩阵运算进行超快速eQTL。生物信息学。2012;28:1353–1358. [PMC免费文章][公共医学][谷歌学者]

161Rozowsky J等人。AlleleSeq：网络框架中等位基因特异表达和结合的分析。分子系统生物学。2011;7:522. [PMC免费文章][公共医学][谷歌学者]

162Smyth GK公司。用于评估微阵列实验中差异表达的线性模型和经验贝叶斯方法。统计应用基因分子生物学。2004;三：第3条。[公共医学][谷歌学者]

163Robinson医学博士、McCarthy DJ、Smyth GK。edgeR：用于数字基因表达数据差异表达分析的Bioconder软件包。生物信息学。2010;26:139–140. [PMC免费文章][公共医学][谷歌学者]

164Faustino NA，Cooper TA。前mRNA剪接与人类疾病。基因开发。2003;17:419–437.[公共医学][谷歌学者]

165.Cáceres JF，Kornblihtt AR。选择性剪接：多种控制机制和人类疾病的参与。遗传学趋势。2002;18:186–193.[公共医学][谷歌学者]

166López-Bigas N，Audit B，Ouzounis C，Parra G，GuigóR。剪接突变是遗传病最常见的原因吗？FEBS信函。2005;579:1900–1903.[公共医学][谷歌学者]

167.Barbaux S等。WT1中的供体剪接位点突变与Frasier综合征有关。自然遗传学。1997;17:467–470.[公共医学][谷歌学者]

168Lorson CL，Hahnen E，Androphy EJ，Wirth B。SMN基因中的单核苷酸调节剪接并负责脊髓肌萎缩。美国国家科学院。1999;96:6307–6311. [PMC免费文章][公共医学][谷歌学者]

169Cazzola M，斯科达钢筋混凝土。转化病理生理学：人类疾病的新分子机制。鲜血。2000;95:3280–3288.[公共医学][谷歌学者]

170Bisio A等人，易患黑色素瘤的CDKN2A/p16INK4a 5′-UTR变异体的功能分析。人类分子遗传学。2010;19:1479–1491.[公共医学][谷歌学者]

171Abelson JF等。SLITRK1中的序列变异与抽动秽语综合征相关。科学。2005;310:317–320.[公共医学][谷歌学者]

172Guttman M等人。染色质特征揭示了哺乳动物中超过1000个高度保守的大型非编码RNA。自然。2009;458:223–227. [PMC免费文章][公共医学][谷歌学者]

173Ponting CP，Oliver PL，Reik W.长非编码RNA的进化和功能。单元格。2009;136:629–641.[公共医学][谷歌学者]

174进化比较为RMRP突变的致病性提供了证据。公共科学图书馆-遗传学。2005;1：e47。 [PMC免费文章][公共医学][谷歌学者]

175Cooper TA、Wan L、Dreyfuss G.RNA和疾病。单元格。2009;136:777–793. [PMC免费文章][公共医学][谷歌学者]

176骑士JC。复杂疾病特征的调控多态性。分子医学杂志。2004;83:97–109. [PMC免费文章][公共医学][谷歌学者]

177Martin MP等，CCR5启动子变异体对艾滋病进展的基因加速作用。科学。1998;282:1907–1911.[公共医学][谷歌学者]

178Bream JH等人，CCR5启动子等位基因和特异性DNA结合因子。科学。1999;284:223–223.[公共医学][谷歌学者]

179Bray NJ等。人类大脑中APOE的等位基因表达：ε状态和启动子单倍型的影响。人类分子遗传学。2004;13:2885–2892.[公共医学][谷歌学者]

180St George-Hyslop PH，Petit A.阿尔茨海默病的分子生物学和遗传学。C R生物。2005;328:119–130.[公共医学][谷歌学者]

181Exner M，Minar E，Wagner O，Schillinger M。血红素氧化酶-1启动子多态性在人类疾病中的作用。自由基生物学和医学。2004;37:1097–1104.[公共医学][谷歌学者]

182Kleinjan DA，van Heyningen V.基因表达的长期控制：疾病中的新兴机制和破坏。美国人类遗传学杂志。2005;76:8–32. [PMC免费文章][公共医学][谷歌学者]

183Noonan JP，McCallion AS，《长范围调控元件的基因组学》。基因组学和人类遗传学年鉴。2010;11:1–23.[公共医学][谷歌学者]

184Visel A，Rubin EM，Pennacchio LA。远效增强子的基因组观点。自然。2009;461:199–205. [PMC免费文章][公共医学][谷歌学者]

185Lettice LA等。一种长范围Shh增强剂调节发育中肢体和鳍的表达，并与轴前多指畸形相关。人类分子遗传学。2003;12:1725–1735.[公共医学][谷歌学者]

186Sakabe NJ、Savic D、Nobrega MA。发育和疾病中的转录增强因子。基因组生物学。2012;13:238. [PMC免费文章][公共医学][谷歌学者]

187Pomerantz MM等人。8q24癌症风险变体rs6983267在结直肠癌中显示出与MYC的长期相互作用。自然遗传学。2009;41:882–884. [PMC免费文章][公共医学][谷歌学者]

188Tuupanen S等。染色体8q24处常见的结直肠癌易感性SNP rs6983267具有增强Wnt信号的潜力。自然遗传学。2009;41:885–890.[公共医学][谷歌学者]

189.Wasserman NF，Aneas I，Nobrega MA。一种与前列腺癌风险相关的8q24基因沙漠变异与MYC增强剂在体内的活性不同。基因组研究。2010;20:1191–1197. [PMC免费文章][公共医学][谷歌学者]

190Duan J等。人类多巴胺受体D2（DRD2）的同义突变影响受体的mRNA稳定性和合成。人类分子遗传学。2003;12:205–216.[公共医学][谷歌学者]

191SeattleSeq注释。在<http://snp.gs.washington.edu/SeattleSeq注释/>.

192.Burgner D等人。一项全基因组关联研究确定了川崎病新的和功能相关的易感位点。公共科学图书馆-遗传学。2009;5：e1000319。 [PMC免费文章][公共医学][谷歌学者]

193Emilsson V等人。基因表达的遗传学及其对疾病的影响。自然。2008;452:423–428.[公共医学][谷歌学者]

194SegrèAV、Groop L、Mootha VK、Daly MJ、Altshuler D。线粒体基因的常见遗传变异与2型糖尿病或相关血糖特征的相关性并不丰富。公共科学图书馆-遗传学。2010;6 [PMC免费文章][公共医学][谷歌学者]

195Raychaudhuri S等人。确定基因组疾病区域之间的关系：预测致病性SNP关联和罕见缺失的基因。公共科学图书馆-遗传学。2009;5：e1000534。 [PMC免费文章][公共医学][谷歌学者]

196Fransen K等。对影响基因表达的单核苷酸多态性进行分析，确定UBE2L3和BCL3为克罗恩病的潜在新风险基因。人类分子遗传学。2010;19:3482–3488.[公共医学][谷歌学者]

197Ernst J，Kellis M.人类基因组系统注释染色质状态的发现和表征。自然生物技术。2010;28:817–825. [PMC免费文章][公共医学][谷歌学者]

198Schaub MA、Boyle AP、Kundaje A、Batzoglou S、Snyder M.将疾病关联与人类基因组中的调控信息联系起来。基因组研究。2012;22:1748–1759. [PMC免费文章][公共医学][谷歌学者]

199John S等。染色质可及性预先决定了糖皮质激素受体结合模式。自然遗传学。2011;43:264–268. [PMC免费文章][公共医学][谷歌学者]

200.Cowper-Sal-lari R等人，乳腺癌风险相关SNPs调节染色质对FOXA1的亲和力并改变基因表达。自然遗传学。2012年doi:10.1038/ng.2416。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

解读复杂疾病遗传学中的非编码变异

卢卡斯·D·沃德

马诺利斯·凯利斯

摘要

表1

表2

方框1

全基因组关联研究的潜力和局限性

非编码基因组的系统注释

表3

参考功能基因组学和染色质状态图

核苷酸再溶监管注释

变量效应的预测模型

相关物种的比较基因组学

进化保守的生化活性

使用功能基因组注释解释变体

确定变体优先级的工具

表4

基因集富集分析

调控元素富集分析

负荷试验；处理异质性

表5

利用分子表型中的群体变异解释变异

基因型相关分子活性

等位基因特异性活性

特定人群影响的重要性

种群分化与正向选择

利用人口结构和相关性

净化选择的综合措施

识别变量之间的高阶关系

检测鼻出血从头开始的

上位性导引搜索

使用物理相互作用数据将增强子与其靶基因联系起来

利用细胞间变异性将增强子与其靶基因联系起来

从个体对个体的变异性推断网络

从系统扰动推断网络

模型生物的人工选择和药物反应实验

医疗环境中的功能基因组学

疾病队列的功能基因组学

表观基因组-表型关联

确定因果关系的分子表型与遗传关联

预测罕见和私有突变的分子后果

个人功能基因组学

生物医学信息学和互操作性的障碍

GWAS P值共享

数据库集成

病历标准化

医学和药物基因组学数据集的集成

结论

致谢

工具书类