Erosion of Conserved Binding Sites in Personal Genomes Points to Medical Histories

Harendra Guturu; Sandeep Chinchali; Shoa L. Clarke; Gill Bejerano

doi:10.1371/journal.pcbi.1004711

公共科学图书馆计算生物学。2016年2月；12（2）：e1004711。

2016年2月4日在线发布。数字对象标识：10.1371/日记.pcbi.1004711

预防性维修识别码：下午742230

PMID：26845687

个人基因组中保守结合位点的侵蚀指向医学史

哈伦德拉·古图鲁,^1,² Sandeep Chinchali公司,^1,^三肖亚·克拉克,⁴和吉尔·贝杰拉诺^2,^三，^5,^*

陈凯文，编辑器

作者信息文章注释版权和许可证信息 PMC免责声明

关联数据

补充资料: S1表：GWAS单核苷酸多态性的大量富集与GWAS表型一致。对于从代谢性状到癌症和克罗恩病的GWAS表型，NHGRI目录中与该性状相关的一组非离子GWAS SNP因与该性状密切相关的GREAT注释而最为丰富，提示基因调控突变通常聚集在与每个检测表型相关的关键基因附近。根据GWAS表型（第1列），顶行第3-8列描述了从与GWAS表型及其属性相关的非离子位点获得的顶级GREAT预测。褶皱富集和FDR q值均来自GREAT的二项式富集试验。相关基因的分数是指为表型注释的基因（在受影响的靶基因中列出的基因）的数量除以所有用表型注释的基因。第3列突出了预测的GREAT术语。每个GWAS表型的底行提供了参考文献的准确引用，证实了观察到的表型和预测的表型之间的联系（分别为第1列和第3列）。
（PDF格式）
pcbi.1004711.s001.pdf（119K）
GUID:47F149F5-0BA5-4E98-BE8B-0D32D5A3117A
S2表：使用1000个基因组数据进行富集的错误发现率（FDR）。（A）来自1000基因组项目的对照个体的CoBEL被提交给GREAT，并计算具有相同或（B）相关最高富集度的个体与五个分析基因组最高富集度之间的比例。在所有情况下，不到10%的对照人群，无论种族如何，与五个分析的基因组具有相同或类似的最高富集度。
（PDF格式）
pcbi.1004711.s002.pdf（1300万）
GUID:1F2B816C-2889-4479-81ED-18E9541DA01E
S3表：嗜睡症相关SNP。对五个分析的基因组进行了嗜睡症相关GWAS SNP的计数，表明Church有嗜睡症和两个GWAS变异体，与其他基因组没有什么不同，他有2-3个常见的嗜睡症变异体。因此，我们基于CoBEL对Church的发作性睡病相关预测来自正交方法，即多个CoBEL的集合效应。
（PDF格式）
pcbi.1004711.s003.pdf（110公里）
GUID:20355800-12F7-4295-AE6A-1E0FA2511B1E
S4表：地震基因组的全套CoBEL。（XLSX）
pcbi.1004711.s004.xlsx公司（160万）
GUID:F39960D7-4606-4021-BD15-79640336AE27
S5表：教会基因组的全套CoBEL。（XLSX）
电话：104711.s005.xlsx（136K）
GUID:4F98E511-8E40-4855-8FE1-82EC13F32269
S6表：Angrist基因组的全套CoBEL。（XLSX）
pcbi.1004711.s006.xlsx公司（147K）
GUID:60F91FD9-F593-42FE-A322-C96C61C3D6FC
S7表：吉尔基因组的全套CoBEL。（XLSX）
pcbi.1004711.s007.xlsx公司（149000）
GUID:35E99ADF-6855-442E-A564-3065F0987109
S8表：Lupski基因组的全套CoBEL。（XLSX）
pcbi.1004711.s008.xlsx公司（163K）
指南：452EBA61-C56F-4D1D-B7CF-2a5ae597381
S9表：年地震“心输出量异常”预测的结合位点集和预测的上游因子表1.（XLSX）
pcbi.1004711.s009.xlsx公司（16000）
GUID:8C30F298-BF4F-449B-AB75-0B3F80E346A4
S10表：年教会“节前副交感神经系统发育”预测的结合位点集和预测上游因子表1.（XLSX）
pcbi.1004711.s010.xlsx公司（1300万）
GUID:70A2C286-40CF-4285-97C7-DF57FAC52542
S11表：Angrist“上皮细胞形态发生”预测的结合位点集和预测上游因子表1.（XLSX）
pcbi.1004711.s011.xlsx公司（15公里）
GUID:11D49AC8-AC75-4AC8-9176-C2F0524338EE
S12表：Gill“循环钠水平降低”预测的结合位点集和预测的上游因子表1.（XLSX）
pcbi.1004711.s012.xlsx公司（1300万）
GUID:C0C4E189-E702-4B1B-A029-88C97056593C
S13表：狼疮“少突胶质细胞分化调节”预测的一组结合位点和预测上游因子表1.（XLSX）
pcbi.1004711.s013.xlsx公司（16000）
GUID:5762D827-C254-4164-8CE3-2A06E43F4B3C
S14表格：每个人的病史和CoBEL的最高丰富性。这些病史代表了所分析的每个个体最相关的疾病表型。这些历史要么是从他们基因组的原始出版物中获得的，要么是从下载他们基因组的公共数据库中获得的。
（XLSX）
pcbi.1004711.s014.xlsx公司（万）
GUID:6ECEA81D-F8AD-489D-B70A-1DA438842872
S15表：医生定义的所有病史和丰富性之间的关联矩阵。每一列代表一个丰富的生物过程或表型。每行代表一种疾病表型。只有当医生认为生物过程或表型与该疾病表型相关时，才会放置“X”。
（XLSX）
pcbi.1004711.s015.xlsx公司（12公里）
GUID:383EEC11-716F-405A-8089-86544D2FDD65
S16表：文献调查中定义的所有病史和丰富性之间的关联矩阵。每一列代表一个丰富的生物过程或表型。每行代表一种疾病表型。只有在主要文献为两个实体之间的因果关系提供潜在支持的情况下，才会设置值。如果链接不明显，Pubmed PMID将提供支持参考。
（XLSX）
pcbi.1004711.s016.xlsx公司（1100）
GUID:93551DDC-48A8-40D4-9466-8096AA429E52
S1图：CoBEL在五个被分析的个体中共享。CoBEL（保守结合位点侵蚀位点）SNP的数量和分布表1（A）地震，（B）丘奇，（C）Angrist，（D）Gill，和（E）Lupski。在所有五种浓缩物中，红色的单个变体的贡献最大（17%-34%）。
（畅通节能法）
pcbi.1004711.s017.tif（77.5万）
GUID:B98E5174-C212-4C05-B4E8-7C2ADA1301A0

数据可用性声明: 所有相关数据都在论文及其支持信息文件中。

摘要

尽管许多人类疾病都有涉及许多基因座的遗传成分，但大多数研究在统计上没有足够的能力分离出许多有贡献的变异体，这就提出了一个问题，即是否存在识别疾病突变的替代过程。为了解决这个问题，我们收集了被个体变异体破坏的祖先转录因子结合位点，然后在一组功能相关基因旁边寻找它们最显著的聚集点。令人惊讶的是，当该方法应用于五个不同的完整人类基因组时，每个基因组的最高富集功能总是反映出它们截然不同的病史。例如，我们的方法暗示了长期心脏病家族史患者的“心输出量异常”，高血压患者的“循环钠水平降低”，以及从发作性睡病到轴突神经病变的病史的其他生物学意义上的联系。我们的结果表明，突变负荷对基因调控的侵蚀显著地促成了在病史中表现出的可观察到的遗传表型。我们开发的测试揭示了迄今为止隐藏的一层个人变体，有望为人类疾病的外显率、表现力以及检测它们的敏感性提供新的线索。

作者摘要

个人基因组学的一个中心目标是解释个人的基因组，以识别具有疾病风险的变体，这一目标对个性化、精确医学具有深远的影响。在这里，我们利用下一代测序、健康记录和功能基因组注释来开发统计方法，从单个基因组预测疾病风险。由于约90%的全基因组关联研究疾病相关变异体位于非编码基因组中，我们确定了突变保守转录因子结合位点的个人变异体。为了确定这种非编码的个人变体是否共同失调了一个关键的生物过程，我们使用富集分析工具GREAT来确定一个人的非编码突变是否在参与共同生物途径的基因的调节域中过度表达。值得注意的是，在我们分析的五个不相关的基因组中，最具统计学意义的、看似失调的通路表明了患者的病史，从神经病变到心脏病。统计分析证实，在无表型、赛跑匹配的1000个基因组队列中，我们预测的个体病历路径具有严格且显著的相关性。因此，我们提出了一种新的方法，利用多因素非编码变异的贡献来预测个体基因组中的疾病风险。

介绍

高通量基因分型的出现刺激了旨在确定遗传病基础的全基因组关联研究（GWAS）的兴起。GWAS变异体，其中超过90%被发现位于蛋白质编码序列之外[1]越来越多的非编码基因组注释通过将重点从蛋白质编码和拷贝数变异转移，帮助我们更好地理解疾病的遗传基础[2–4]到非编码基因组。尽管GWAS有助于提示人类疾病易感性的基因调节成分[5,6]他们一直受到“缺失遗传力问题”的困扰，该问题认为GWAS检测到的基因座通常只能解释导致表型的一小部分遗传变异[三,7].

导致“缺失遗传力问题”的建议遗传方差模型包括“无穷小模型”（大量小效应常见变异）和“罕见等位基因模型”（大批大效应罕见变异）[7]. 在无穷小模型的情况下，缺失的遗传力可以解释为变体之间的加性或上位性相互作用，而不是独立的多态性[8]. 但是，选择和评估所有变体集会导致集合的组合爆炸，而我们目前在统计上没有足够的能力进行评估。

在这项工作中，我们将展示如何不仅成功地避免组合爆炸，而且同时解决加性和幕式非编码变异在人类疾病中的关键作用。具体来说，我们开发了一个新的统计框架来识别个人基因组中可能有害的非编码变异全体，通过对参与共同生物过程的关键基因的失调而导致疾病风险。

非编码基因组的核心作用在于顺式-基因表达的调节。GREAT（Genomic Regions Enrichment of Annotations Tool，基因组区域注释工具）是一种常用的工具，用于解决一组顺式-调控基因组区域[9]. GREAT测试一组任意的基因组区域是否聚集在具有特定功能或通路的基因旁边，其中大多数被认为是调节附近基因表达的区域。GREAT分配不同的基因可变长度的基因调控域，解释远端调控元件，并奖励观察同一基因旁边的多个元件，反映脊椎动物基因调控的观察特性。在分析不同类型的ChIP-seq和相关数据方面，GREAT已被证明优于基于基因的测试（遵循转录分析的单探针基因范式）[9].

由于我们对识别疾病相关非编码变异以解释个人基因组感兴趣，我们询问使用GREAT是否可以在关键生物路径中丰富疾病相关非码变异的功能。首先，我们检测了与克罗恩病、空腹血糖特征、GREAT等多种表型相关的非编码GWAS显著SNP(S1表). 并非所有GWAS tag-SNP本身都是因果的，但由于它们靠近因果突变，我们可以假设GREAT在大多数情况下会将tag-SNPs与相同的受影响基因联系起来，它会将潜在的因果突变联系起来。例如，如果我们对40个与胆固醇水平相关的非离子非关联GWAS单核苷酸多态性进行GREAT分析，这是最丰富的术语(P（P）=3 x 10⁻⁵)在整个GO本体论中，涉及“循环胆固醇水平异常”的基因。我们在中显示了几个不同GWAS集的类似结果S1表在每种情况下，我们发现非连锁tag-SNP在与检测表型显著相关的功能类别基因旁边最丰富，提供了电子版对研究质量和GREAT分析有效性的保证，但也表明这些突变中的多个可能在受累个体中积累。因此，我们假设更多的信号可能隐藏在顺式-超出GWAS可能揭示的监管变量。

GWAS变异体靶基因富集的一致性表明变异体具有加性和/或上位性效应以赋予表型。由于计算要求高且缺乏统计能力，对此类交互进行建模通常仅限于对的启发式搜索[10]. 由于基因组中性进化产生的大多数变异，在非编码区识别因果变异的统计能力进一步减弱[11]. 因此，为了获得可应用GREAT的高质量变体集，我们需要一种方法，即获得一组功能相关的非编码变体，而无需枚举所有可能的集。

为了获得一组功能相关的、假定有害的非编码变体，我们利用转录因子（TF）结合位点预测。新型高通量技术，如HT-SELEX和蛋白质结合微阵列，揭示了大多数人类转录因子的精确DNA结合偏好[12,13]. 利用这些偏好来预测单个基因组中的TF结合是众所周知的困难。然而，如果人们只愿意预测结合位点的一个子集，即那些通过进化而保守的结合位点，那么只有在许多不同哺乳动物的直系同源位置看到结合位点，才能预测结合位点的存在[14]. 这样的方案自然会遗漏许多进化上较新的结合位点，但正如我们和其他人所示，我们确实预测的那些保守的结合位点可以非常精确地预测，并且对于下游分析（如功能富集和蛋白质复合物预测）很有用[14–16].

如GREAT论文所示，虽然ChIP-seq实验表明TF与许多基因组位置非特异性结合，但最强的GREAT基因富集反映了TF调节的过程或功能，突出了参与调节过程的结合位点子集[9]. 以前，在我们的结合位点预测（PRISM）论文中，我们预测了给定TF基序的结合位点的保守子集，并对这一集合代替ChIP-seq峰进行了GREAT分析。在许多情况下，例如对于转录因子REST、GABPA、SRF和STAT3，这种分析揭示了TF参与的多种功能上下文，而无需进行细胞型匹配的TF-ChIP-seq实验[14].

此外，在我们之前的结合位点预测工作中，我们将保守结合位点预测与GWAS标记SNP相交。为了最大限度地提高GWAS标记SNP确实是功能性、因果性突变的可能性，我们着手寻找以下内容：GWAS标记的SNP与保守结合位点预测重叠，例如：1）两个观察到的等位基因在预测的TF与基序结合的能力上显著不同，和2）我们预测结合的TF先前与GWAS表型有关。在我们的论文中，我们只强调了五个这样的预测（[14]). 在前列腺癌的背景下，一个引人注目的例子是我们的预测，即6q22处的GWAS风险等位基因修饰HOX13的保守结合位点，从而修饰下游RFX6基因的表达。我们的预测后来得到了Taipale及其同事的完美实验验证，说明了PRISM预测在评估非编码变异对疾病的影响方面的效用[17].

如上所述，结合位点预测与PRISM和功能评估的融合顺式-带有GREAT的调控区域表明了一个强有力的组合，可以理解非编码变异在疾病中的作用。因此，在这项研究中，我们查看了个人基因组，统计了个人携带SNP的所有位置，该SNP破坏了进化上保守的结合位点，并（使用GREAT）询问哪些生物功能或过程是这些突变聚集最多的。在我们的假设指导下，即具有最意想不到的突变负荷的途径可能会导致一个人的病史，然后我们评估了我们的途径预测与该人的健康记录的相关性。

结果

使用一个包含657种不同转录因子的独特高质量结合基序的大型文库，涵盖所有主要的人类DNA结合域家族和33种灵长类和哺乳动物的多重比对，我们首先预测参考人类基因组中存在的跨物种保守结合位点（参见材料和方法). 然后，我们对照参考基因组检查人类个体的遗传变异。我们关注重叠保守结合位点预测的变异体子集（杂合或纯合）。从这些变异中，我们只选择人类参考基与黑猩猩同源基相同（因此很可能是祖先）的变异，而个体变异基与两者不同。最后，在这些位点中，我们只保留单个（衍生）变异体与祖先碱基相比预计会显著降低结合亲和力的结合位点——我们称之为保守结合位点侵蚀位点（请参见图1和材料和方法).

保存图片、插图等的外部文件。对象名称为pcbi.1004711.g001.jpg

在单独的窗口中打开

图1

保守结合位点侵蚀位点方法示意图。

（A）推断保守结合位点侵蚀位点（CoBEL）和侵蚀功能后果假设的方法。（B）保守结合位点侵蚀位点（CoBEL）是人类参考转录因子结合位点，在多种哺乳动物中保守，被测序个体衍生变异体破坏。显示了ADRA1B上游的CoBEL对地震基因组“异常心输出量”预测的贡献表1（C）通过文献调查，检查保守结合位点侵蚀位点（CoBEL）的功能富集情况，并将功能表型与病史相匹配。对每个步骤进行统计显著性评估（见正文）。

我们从加州大学旧金山分校下载了所有四个人的全基因组变异文件，这四个人的公共病史摘要也可用：Stephen Quake[18]，以及来自个人基因组项目（PGP10）的三个人[19]. 获得了James Lupski的附加文件[20]. 然后，我们将每个基因分别与参考基因组进行比较，以获得斯蒂芬·奎克的6321个CoBEL，乔治·丘奇的5291个CoBELs，米沙·安格里斯特的5775个CoBELs，罗莎琳·吉尔的5861个CoBERs，詹姆斯·卢普西的6447个CoBESs(S4系列–第8节表）。

由于CoBEL削弱了保守的祖先结合位点，我们询问是否一个人的集合优先出现在编码任何特定功能的基因旁边，如果是，这个功能是否与个人的病史有关(图1C). 如前所述，GREAT是一种专门用于评估一组基因组区域内丰富功能的方法，这些基因组区域被认为是调节邻近基因的[9]通过与基因组中的每个基因关联一个可变长度的调控结构域，由其两个相邻的基因包围。GREAT还拥有大量关于基因功能和表型的知识，这里我们使用了110多万个这样的基因注释（参见材料和方法). 对于一组给定的CoBEL，GREAT迭代了16000多种不同的生物功能和表型，询问CoBEL是否在任何特定功能基因的调控域中特别丰富。例如，人类基因组中的33个基因被注释为“异常心输出量”。它们的GREAT指定调控域覆盖了基因组的0.45%。在6321个地震CoBEL中，有28个（0.45%）偶然出现在这33个基因的调控域中，但实际上观察到57个CoBEL，数量是原来的两倍多。为了确定统计显著性，GREAT为这种丰富计算了两个统计数据，并对其进行了多假设检验（请参见材料和方法).

Stephen Quake的医疗记录中最突出的是致心律失常性右心室发育不良/心肌病的家族史，包括一例可能的心源性猝死病例[18]. 令人惊讶的是，当使用GREAT分析Quake的CoBEL集合时，顶级表型富集（使用默认参数设置，为原始GREAT论文中的推理能力进行优化[9])是“心输出量异常”（57 CoBEL，错误发现率Q=1.69 x 10⁻⁴). 这种增加提示心脏病的易感性是心输出量减少的原因[21]. 事实上，在所有五个基因组中都观察到CoBEL和个人医疗记录之间有意义的关联(表1和第9部分–第13节表）。

表1

顶级预测表型和匹配医学表型。

搜索每个个体的保守结合位点侵蚀位点集（CoBEL），寻找与一组具有相同功能或表型的基因相邻的结合位点侵蚀事件的最显著聚集（见正文）。根据个人基因组，顶行第2-7列描述了从个人基因组数据中获得的顶预测及其属性。褶皱富集与FDRq值都是通过GREAT的二项式富集试验报告的，相关基因的分数是为表型注释的基因数（那些列在受影响的靶基因中的基因）除以用表型注释的所有基因。第8列突出显示了匹配的个人医学表型。跨越第2列至第7列的每个个人基因组的底行提供了参考文献的准确引用，以确认预测和观察到的表型之间的联系（每个个人基因组为第2列和第8列）。

	基于个人基因组的预测
人	受影响的表型	#CoBEL基因座	折叠	错误发现率（Q值）	受影响的靶基因	相关基因的分数	个人医学表型
奎克	心输出量异常	57	2	1.69 x 10⁻⁴	ADRA1A、ADRA1B、ARSB、CACNB2、CDC42、CDH2、DDAH1、ELN、FXN、MLYCD、NPPA、NRG1、PDLIM3、PLN、PPARGC1A、PPARKC1B、RAF1、RXRA、TMOD1	58%	ARVD/C家族史与心脏病及心脏性猝死推测
	“致心律失常性右心室发育不良/心肌病是一种遗传性心肌病，估计约5000人中有1人患有这种疾病。[……]这种疾病通常是家族性的，通常涉及低外显率和可变表达的常染色体显性传播。”[21]
乔治·丘奇	节前副交感神经系统发育	23	3.26	1.18 x 10⁻⁴	EGR2、HES1、HES3、HOXA1、HOXB1、HOXB2、PLXNA4、TFAP2A	80%	嗜睡症
	“……强烈建议发作性睡病患者的自主神经系统非继发性受累”[22]
米沙·安格里斯特	上皮细胞形态发生	60	2.11	1.38 x 10⁻⁵	BASP1、BCL11B、BMP4、CTNNB1、EPB41L5、FZD7、GATA3、GDNF、GREM1、HEG1、IHH、PAX2、PAX8、SALL1、SIX2、WT1	59%	可能的毛发角化病
	“表皮[毛发角化症]表现为轻度角化过度、颗粒不足和滤泡堵塞。”[23]
罗莎琳·吉尔	循环钠水平降低（低钠血症）	32	3.23	4.94 x 10⁻⁶	EDN1、NR3C2、SCNN1B、SCNN1 G、SLC26A3、SLC4A4、TXNIP、WWOX	89%	高血压
	“在当代高钠低钾饮食背景下，钠保护基因组是不适应的，有记录的病理和流行病学后果（即流行性高血压）。”[24]
詹姆斯·鲁普斯基	少突胶质细胞分化的调控	59	2.11	2.93 x 10⁻⁵	ASPA、BMP4、CTNNB1、CXCR4、DLX1、DLX2、HDAC2、HES1、HES5、ID2、ID4、LINGO1、OLIG2、PPARG、SHH、TCF7L2	73%	斑片状轴突多发性神经病家族史
	少突胶质细胞是中枢神经系统中形成髓鞘的胶质细胞，维持轴突的长期完整性[25]

在单独的窗口中打开

发作性睡病患者乔治·丘奇（George Church）的最大收获是“节前副交感神经系统发育”（23 CoBEL，Q=1.18 x 10⁻⁴). 自主神经系统被强烈怀疑与发作性睡病有关[22]. Misha Angrist的个人报告表明，可能存在毛发角化病，这是一种滤泡性疾病，表现为皮肤上出现粗糙、略带红色的肿块，他认为“上皮细胞形态发生”是他最重要的生物过程浓缩物[23]（60 CoBEL，Q=1.38 x 10⁻⁵). 对于患有高血压的罗莎琳·吉尔（Rosalynn Gill）来说，最高富集表型是“循环钠水平降低”（32 CoBEL，Q=4.94 x 10⁻⁶). 钠摄入量与高血压密切相关[24]. 有趣的是，我们为詹姆斯·卢普西（James Lupski）获得的最高生物过程浓缩物，其家族有外周神经系统（PNS）轴突神经病病史[20]是“少突胶质细胞分化的调节”（59 CoBEL，Q=2.93 x 10⁻⁵). 少突胶质细胞是神经胶质细胞，在中枢神经系统（CNS）的轴突周围形成髓鞘，并维持轴突的长期完整性[25,26].

虽然GREAT的统计意义上的功能丰富否定了CoBEL在功能相关基因调控域中均匀随机分布的无效假设，但它并没有检查保守结合位点的分布是否存在遗传偏见（侵蚀与否）在涉及丰富功能的基因的调控域中。因此，为了进一步评估我们结果的重要性，我们将每个CoBEL替换为具有相同亲和力和相似跨物种保守性的相同转录因子的随机结合位点预测。使用10000个随机控制集表1由于基因组中结合位点分布的偏差导致最高预测值较低（地震P（P）=3 x 10⁻⁴，教堂P（P）=5.7 x 10⁻³，愤怒P（P）=4.8 x 10⁻³、吉尔P（P）=1 x 10⁻⁴，卢普西P（P）=1.9 x 10⁻³，且组合P=1.6 x 10⁻¹⁵). 当我们放宽要求，恢复每个完全相同的术语，并匹配更广泛的12-60个相关函数中的任何一个作为顶级预测（地震P（P）=1.1 x 10⁻³，教堂P（P）=1.3 x 10⁻²，愤怒P（P）=7.7 x 10⁻³、吉尔P（P）=7.4 x 10⁻³，卢普西P（P）=6.5 x 10⁻³，组合P=5.2 x 10⁻¹²; 看见材料和方法).

虽然1000个基因组项目受试者的表型数据不可用[27]1094个个体的全基因组序列的可用性让我们可以问，在大量的对照背景下，我们对五个表型个体的最高预测有多独特。我们通过测试1000个基因组项目的对照个体中是否很少出现表型预测，从而测试我们筛查的特异性，从而询问表型预测对于给定的个人基因组是否是唯一的。由于在我们的分析中包含了常见和罕见变异，因此进行了此对照分析。我们想验证在我们的五个基因组中观察到的丰富性并不是由与许多其他个体共享的共同CoBEL所支配。

因此，我们计算了1000个基因组项目测序的所有对照、非表型1094个基因组中观察到的富集频率[27]. 我们验证了1094个基因组的CoBEL集合大小与五个分析基因组的CoBEL集合大小相当（最小值6121；欧洲平均值6385），将CoBEL提交给了GREAT，并注意到了最大的富集。我们观察到的五个个体的每一个最高富集率都小于0.05(S2A表格)富集的p值和折叠统计数据表明，它们从1000个基因组队列中显著删除(图2). 接下来，我们进行了主成分分析，以验证我们研究中分析的五个基因组都主要是预期的（欧洲）祖先，而不是与1000个基因组项目数据相比的异常值(图3A). 然后，我们仅使用381个欧洲基因组和181个混合基因组重新计算富集的发生率，以校正任何特定种群的富集。同样，所有丰富术语的出现率都小于0.05(S2A表格). 由于GREAT中的本体术语与有向无环图（DAG）结构相关，因此诸如“异常心输出量”（Quake基因组预测）之类的术语与其总括术语“异常心血管输出量”共享相似的基因集，1000基因组项目中的一名对照患者可能会出现这种情况。为了解释预测两个相关项的情况，我们还通过计算一个项的更广泛的相关函数组来计算该项的错误发现率。然而，这些发现的发生率仍然低于0.05(S2B表格)当我们重复完整的1094个基因组、381个欧洲基因组和181个混合基因组计算更广泛的相关功能组时，除了更常见的心脏和高血压疾病的p值稍高（高达0.088）。事实上，在1000名非表型基因组受试者中，8%的人（他们自己可能患有或易患各种复杂疾病，尤其是更常见的疾病）在与高血压相关的更广泛术语中含量最高，5%的人在心脏术语中含量也同样最高。

保存图片、插图等的外部文件。对象名称为pcbi.1004711.g002.jpg

在单独的窗口中打开

图2

“对照”基因组中假设表型的富集分布。

（A-E）1000基因组项目中1094个基因组和本报告中分析的五个基因组的个人基因组丰度比较。虚线表示GREAT的默认二项式倍数（大于或等于2）和FDR（小于或等于0.05）显著性阈值。左下角是GREAT默认超几何FDR不显著的基因组质量（小于或等于0.05）。红色标记表明一个分析过的个人基因组的预测是显著的，并将其与1000个基因组队列进行了区分，表明这种关联在对照个体中并没有以较高的频率出现。A组显示，“异常心输出量”的增加在背景1000基因组队列中相当常见，这并不意外，因为轻度心脏病的易感倾向在其他正常人群中很常见。

保存图片、插图等的外部文件。对象名称为pcbi.1004711.g003.jpg

在单独的窗口中打开

图3

CoBEL的频率分布与人口结构的关系。

（A）根据1000个基因组项目中的基因组对五个基因组进行主成分分析（PCA），结果显示与欧洲人群的聚类符合预期。（B-F）在所有1000个基因组数据中以及通过PCA与五个基因组聚类的两个群体中，比较五个个体的富集特异性CoBEL频率。这一分析和额外的频率分布分析（见正文）均表明，CoBELs的顶级富集物由常见和罕见的变异组成，正如预期的那样，低致病性突变只在总体上产生显著影响。全1000个基因组和两个亚群体的频率分布的相似性进一步表明，在我们的富集中没有任何群体特定的偏见。

最后，我们评估了五个人的CoBEL富集与病史关联的特异性(图1C和S14表格). 进行这项测试是为了验证预测的最高富集度并不是很广，因此它们会匹配不同的病史，同样，所选的个体没有如此广泛的疾病表型来匹配不同的可能最高富集度。我们定义了一个关联矩阵，将富集和病史联系起来，将五个个体中观察到的表型作为行，将所有顶部富集项作为列。只有当（任何个体的）富集项被认为与（任何个体）表型的病因有关时，基质中的细胞才会标记为“真”材料和方法). 这个矩阵的一个例子是由一名医生根据他们的医学知识和培训填写的(S15表)另一个例子是通过文献调查独立填写的(S16表). 目的是使用两个关联矩阵中的一个作为“黄金”关联，计算将一组五名具有随机病史的个人与观察到的丰富性关联的机会。我们生成了1000组由五个人组成的随机病史，这些病史由相似的疾病特征组成，并评估了将其与丰富性联系起来的可能性（参见材料和方法). 使用医生生成的关联矩阵，成功地将五个随机个体与丰富联系起来非常重要(P（P）=3.0 x 10⁻³)以及通过文献调查生成的矩阵(P（P）=3.0 x 10⁻²)表明我们的丰富性和病史之间的联系不仅仅是所列病史的功能。文献调查衍生的关联矩阵可能提供更严格的零模型，因为它包括当前研究主题暗示的关联，这些关联在未来可能会或可能不会与临床相关。

我们的CoBEL预测不同于已知的GWAS关联。238个变异等位基因表1这些预测与单个表型无关的GWAS SNP重叠，表明我们的方法是发现疾病位点的补充方法。虽然GWAS的目标是找到最有可能单独区分疾病队列和匹配对照的基因座，但我们的方法试图确定可能导致疾病的常见和罕见基因座的总和。GWAS的能力不足，无法找到这种组合相互作用。同样，负责238种变体的CoBEL均未与HGMD交叉[28]疾病变体（一大组极为罕见的高度渗透性变体，被认为单独触发潜在疾病）。当重叠分析扩展到包括可能连锁不平衡（LD）中的GWAS单核苷酸多态性时，只有两种可能的表型匹配出现：“心肌肥厚”相关[29]SNP rs3729931用于地震和“多发性硬化症”（另一种脱髓鞘疾病[26])关联的[30]Lupski的SNP rs882300。事实上，我们预测的CoBEL变异等位基因总数的近一半（7115，49%）是我们五个个体中唯一的。类似地，对于中的五个顶部函数预测中的每一个表1，在16个可能的子集中（CoBEL与其他四个人共享或不共享），最大的贡献（17-34%）总是来自私有站点(S1图).

当CoBEL频率在人口水平上进行检查时，Quake和Gill’s富集的CoBEL显示出较高的人口频率(图3B和3E)因为他们可能更常见的心脏病和高血压的丰富表型。相反，Church、Lupski甚至Angrist在较小程度上表现出较丰富的CoBEL，人口频率较低(图3C、3D和3F). 为了检验CoBEL分析的群体频率依赖性，我们将自己限定为罕见的CoBEL，定义为1000个基因组中频率小于或等于0.01的CoBELs。我们的功能丰富对于罕见的CoBEL来说都不重要。即使我们将1000个基因组的频率增加10倍至0.1，也只有Angrist的“上皮细胞形态发生”富集被挽救，尽管富集统计数据有所减少（16 CoBEL，Q=1.85 x 10⁻²)与全套相比（60 CoBEL，Q=1.38 x 10⁻⁵). 这进一步证实了我们的丰富是常见和罕见变体的结合。

讨论

我们执行的屏幕功能不足：我们没有所有人类转录因子或所有功能（祖先或非祖先）结合位点的结合亲和力；变异图谱可能遗漏更复杂的基因调控突变；尤其是我们对表型与基因关联的了解还远远不够完整。此外，我们只关注获得的顶级富集，而不是所有富集，以保持测试关联统计严格性的能力。然而，所有这些限制只会降低我们检测真实关联的能力，但不会提高错误预测的可能性。相反，通过关注高度保守的结合位点，我们大大增加了其破坏带来适应度代价的可能性。事实上，考虑到GREAT测试了16000多种不同的生物过程或表型（来自“一腹主动脉瘤z（z）我们获得的基因组预测与医学表型之间的联系似乎非常重要。

我们的CoBEL预测支持已知的疾病等位基因。例如，一种特殊的人类白细胞抗原（HLA）等位基因在绝大多数发作性睡病患者中被发现，这些患者患有猝倒，在那些没有发作性睡症的患者中也很常见[31]. 受影响的Church基因组是不同HLA等位基因的纯合子（见补充方法）。四个GWAS单核苷酸多态性，均具有中等效应大小（OR=1.29–1.79），目前与发作性睡病相关。Church携带其中两个基因，但我们分析的其他四个未受影响的基因组也携带2-3个发作性睡病风险等位基因，因为它们普遍存在（参见S3表).

此前对地震基因组进行了编码和GWAS变异分析[18]. 虽然没有出现单一的强突变，但收集到的突变总数足以将心脏病评估为相对较大的风险。然而，许多个人变异的评估过程偏向于基因变异和先前确定的风险位点，重点是解释心脏病家族史。我们获得的心输出量丰度不仅来自新的非基因位点，而且是以完全不可知的方式获得的。

我们的分析是对最先进的分析的补充，这些分析侧重于通过与已知（主要是编码）变体数据库交叉来搜索主要致病变体，探索已知疾病相关基因中罕见或新颖的编码或剪接变体，并使用SIFT等计算工具优先编码候选变体[32]，PolyPhen2[33]和VAAST[34]. 很少有这样的工具适用于非编码基因组，据我们所知，没有一种工具明确关注结合位点的破坏。CADD等方法[35]对非编码变异体的致病性进行评分，但在阳性集上训练其模型，只对有害的非编码突变进行弱富集。由于基因组的非编码部分很大（97%），而且大多数此类工具不会聚集功能性或任何其他类别的突变，因此大多数用途仅限于剪接变体或非编码RNA[20]和Ashley等人[18]分别用于Lupski和Quake。这两项工作主要集中在已知疾病相关基因的编码变体上。他们识别了非同义SNP，并在已知致病性变体数据库（如HGMD）中搜索匹配项[28]和OMIM[36]. 当已知的疾病变异体未被识别时，研究范围扩大到包括与其患者相关的基因中的罕见和新变异体（Lupski等人的神经病变）[20]以及Ashley等人的心血管疾病[18]). 这两项研究都没有寻找任何潜在的基因调控突变。

除了我们的分析获得的富集外，我们的顶级富集中结合位点的积累也揭示了这一点：首先表1平均受三种以上CoBEL的影响，削弱了该基因假定的调控稳健性[37]. 第二，表1还显示，在所有五种情况下，CoBEL影响了为所述功能/表型注释的所有人类基因中的大多数（58-89%）。

总之，我们的观察结果表明，基因调控在（人类一代）时间和（基因调控）空间上逐渐受到侵蚀，最终表现为病史。这些观察结果证实了一个长期以来的观点，即小的有害突变的谱系积累，即使与不同的生活方式和环境相结合，最终也会增加家族性疾病表型的可能性[38]. 根据这些有害突变的选择系数及其遗传背景，这些突变最终可能会从种群中清除，但由于非随机的人类交配模式和侵蚀后相对较短的时间尺度，这些突变目前是可见的。

我们的屏幕提供了一个令人兴奋的一瞥，人类基因调节对个人病史贡献的潜在遗传负荷。随着我们表征个体遗传负荷的能力的提高，我们对基因组-环境相互作用以及触发人类疾病发病的阈值的理解也将提高。

材料和方法

转录因子结合基序库

我们的转录因子结合基序库以位置权重矩阵（PWM）表示，包含来自UniPROBE的657个转录因子的917个独特的高质量单体和二聚体基序[39]、JASPAR[40]和TransFac[41]数据库、次要UniPROBE基序、已发布ChIP-seq数据集和其他主要文献中的基序[16]. 我们包括单体和二聚体（其中TF与自身或另一TF复合）基序，以提高我们的敏感性，因为之前的工作发现复合物往往具有修饰的结合亲和力[16].

个人基因组和病史摘要

我们从UCSC基因组浏览器下载了映射到人类参考组件hg19（GRCh37）的变体调用[42]. 这些表格分别是斯蒂芬·奎克的pgQuake、乔治·丘奇的pgChurch、米沙·安格瑞斯特的pgAngrist和罗莎琳·吉尔的pgGill。James Lupski的变体从dbSNP下载[43]并加工去除非单核苷酸多态性和那些与参考基因组有模糊映射的多态性。Stephen Quake和James Lupski的病史摘要来自Ashley等人[18]和Lupski等人[20]分别是。其余患者的病史摘要来自个人基因组项目的公众简介[19]网站。

保守结合位点侵蚀位点（CoBEL）的鉴定

我们使用UCSC人类参考装配hg19（GRCh37）对33种灵长类和哺乳动物进行多重比对，确定了保守的结合位点[42]. 结合位点预测是通过使用PRISM识别保守结合位点匹配来完成的[14]. 我们选择了保留每个位点预测的至少五个物种的默认PRISM阈值，以及总的系统发育（中性）分支长度[44]保存物种的数量为每个地点两次或两次以上。此外，我们只保留了具有保守性的前0-5000个结合位点预测p值小于或等于0.05。保护p值通过比较基因组相似保守区域中（CpG保留）洗牌形式的基序的结合保守性来计算。我们使用的所有参数设置都已在PRISM文件中针对预测能力进行过优化[14]，包括针对多个ENCODE[6]数据集。

接下来，我们确定了单个基因组中的所有杂合或纯合变体，其中人类参考（hg19）碱基与直系黑猩猩（panTro2）碱基相同，因此很可能是人类祖先。然后我们发现所有人类参考基因组保守的结合位点都受到我们个体特异性变体的影响。在这些位点中，我们只保留将参考人类（祖先）碱基替换为个体衍生变异体的位点，其结合亲和力降低了5%或更多。使用MATCH评分方案计算结合亲和力[45]. 结合重叠的结合位点，获得我们的最终一组保守结合位点侵蚀位点（CoBEL）。

每个人调用CoBEL的算法

定义人类保守结合位点集，TFBS←PRISM（基序库）

对于每个具有基因组变体V的个体_我:

将TFBS与V相交_我（使用重叠从UCSC基因组浏览器中选择）

对于交叉口的每个TFBS TFBS：

计算祖先和变体D之间的tfbs MATCH得分差异

如果D将MATCH分数降低5%以上，则将结合位点添加到CoBEL集合中

运行GREAT（CoBEL集合）->输出顶部浓缩

我们屏幕上使用的大多数图案都是公开的，可以从PRISM.stanford.edu的PRISM网站上获得这些图案及其预测。一小部分图案来自Transfac专有数据库。如有要求，将提供一份清单。我们还包括所有五个CoBEL集合S4系列–第8节可以使用GREAT at GREAT.stanford.edu处理表格，以重现表1和第9部分–第13节桌子。

推断CoBEL在共享功能或表型的基因旁具有统计意义的积累

每组CoBEL都提交给了GREAT（用于基因组区域注释工具的丰富）2.0.2版[9]. 正如正文中所解释的，GREAT搜索共享相同注释的基因调控域中具有统计意义的基因组区域（在本例中为CoBEL）积累。在这项研究中，我们使用了GREAT的默认调控域定义：基因规范转录起始位点（TSS）上游5000个碱基和下游1000个碱基的组成调控域，延伸到两侧相邻基因的组成调控区，或多达100万个碱基。显著性也使用默认的GREAT阈值定义：对于二项式和超几何检验，均为0.05 FDR阈值，二项式倍数大于2。这些参数设置都已针对原始GREAT论文中的推理能力进行了优化[9]. 我们质疑GO生物过程[46]和MGI表型[47]本体论允许GREAT使用1140682个基因到功能映射来测试16054个不同功能中的任何一个是否可能富集。

评估我们表1对洗牌的愤怒

为每个人生成10000个随机控制集

每个CoBEL都是一个绑定站点，与个人的变体文件重叠(图1B). 在重叠结合位点的情况下，选择结合亲和力下降最大的位点。通过结合位点定位，通过对每个CoBEL的随机结合位点进行抽样，生成了10000个随机大小匹配集，该结合位点具有相同的结合亲和力和跨物种过度保守p值与实际CoBEL在同一数量级内。

定义相关术语集

中报告的相关术语集表1通过使用GO生物过程定义的本体结构获得[46]和MGI表型[47]. 使用本体定义的关系，我们确定了表1并将每一组相关术语定义为一个包含祖先和所有后代术语（包括表1以及更多）。

对于Quake，一组60个相关术语被定义为使用祖先术语“异常血液循环”的（空集）匹配。对于Church，使用“自主神经系统发育”定义了一组12个相关术语；对于Angrist，使用“上皮细胞发育”定义一组22个相关术语，对于Gill，使用“异常矿物体内平衡”定义了57个术语；对于Lupski，使用“胶质生成调节”定义了一组21个术语。

计算零假设检验的p值-将CoBEL与富集联系起来

两个零假设检验的p值是通过计算使用随机对照集获得的最高GREAT富集度与表1（无效假设1）或在与中的术语相关的术语集中表1（无效假设2）。

计算1000个基因组中富集项的出现

CoBEL方法应用于1094个基因组中的每个基因组，并跟踪满足GO生物过程和MGI表型本体中默认GREAT过滤器的顶部富集。对于本报告中分析的五个基因组的每一次富集，计算了1094个全基因组的富集频率。此外，由于主成分分析显示本报告中分析的五个基因组与这两个群体亚群最接近，因此测量了381个欧洲亚群和181个混合亚群的富集频率(图3A).

评估我们表1丰富医学史协会

生成1000组五个人随机病史

每个人及其病史之间的映射(S14表格)被洗牌了1000次，创建了1000组五个人的随机病史集-问一个问题-如果我们获得了五个人的任意病史，那么将他们与观察到的CoBEL富集联系起来的机会有多大。我们要求随机的个体每个病历条目的数量和每个病历条目的出现频率都相似，以匹配在真实集合中观察到的结果。我们还要求个人和病史之间80%（55/68）的配对是不同的，以避免产生病史与被观察个体太相似的个人。

定义病史–CoBEL富集关联矩阵

定义了两个独立的关联矩阵来连接所有观察到的病史和CoBEL丰富性。矩阵的行是五个人中每一个人的所有病史报告，矩阵的列是五个人的每一个人中观察到的单个顶级GREAT GO生物过程和MGI表型富集。通过医生的培训和文献调查，将行和列链接起来（以创建基本事实）。第一个矩阵(S15表)由一位医生根据他们的医学知识联系起来。他们的目的是评估由于参与“CoBEL富集”和/或“CoBER富集”导致/导致/牵涉到“病史”器官系统的基因的错误调节而导致“病历”的可能性。第二个矩阵(S16表)由另一位作者通过一项深入调查独立指定，该调查试图使用当前出版的医学和研究文献将所有基因（列）与所有表型（行）联系起来。两个矩阵都没有用另一种技术进行细化，并且都被单独用于测试将一个观察到的富集物与一个观察的病史联系起来的混杂性。

计算零假设检验的p值-将丰富性与病史联系起来

p值是通过计算具有随机病史的五个人的1000个随机集与使用给定关联矩阵的富集偶然相关的次数来进行经验计算的(第15节和第16节表）。

富集CoBEL与GWAS SNP重叠或联系

NHGRI GWAS目录中的所有SNP[48]从包含8967条hg19（GRCh37）坐标记录的构建中下载，并与来自表1地震、愤怒、吉尔和卢普西没有重叠。Church与rs10808265（GWAS与肺功能下降相关）有一个单一的表型无关的重叠[49].

为了评估富集CoBEL变异体和GWAS SNP之间的连锁不平衡（LD），我们使用了HapMap[50]CEU（具有北欧和西欧血统的犹他州居民）人口的相关27 LD数据。CoBEL变异等位基因表1通过获取HapMap提供的hg18（NCBI Build 36.1）坐标，并使用UCSC浏览器liftOver实用程序将其提升到hg19，将其映射到HapMap[45]与CoBEL变体相交。近一半（49%，112/227）的富集变异体位点可以映射到HapMap探针。使用rsID将NHGRI GWAS SNP映射到HapMap SNP。如果D'>0.99或r，则使用最大化方法在LD中调用GWAS SNP和CoBEL变体²在匹配的HapMap探针之间≥0.8或LOD（对数比值）≥2。

富集CoBEL与HGMD SNP重叠

使用重叠从UCSC基因组浏览器中选择包含130218个疾病突变的HGMD PRO 2015.2集合与来自五个个体的所有富集CoBEL重叠。

Church基因组人类白细胞抗原类型

90%以上的猝倒发作性睡病患者和40%左右的非猝倒发作期睡病患者携带人类白细胞抗原（HLA）DQB1*06:02型[31]. HLA-DQB1*06:02（PDB ID:1UVQ）的晶体结构[51]将DQB1*0602的代表性氨基酸单倍型鉴定为F₉G公司₁₃L（左）₂₆Y（Y）₃₀Y（Y）₃₇A类₃₈D类₅₇（下标表示HLA-DQB1外显子2的氨基酸数）。根据变体调用文件，现在的单倍型是George Church不同：Y₉G公司₁₃L（左）₂₆H（H）₃₀Y（Y）₃₇A类₃₈D类₅₇当我们使用BLAST根据IMGT/HLA数据库搜索外显子2的Church版本时[52]，最接近观察到的单倍型的等位基因为DQB1*06:03，未发现与发作性睡病患者相关[53].

支持信息

S1表

GWAS单核苷酸多态性的大量富集与GWAS表型一致。

对于从代谢性状到癌症和克罗恩病的GWAS表型，NHGRI目录中与该性状相关的一组非离子GWAS SNP因与该性状密切相关的GREAT注释而最为丰富，提示基因调控突变通常聚集在与每个检测表型相关的关键基因附近。根据GWAS表型（第1列），顶行第3-8列描述了从与GWAS表型及其属性相关的非离子位点获得的顶级GREAT预测。褶皱富集和FDR q值均来自GREAT的二项式富集试验。相关基因的分数是指为表型注释的基因（在受影响的靶基因中列出的基因）的数量除以所有用表型注释的基因。第3列突出了预测的GREAT术语。每个GWAS表型的底行提供了参考文献的准确引用，证实了观察到的表型和预测的表型之间的联系（分别为第1列和第3列）。

（PDF格式）

单击此处查看其他数据文件。^{（119K，pdf）}

S2表

使用1000个基因组数据进行富集的错误发现率（FDR）。

（A）来自1000基因组项目的对照个体的CoBEL被提交给GREAT，并计算具有相同或（B）相关最高富集度的个体与五个分析基因组最高富集度之间的比例。在所有情况下，不到10%的对照人群，无论种族如何，与五个分析的基因组具有相同或类似的最高富集度。

（PDF格式）

单击此处查看其他数据文件。^{（13K，pdf格式）}

S3表

嗜睡症相关SNP。

对五个分析的基因组进行了嗜睡症相关GWAS SNP的计数，表明Church有嗜睡症和两个GWAS变异体，与其他基因组没有什么不同，他有2-3个常见的嗜睡症变异体。因此，我们基于CoBEL对Church的发作性睡病相关预测来自正交方法，即多个CoBEL的集合效应。

（PDF格式）

单击此处查看其他数据文件。^{（110K，pdf格式）}

S4表

地震基因组的全套CoBEL。

（XLSX）

单击此处查看其他数据文件。^{（160K，xlsx）}

S5表

教会基因组的全套CoBEL。

（XLSX）

单击此处查看其他数据文件。^{（136K，xlsx）}

S6表

Angrist基因组的全套CoBEL。

（XLSX）

单击此处查看其他数据文件。^{（147K，xlsx）}

S7表

吉尔基因组的全套CoBEL。

（XLSX）

单击此处查看其他数据文件。^{（149K，xlsx）}

S8表格

Lupski基因组的全套CoBEL。

（XLSX）

单击此处查看其他数据文件。^{（163K，xlsx）}

S9表

年地震“心输出量异常”预测的结合位点集和预测的上游因子表1.

（XLSX）

单击此处查看其他数据文件。^{（16K，xlsx）}

S10表格

年教会“节前副交感神经系统发育”预测的结合位点集和预测上游因子表1.

（XLSX）

单击此处查看其他数据文件。^{（13K，xlsx）}

S11表

Angrist“上皮细胞形态发生”预测的结合位点集和预测上游因子表1.

（XLSX）

单击此处查看其他数据文件。^{（15K，xlsx）}

S12表

Gill“循环钠水平降低”预测的结合位点集和预测的上游因子表1.

（XLSX）

单击此处查看其他数据文件。^{（13K，xlsx）}

S13表

狼疮“少突胶质细胞分化调节”预测的一组结合位点和预测上游因子表1.

（XLSX）

单击此处查看其他数据文件。^{（16K，xlsx）}

S14表格

每个人的病史和CoBEL的最高丰富性。

这些病史代表了所分析的每个个体最相关的疾病表型。这些历史要么是从他们基因组的原始出版物中获得的，要么是从下载他们基因组的公共数据库中获得的。

（XLSX）

单击此处查看其他数据文件。^{（10K，xlsx）}

S15表

医生定义的所有病史和丰富性之间的关联矩阵。

每一列代表一个丰富的生物过程或表型。每行代表一种疾病表型。只有当医生认为生物过程或表型与该疾病表型相关时，才会放置“X”。

（XLSX）

单击此处查看其他数据文件。^{（12K，xlsx）}

S16表

文献调查中定义的所有病史和丰富性之间的关联矩阵。

每一列代表一个丰富的生物过程或表型。每行代表一种疾病表型。只有在主要文献为两个实体之间的因果关系提供潜在支持的情况下，才会设置值。如果链接不明显，Pubmed PMID将提供支持参考。

（XLSX）

单击此处查看其他数据文件。^{（11K，xlsx）}

S1图

CoBEL在五个被分析的个体中共享。

CoBEL（保守结合位点侵蚀位点）SNP的数量和分布表1（A）地震，（B）丘奇，（C）Angrist，（D）Gill，和（E）Lupski。在所有五种浓缩物中，红色的单个变体的贡献最大（17%-34%）。

（畅通节能法）

单击此处查看其他数据文件。^{（775K，tif）}

致谢

我们感谢贝杰拉诺实验室的成员、大卫·金斯利、威尔·塔尔博特和亚伦·温格对手稿的评论和反馈。我们还感谢David Cooper和Peter Stenson访问HGMD PRO数据库。

资金筹措表

HG由国家科学基金会研究金DGE-1147470资助，SC由斯坦福研究生研究金和国家科学基金资助DGE-1147770，SLC由HHMI Gilliam研究金资助，GB由NIH资助R01HG005058和R01HD059862，NSF信息科学中心（CSoI）资助授予CCF-0939370和KAUST。GB是Packard Fellow和Microsoft Research Fellow。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。

数据可用性

所有相关数据都在论文及其支持信息文件中。

工具书类

1Paul DS、Soranzo N、Beck S。非编码序列变异的功能解释：概念和挑战.生物论文. 2014;36: 191–199. 10.1002/张201300126[PMC免费文章][公共医学] [交叉参考][谷歌学者]

2Veltman JA，Brunner HG。人类遗传病的从头突变.Nat Rev基因. 2012;13: 565–575. 10.1038/nrg3241[公共医学] [交叉参考][谷歌学者]

三。Manolio TA、Collins FS、Cox NJ、Goldstein DB、Hindorff LA、Hunter DJ等。寻找复杂疾病的缺失遗传力.自然. 2009;461: 747–753. 10.1038/性质08494[PMC免费文章][公共医学] [交叉参考][谷歌学者]

4Gonzaga-Jauregui C，Lupski JR，Gibbs RA。健康与疾病中的人类基因组测序.医疗年度收入. 2012;63: 35–61. 10.1146/anurev-med-051010-162644[PMC免费文章][公共医学] [交叉参考][谷歌学者]

5Maurano MT、Humbert R、Rynes E、Thurman RE、Haugen E、Wang H等。调节性DNA中常见疾病相关变异的系统定位.科学类. 2012;337: 1190–1195. 10.1126/科学.1222794[PMC免费文章][公共医学] [交叉参考][谷歌学者]

6Dunham I、Kundaje A、Aldred SF、Collins PJ、Davis CA、Doyle F等。人类基因组中DNA元素的综合百科全书.自然. 2012;489: 57–74. 10.1038/自然11247[PMC免费文章][公共医学] [交叉参考][谷歌学者]

7吉布森·G。罕见和常见变体：20个参数.Nat Rev基因. 2011;13: 135–145.[PMC免费文章][公共医学][谷歌学者]

8Zuk O、Hechter E、Sunyaev SR、Lander ES。缺失遗传力之谜：遗传相互作用产生幻影遗传力.《美国科学院院刊》. 2012;109: 1193–1198. 10.1073/pnas.119675109[PMC免费文章][公共医学] [交叉参考][谷歌学者]

9McLean CY、Brister D、Hiller M、Clarke SL、Schaar BT、Lowe CB等。GREAT改善了顺调控区域的功能解释.Nat生物技术. 2010;28: 495–501. 10.1038/nbt.1630[PMC免费文章][公共医学] [交叉参考][谷歌学者]

10Cantor RM、Lange K、Sinsheimer JS。GWAS结果的优先次序：统计方法的审查及其应用建议.美国人类遗传学杂志. 2010;86: 6–22. 2016年10月10日/j.ajhg.2009年11月17日[PMC免费文章][公共医学] [交叉参考][谷歌学者]

11Gulko B、Hubisz MJ、Gronau I、Siepel A。计算人类基因组点突变适应度结果概率的方法.自然基因. 2015;47: 276–283. 10.1038/ng.3196[PMC免费文章][公共医学] [交叉参考][谷歌学者]

12休谟MA、巴雷拉LA、吉塞尔布雷希特SS、马里兰州布利克。UniPROBE，2015年更新：关于蛋白质-DNA相互作用的蛋白质结合微阵列数据在线数据库的新工具和内容.核酸研究. 2015;43：D117–122。10.1093/nar/gku1045年10月10日[PMC免费文章][公共医学] [交叉参考][谷歌学者]

13Jolma A、Yan J、Whitington T、Toivonen J、Nitta KR、Rastas P等人。人类转录因子的DNA结合特异性.单元格. 2013;152: 327–339. 2016年10月10日/j.cell.2012.12.009[公共医学] [交叉参考][谷歌学者]

14Wenger AM、Clarke SL、Guturu H、Chen J、Schaar BT、McLean CY等。PRISM为转录因子功能预测提供了一种全面的基因组方法.基因组研究. 2013;23: 889–904. 10.1101/克139071.112[PMC免费文章][公共医学] [交叉参考][谷歌学者]

15Daily K、Patel VR、Rigor P、Xie X、Baldi P。MotifMap：模型物种调控基序位点的整合全基因组图.BMC生物信息学. 2011;12: 49510.1186/1471-2105-12-495[PMC免费文章][公共医学] [交叉参考][谷歌学者]

16古图鲁·H、多克西·AC、温格·AM、贝杰拉诺·G。保守非编码元件中哺乳动物转录因子复合体的结构辅助预测.Philos Trans R Soc Lond，B，生物科学. 2013;368: 201300291998年10月10日/2013年1月29日[PMC免费文章][公共医学] [交叉参考][谷歌学者]

17黄Q、惠廷顿T、高P、林德伯格JF、杨毅、孙杰等。前列腺癌易感性等位基因6q22通过调节HOXB13染色质结合增加RFX6的表达.自然基因. 2014;46: 126–135. 10.1038/ng.2862[公共医学] [交叉参考][谷歌学者]

18Ashley EA、Butte AJ、Wheeler MT、Chen R、Klein TE、Dewey FE等。纳入个人基因组的临床评估.柳叶刀. 2010;375: 1525–1535. 10.1016/S0140-6736（10）60452-7[PMC免费文章][公共医学] [交叉参考][谷歌学者]

19Ball议员、Thakuria JV、Zaranek AW、Clegg T、Rosenbaum AM、Wu X等人。促进基因组临床应用的公共资源.《美国科学院院刊》. 2012;109: 11920–11927. 10.1073/pnas.1201904109[PMC免费文章][公共医学] [交叉参考][谷歌学者]

20.Lupski JR、Reid JG、Gonzaga-Jauregui C、Rio Deiros D、Chen DCY、Nazareth L等。一例夏科特-马里奥-图思神经病患者的全基因组测序.英国医学杂志. 2010;362: 1181–1191. 10.1056/NEJMoa0908094[PMC免费文章][公共医学] [交叉参考][谷歌学者]

21Awad MM，Calkins H，法官DP。疾病机制：致心律失常性右心室发育不良/心肌病的分子遗传学.Nat Clin Pract心血管医学. 2008;5: 258–267. 10.1038/ncpcardio1182[PMC免费文章][公共医学] [交叉参考][谷歌学者]

22Plazzi G、Moghadam KK、Maggi LS、Donadio V、Vetrugno R、Liguori R等人。发作性睡病的自主神经紊乱.睡眠医学评论. 2011;15: 187–196. 2016年10月10日/j.smrv.2010.05.002[公共医学] [交叉参考][谷歌学者]

23Hwang S、Schwartz RA。毛状角化症：一种常见的毛囊角化过度症.卡蒂斯. 2008;82: 177–180. [公共医学][谷歌学者]

24Arnett DK，Claas SA。基因组创新和环境改造时代的高血压防治.日本汽车制造商协会. 2012;308: 1745–1746. 10.1001/jama.2012.28747[公共医学] [交叉参考][谷歌学者]

25Fünfschilling U、Supplie LM、Mahad D、Boretius S、Saab AS、Edgar J等人。糖溶性少突胶质细胞维持髓鞘和长期轴突完整性.自然. 2012;485: 517–521. 10.1038/自然11007[PMC免费文章][公共医学] [交叉参考][谷歌学者]

26埃默里B。少突胶质细胞分化和髓鞘形成的调控.科学类. 2010;330: 779–782. 10.1126/科学1190927[公共医学] [交叉参考][谷歌学者]

271000基因组项目联盟、Abecasis GR、Altshuler D、Auton A、Brooks LD、Durbin RM等。人群规模测序的人类基因组变异图.自然. 2010;467: 1061–1073. 10.1038/性质09534[PMC免费文章][公共医学] [交叉参考][谷歌学者]

28Stenson PD、Mort M、Ball EV、Shaw K、Phillips A、Cooper DN。人类基因突变数据库：为临床和分子遗传学、诊断测试和个性化基因组医学建立综合突变库.人类遗传学. 2014;133: 1–9. 2007年10月10日/00439-013-1358-4[PMC免费文章][公共医学] [交叉参考][谷歌学者]

29Parsa A、Chang Y-PC、Kelly RJ、Corretti MC、Ryan KA、Robinson SW等。创始人队列中确定的用于心力衰竭风险和死亡率的高营养相关多态性.临床翻译科学. 2011;4: 17–23. 10.1111/j.1752-8062.2010.00251.x[PMC免费文章][公共医学] [交叉参考][谷歌学者]

30De Jager PL、Jia X、Wang J、De Bakker PIW、Ottoboni L、Aggarwal NT等。基因组扫描和复制的Meta分析确定CD6、IRF8和TNFRSF1A为新的多发性硬化易感性位点.自然基因. 2009;41: 776–782. 10.1038/ng.401[PMC免费文章][公共医学] [交叉参考][谷歌学者]

31西野S、米格诺特E。嗜睡症和猝倒.Handb临床神经科. 2011;99: 783–814. 2016年10月10日/B978-0-444-52007-4.00007-2[公共医学] [交叉参考][谷歌学者]

32Ng PC、Henikoff S。SIFT：预测影响蛋白质功能的氨基酸变化.核酸研究. 2003;31: 3812–3814.[PMC免费文章][公共医学][谷歌学者]

33.Adzhubei IA、Schmidt S、Peshkin L、Ramensky VE、Gerasimova A、Bork P等。预测破坏性错义突变的方法和服务器.Nat方法. 2010;7: 248–249. 10.1038/nmeth0410-248[PMC免费文章][公共医学] [交叉参考][谷歌学者]

34Hu H、Huff CD、Moore B、Flygare S、Reese MG、Yandell M。VAAST 2.0：使用保守控制氨基酸替代矩阵改进变异分类和疾病基因鉴定.基因流行病学. 2013;37: 622–634. 10.1002/gepi.21743[PMC免费文章][公共医学] [交叉参考][谷歌学者]

35Kircher M、Witten DM、Jain P、O'Roak BJ、Cooper GM、Shendure J。估计人类遗传变异相对致病性的通用框架.自然基因. 2014;46: 310–315. 10.1038/ng.2892[PMC免费文章][公共医学] [交叉参考][谷歌学者]

36约翰·霍普金斯大学麦库西克·纳桑遗传医学研究所（马里兰州巴尔的摩）。在线孟德尔遗传在人类，OMIM®[Internet]。[引用日期：2015年12月7日]。可用：网址：http://omim.org/

37Spitz F，Furlong EEM公司。转录因子：从增强子结合到发育控制.Nat Rev基因. 2012;13: 613–626. 10.1038/编号3207[公共医学] [交叉参考][谷歌学者]

38亨特DJ。人类疾病中的基因-环境相互作用.Nat Rev基因. 2005;6: 287–298. 10.1038/编号1578[公共医学] [交叉参考][谷歌学者]

39马里兰州布利克纽伯格。UniPROBE：关于蛋白质-DNA相互作用的蛋白质结合微阵列数据的在线数据库.核酸研究. 2009;37：D77–82。10.1093/nar/gkn660[PMC免费文章][公共医学] [交叉参考][谷歌学者]

40Bryne JC、Valen E、Tang M-HE、Marstrand T、Winther O、da Piedade I等。JASPAR，转录因子结合图谱的开放存取数据库：2008年更新中的新内容和工具.核酸研究. 2008;36：D102–106。10.1093/nar/gkm955[PMC免费文章][公共医学] [交叉参考][谷歌学者]

41Matys V、Kel-Margoulis OV、Fricke E、Liebich I、Land S、Barre-Dirie A等。TRANSFAC及其模块TRANSCompel：真核生物的转录基因调控.核酸研究. 2006;34：D108–110。10.1093/nar/gkj143号[PMC免费文章][公共医学] [交叉参考][谷歌学者]

42Kent WJ、Sugnet CW、Furey TS、Roskin KM、Pringle TH、Zahler AM等人。UCSC的人类基因组浏览器.基因组研究. 2002;12: 996–1006. 10.1101/gr.229102 2002年5月印刷前在线发表的文章[PMC免费文章][公共医学] [交叉参考][谷歌学者]

43Sherry ST、Ward MH、Kholodov M、Baker J、Phan L、Smigielski EM等人。dbSNP：NCBI遗传变异数据库.核酸研究. 2001;29: 308–311.[PMC免费文章][公共医学][谷歌学者]

44Siepel A、Bejerano G、Pedersen JS、Hinrichs AS、Hou M、Rosenbloom K等人。脊椎动物、昆虫、蠕虫和酵母基因组中进化保守的元素.基因组研究. 2005;15: 1034–1050. 10.1101/克3715005[PMC免费文章][公共医学] [交叉参考][谷歌学者]

45Kel AE、Gössling E、Reuter I、Cheremushkin E、Kel Margoulis OV、Wingender E。MATCH：一种搜索DNA序列中转录因子结合位点的工具.核酸研究. 2003;31: 3576–3579.[PMC免费文章][公共医学][谷歌学者]

46Ashburner M、Ball CA、Blake JA、Botstein D、Butler H、Cherry JM等。基因本体：生物学统一的工具。基因本体联盟. 2000;25: 25–29. 10.1038/75556[PMC免费文章][公共医学] [交叉参考][谷歌学者]

47Blake JA、Bult CJ、Eppig JT、Kadin JA、Richardson JE。小鼠基因组数据库基因型：表型.核酸研究. 2009;37：D712–719。10.1093/nar/gkn886[PMC免费文章][公共医学] [交叉参考][谷歌学者]

48Hindorff LA、Sethupathy P、Junkins HA、Ramos EM、Mehta JP、Collins FS等人。全基因组关联位点对人类疾病和特征的潜在病因和功能意义.《美国科学院院刊》. 2009;106: 9362–9367. 10.1073/pnas.0903103106[PMC免费文章][公共医学] [交叉参考][谷歌学者]

49Imboden M、Bouzigon E、Curjuric I、Ramasamy A、Kumar A、Hancock DB等。哮喘患者和非哮喘患者肺功能下降的全基因组关联研究.过敏临床免疫学杂志. 2012;129: 1218–1228. 10.1016/j.jaci.2012.01.074[PMC免费文章][公共医学] [交叉参考][谷歌学者]

50Frazer KA、Ballinger DG、Cox DR、Hinds DA、Stuve LL、Gibbs RA等。超过310万个SNPs的第二代人类单倍型图谱.自然. 2007;449: 851–861. 10.1038/性质06258[PMC免费文章][公共医学] [交叉参考][谷歌学者]

51Siebold C、Hansen BE、Wyer JR、Harlos K、Esnouf RE、Svejgaard A等人。HLA-DQ0602的晶体结构，可预防1型糖尿病并对发作性睡病具有很强的易感性.《美国科学院院刊》. 2004;101: 1999–2004. 10.1073/pnas.0308458100[PMC免费文章][公共医学] [交叉参考][谷歌学者]

52Robinson J、Halliwell JA、McWilliam H、Lopez R、Parham P、Marsh SGE。IMGT/HLA数据库.核酸研究. 2012; 10.1093/nar/gks949[PMC免费文章][公共医学] [交叉参考][谷歌学者]

53.Hor H、Kutalik Z、Dauvilliers Y、Valsesia A、Lammers GJ、Donjacour CEHM等。全基因组关联研究确定新的HLA II类单倍型对发作性睡病具有强保护作用.自然基因. 2010;42: 786–789. 10.1038/纳克.647[公共医学] [交叉参考][谷歌学者]

文章来自PLOS计算生物学由以下人员提供多环芳烃