Exome sequencing and the genetic basis of complex traits

Adam Kiezun; Kiran Garimella; Ron Do; Nathan O. Stitziel; Benjamin M. Neale; Paul J. McLaren; Namrata Gupta; Pamela Sklar; Patrick F. Sullivan; Jennifer L. Moran; Christina M. Hultman; Paul Lichtenstein; Patrik Magnusson; Thomas Lehner; Yin Yao Shugart; Alkes L. Price; Paul I.W. de Bakker; Shaun M. Purcell; Shamil R. Sunyaev

doi:10.1038/ng.2303

自然遗传学。作者手稿；PMC 2013年7月30日提供。

以最终编辑形式发布为：

自然遗传学。2012年5月29日；44(6): 623–630.

2012年5月29日在线发布。数字对象标识：10.1038/纳克.2303

预防性维修识别码：项目经理3727622

NIHMSID公司：NIHMS408440标准

PMID：22641211

外显子序列测定与复杂性状的遗传基础

亚当·基赞,^1,^2,¹⁴ 基兰·加里梅拉,^2,¹⁴ 罗恩·多,^2,^三，¹⁴ 内森·奥斯蒂泽尔,^4,^2,¹⁴ 本杰明·尼尔,^2,^三，¹³ 保罗·麦克拉伦,^1,² 纳姆拉塔·古普塔,² 帕梅拉·斯科拉,⁵ 帕特里克·F·沙利文,⁶ 詹妮弗·莫兰,² 克里斯蒂娜·赫尔特曼,⁷ 保罗·利奇滕斯坦,⁷ 帕特里克·马格努森,⁷ 托马斯·莱纳,⁸ 殷瑶舒加特,⁹ 阿尔克斯·L·普莱斯,^2,^10,^11,¹⁵ 保罗·德巴克尔,^1,^2,^12,¹⁵ 肖恩·M·珀塞尔,^13,¹⁵和沙米尔·苏尼亚耶夫^1,^2,^15,¹⁶

亚当·基赞

¹美国马萨诸塞州波士顿哈佛医学院布里格姆女子医院医学部遗传科

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

查找文章依据亚当·基赞

基兰·加里梅拉

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

查找文章依据基兰·加里梅拉

罗恩·多

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

^三美国马萨诸塞州波士顿马萨诸塞总医院人类基因研究中心

查找文章依据罗恩·多

内森·奥斯蒂泽尔

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

⁴美国马萨诸塞州波士顿哈佛医学院布里格姆女子医院心血管内科

查找文章依据内森·奥斯蒂泽尔

本杰明·尼尔

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

^三美国马萨诸塞州波士顿马萨诸塞总医院人类基因研究中心

¹³美国马萨诸塞州波士顿马萨诸塞总医院分析和转化遗传学室

查找文章依据本杰明·尼尔

保罗·麦克拉伦

¹美国马萨诸塞州波士顿哈佛医学院布里格姆女子医院医学部遗传科

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

查找文章依据保罗·麦克拉伦

纳姆拉塔·古普塔

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

查找文章依据纳姆拉塔·古普塔

帕梅拉·斯科拉

⁵美国纽约州纽约市西奈山医学院弗里德曼脑研究所及基因组和多尺度生物学研究所精神病学系

查找文章依据帕梅拉·斯科拉

帕特里克·F·沙利文

⁶美国北卡罗来纳大学教堂山医学院遗传学系

查找文章依据帕特里克·F·沙利文

詹妮弗·莫兰

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

查找文章依据詹妮弗·莫兰

克里斯蒂娜·赫尔特曼

⁷瑞典斯德哥尔摩卡罗林斯卡研究所医学流行病学和生物统计学系

查找文章依据克里斯蒂娜·赫尔特曼

保罗·利奇滕斯坦

⁷瑞典斯德哥尔摩卡罗林斯卡研究所医学流行病学和生物统计学系

查找文章依据保罗·利奇滕斯坦

帕特里克·马格努森

⁷瑞典斯德哥尔摩卡罗林斯卡研究所医学流行病学和生物统计学系

查找文章依据帕特里克·马格努森

托马斯·莱纳

⁸美国马里兰州贝塞斯达国家心理健康研究所神经科学和基础行为科学部

查找文章依据托马斯·莱纳

殷瑶舒加特

⁹美国马里兰州贝塞斯达国家心理健康研究所校内研究项目部

查找文章依据殷瑶舒加特

阿尔克斯·L·普莱斯

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

¹⁰美国马萨诸塞州波士顿哈佛公共卫生学院流行病学系

¹¹美国马萨诸塞州波士顿哈佛公共卫生学院生物统计学系

查找文章依据阿尔克斯·L·普莱斯

保罗·德巴克尔

¹美国马萨诸塞州波士顿哈佛医学院布里格姆女子医院医学部遗传科

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

¹²荷兰乌得勒支大学医学中心医学遗传学系和朱利叶斯健康科学和初级保健中心

查找文章依据保罗·德巴克尔

肖恩·M·珀塞尔

¹³美国马萨诸塞州波士顿马萨诸塞总医院分析和转化遗传学室

查找文章依据肖恩·M·珀塞尔

沙米尔·苏尼亚耶夫

¹美国马萨诸塞州波士顿哈佛医学院布里格姆女子医院医学部遗传科

²麻省理工学院和哈佛大学博德学院，马萨诸塞州剑桥，美国

查找文章依据沙米尔·苏尼亚耶夫

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 补充信息。
NIHMS408440-补充-补充_信息.pdf（159K）
GUID:57BF7BE8-5A86-4365-87A6-F1F613C6D575

摘要

外显子组测序是研究罕见编码变异对复杂表型影响的一种流行方法。外显子组测序的前景基于理论种群遗传学和候选基因测序研究的经验成功。许多针对常见疾病的项目正在进行中，其结果令人翘首以待。从这个角度来看，利用438名个体的外显子组测序数据，我们讨论了外显子序列研究的几个方面，我们认为这些方面特别重要。我们回顾了原始序列数据的处理和质量控制，评估了外显子组测序研究的统计特性，讨论了检测与表型关联的罕见变异负荷试验，并证明了在罕见变异分析中计算种群分层的重要性。我们的结论是，对复杂性状外显子组测序研究的热情应该与谨慎相结合，即可能需要数千个样本才能达到足够的统计能力。

外显子组测序的前景

下一代测序^1–5再加上高效的DNA捕获^6–8使外显子组测序成为研究人类表型遗传基础的一种新方法。使用这种方法绘制了许多孟德尔病的基因图谱^6,9–15外显子组测序也已应用于肿瘤^16–20其中，样本纯度、读谱和染色体重排至关重要，并且形成了一系列非常独特的问题。从这个角度来看，我们将注意力局限于复杂的特征。在复杂性状遗传学中，外显子组测序研究揭示了基于微阵列的全基因组关联研究（GWAS）无法检测到的罕见编码变异。复杂性状外显子组测序研究的前景是基于候选基因研究的成功^21–26在种群遗传理论方面有着坚实的根基^27–35.

复杂性状的大规模GWAS一直表明，除了少数例外，常见变异具有适度影响，通常需要成千上万个样本进行检测。外显子组测序通过全面评估所有常见和罕见编码变异的作用提供了一种补充方法。每个蛋白编码基因不断发生突变（比率为～10⁻⁵非同义变异体的每个基因^36–39)健身损失不到1%^29–31,34对于大多数新的非同义突变，几乎每一个基因都有功能重要的变异，可以通过测序进行检测，即使这些变异很罕见。因此，外显子组测序的强烈兴趣源于三个因素：识别复杂性状下许多基因的潜力，编码变异的直接功能注释，以及成本比全基因组测序低得多（约5倍）。

从这个角度来看，我们评估了经验数据中罕见编码变异的程度，讨论了原始序列数据的数据处理和质量控制，回顾了检测基因型-表型关联的分析方法，它们的预期统计能力，以及由于人口分层而导致混淆的可能性。为了说明我们的论点，我们使用了来自国际HIV控制者研究的184名个体的经验全序列数据⁴⁰来自精神分裂症（SCZ）外显子组测序研究的254名对照个体。

经验数据中罕见编码变异的评估

外显子测序数据包含大量罕见的编码变异，表明这种变异的很大一部分是功能性的。不仅有比普通变异体更多的稀有变异体，而且对更多样本进行测序也会继续发现更多的罕见变异体。事实上，随着样本量的增加，观察到的变异数的增长速度远远快于恒定人口规模中性模型的预测^41,42(图1). 这种罕见变异的相对过剩部分归因于最近的人口扩张^43–45，但也可能是由于净化选择。因此，罕见的变异因进化上有害的变异而丰富，因而具有功能性。此外，非同义变体在罕见变体中的比例高于常见变体⁴⁵最后，在罕见的变体中，预测了错义变体⁴⁶破坏性基因比良性基因更普遍(图1). 这些发现与研究一致，研究表明蛋白质编码区的罕见变异正在净化选择中^35,47–51由于对较大样本进行测序会不断发现功能相关的变异，外显子组测序研究能够直接识别因果变异（与GWAS相比，GWAS使用共同标记之间的连接-不平衡模式）。

在单独的窗口中打开

图1

发现新的变体，用于增加样本数量。对于每个函数类，将该类的一个样本中变体数量的折叠增量绘制为测序实验中样本数量的函数。例如，300个样本中发现的无意义变体的数量是单个样本中发现平均数量的40倍，而同义变体的数量仅是单个样本的10倍（尽管无意义变体绝对数量在发现的总变体中所占比例相对较小）；这种影响是由于净化选择造成的。在恒定规模的种群中，所有种类的变异都以超过中性进化模型预测的速度被发现，这是种群增长的一种影响。同义变体曲线与理论预测之间的交叉很可能是非洲以外瓶颈的标志。有关其他详细信息，请参见方法。

外显子组测序数据集的变异调用和质量控制过滤

外显子组测序研究从外显子捕获和DNA样本测序开始，然后识别序列变体。外显子组捕获可以在许多平台上实现（例如，Illumina HiSeq、Roche 454、ABI SOLiD），并通过各种探针定义（例如，Agilent SureSelect、Nimblegen SeqCap EZ）。最近的进展使得在测序仪器的单次运行中，可以对整个外显子组甚至几个外显子进行深度覆盖测序。然而，外显子组捕获技术的目标、捕获量以及捕获的一致性各不相同⁸此外，只有80-90%的靶区在10×以上被覆盖，这可能会留下4-8Mb（或1000-2000个基因）的变异检测覆盖不足。

外显子组测序覆盖范围具有巨大的区域差异⁸。一些区域可能被过度覆盖，代表真正的结构变异（例如，参考基因组中只有一个区域拷贝的片段复制），或技术伪影（例如，捕获探针更丰富，或导致“双重捕获”的重叠探针定义）。同样，一些区域可能由于生物原因（例如，参考序列中存在多个拷贝的片段复制，阻止对准器唯一放置读数）或技术原因（例如GC含量高或变异密度高，这会影响探针的杂交）而被覆盖不足。此外，目标边界50 bp内的一些“近目标”区域可以有足够的覆盖范围，以保证包含在变体调用中。关键的是，无论使用哪种捕获技术，都应该使用相同的技术处理所有样本，或者应该解释变异性，例如，通过技术对研究进行分层（参见人口分层部分）。

对于这个透视图，我们使用两阶段方法从438个样本（参见方法部分）中生成了完整的数据（目标为28Mbp）^52,53首先，我们应用了前面描述的数据处理和变量调用协议⁵⁴其次，我们应用了SNP调用后质量控制（QC）过滤器。

为了对产生的SNP进行质量控制，我们使用了群体遗传统计和人类遗传变异的特性。使用这些统计数据有助于识别真正的变体，因为突变过程的特性^37,55不同于测序技术的错误。

我们比较了Complete Genomics Inc.（CGI，见URL）发布的438个样本数据集和37个全基因组数据集中计算的统计数据，只关注与外显子组数据相同的基因组区域。CGI全基因组数据集是一个很好的比较，因为全基因组测序不依赖于外显子捕获技术。我们进一步将这些逐样本统计分为生物学上有趣的类（功能类和CpG状态），但也可能显示出不同的技术伪影率。表1显示了过滤对于实现高质量呼叫至关重要。在过滤之前，指标显示出与预期值的显著偏差，这可能表明假阳性率很高。过滤后，统计数据收敛到CGI数据集中的统计数据。通过与人类黑猩猩的差异性进行比较，也可以看出过滤器的有效性⁵⁵.

表1

每个Illumina测序样本的SNP计数（计算为438个样本中每个样本的度量值中位数），定位于外显子组，按功能和生物标准分层，并与每个完整基因组测序样本中的SNP数进行比较（计算为37个样本中每一样本的度量数值中位数）。在应用过滤器之前，计数与独立获得的比较数据集（来自完整基因组学的数据）得出的期望值显著不同，表明存在许多假阳性。例如，在被确定为无义突变的SNP中，最初出现的假阳性增加了1.5倍。由于无意义变体很少见，未过滤的调用集可能包含许多伪装成无意义变体的人造事件。质量控制过滤器有助于将指标与比较集和来自人类黑猩猩差异的数据对齐（见正文）。

	过滤器	计数（%已筛选）	#Het（过滤百分比）	#角衍生（过滤百分比）	钛/电视
总计
	未过滤的	18,626	11,761	3,007	2.92

	已过滤	16,776 (10%)	10,242 (13%)	2,785 (7%)	3.21

	比较	16,914	10,464	2,492	3.31

按功能类
沉默的	未过滤的	9,536	5,933	1,601	4.80

	已过滤	8,845 (7%)	5,372 (9%)	1,514 (5%)	5.10

	比较	8,987	5,514	1, 352	5.22

错义	未过滤的	8,698	5,557	1,350	1.92

	已过滤	7,644 (12%)	4,685 (15%)	1,220 (9%)	2.11

	比较	7,723	4,772	1,095	2.17

胡说	未过滤的	70	60	9	1.31

	已过滤	48 (31%)	39 (35%)	8 (11%)	1.65

	比较	46	38	6	2

按CpG状态
CpG公司	未过滤的	2,213	1,539	422	4.82

	已过滤	2,030 (8%)	1,390 (9%)	397 (6%)	5.12

	比较	2,098	1,448	350	5.44

非CpG	未过滤的	16,415	10,218	2,585	2.75

	已过滤	14,752 (10%)	8,852 (13%)	2,338 (9%)	3.03

	比较	14,822	9,901	2,145	3.11

在单独的窗口中打开

新变体站点的数量（此处定义为dbSNP 129中不存在）是SNP调用质量的另一个度量标准(补充表1). 大多数新变体的频率较低，特别是在单光子和双光子中富集。单值和双值对于区分误报尤其重要，因为数据处理中的技术伪影或错误很容易表现为新的变化。

转换/转换比（Ti/Tv）和新变体数量等统计数据可用作数据集质量的总体指导，并可比较来自同一数据集的两组调用。然而，对这些统计数据的准确预期尚不清楚，因为它们取决于许多因素，包括覆盖不均、DNA质量的变异性或其他技术偏差来源，如机器错误。因此，解释这些统计数据中与预期的微小差异是很重要的。基因分型验证提供了一种独立于群体遗传学统计数据的callset质量的额外测量方法。将基因分型数据与测序数据进行比较，可以通过计算非参考敏感性（“NRS”-基因分型中非参考位点在测序数据中恢复的速率）和非参考差异率（“NRD”）直接测量调用集质量-测序和基因分型数据中的基因型差异率）。基因分型分析应包括不同等位基因频率的位点，尤其是低频（～1%）。如果可用，家庭数据，尤其是三人组，也可以用于评估呼叫集质量。

将我们的调用集与重叠站点相同样本中的GWAS数据进行比较，表明对常见变体具有较高的敏感性（98.6%NRS）。为了评估可比较测序数据集中低频变异呼叫的质量，我们将CGI数据与1000基因组项目的Omni芯片进行了比较(补充表2). 这种比较导致新变体的NRS为95.65%，NRD为1.79%，NRD是1.12%。

尽管有严格的质量控制，基因分型和测序错误仍然存在。不幸的是，当基于假定的功能后果对变体进行分层时，注释为最有害的变体类别也会因错误而更加丰富⁵⁶这突出了严格质量控制的重要性。

至关重要的是，要非常小心地防止测序中的技术偏见和混淆，以避免扭曲关联结果。例如，（稀有和珍贵）病例样本与对照样本处理方式的差异可能导致系统性假阳性，并伪装成有趣的关联。同样，只调用病例或只调用对照的同时多样本变异体可能会导致不同批次变异体的差异检测，从而对等位基因频率估计和关联分析的准确性产生负面影响。许多其他技术混淆因素（例如DNA制备、外显子捕获技术、机器类型、读取长度、覆盖深度、SNP调用算法、QC过滤器）可能会影响外显子序列数据的属性，这些技术混淆因素通常是理解不足或隐藏的。因此，尽管使用共享对照（例如，来自1000基因组项目）有助于“过滤”孟德尔疾病的方法^6,9，不太可能适用于复杂疾病的关联分析。

罕见变异分析的统计方法

对罕见变体的分析需要使用与用于测试常见变体的关联统计有根本不同的统计方法。这有两个原因。首先，罕见的变异必须结合在一个基因（或通路）中，才能进行关联测试以达到足够的功效⁵⁷例如，在200例病例和200名对照的样本中，一个频率为1/500的因果SNP和基因型相对风险为10，在GWAS的传统显著性阈值下检测到的功率为0.2%（P<5×10⁻⁸). 其次，功能和群体遗传学信息可以添加到测试方法中，因为外显子组测序全面捕获了可以用这些信息注释的变异。

早期复杂性状的候选基因测序研究基于病例或对照组（或性状分布极端的样本）独有的非同义等位基因数量的比较^21,26这种方法的功效有限，因为它忽略了常见的和低频的多态性，因为大多数这种变异都会出现在病例和对照中。最近，为稀有变量分析设计了一些统计检验。多变量和崩溃（CMC）综合测试⁵⁸联合评估罕见和常见变异的作用。对于常见变量，采用传统的基于回归的关联。对于罕见变异，如果个体在该区域至少拥有一个罕见变异（例如基因），则回归模型中的个体预测值定义为1，否则为0。加权和统计（WSS）检验⁵⁹，为所有个体创建复合基因型得分。该分数是由二项式方差的倒数加权的替代等位基因的总和。然后对表型组之间的基因型得分进行秩和检验。基于内核的自适应集群（KBAC）测试⁶⁰还使用了一个权重方案，该方案反映了各个变量的明显影响大小。将罕见变异组合成单一测试的另一种方法是根据观察数据选择等位基因频率阈值。这种可变阈值（VT）方法⁶¹受群体遗传模拟的激励，表明不存在单一的最优加权方案或等位基因频率阈值。对于复杂性状中的罕见变异，还有许多其他统计测试（参考文献中综述）。^62–65).

在模拟研究中⁶⁴，在许多情况下，大多数测试的行为都类似。然而，结果可能取决于模拟数据中使用的假设。检测关联的相对能力取决于因素，如因果变异的数量和比例、它们的群体频率和影响大小，以及影响的方向性、影响性状的基因数量和外显子中因果遗传变异的比例。统计测试是根据这些因素的不同组合而开发的，因此可能对不同的疾病结构敏感。例如，WSS测试开发中使用的模拟框架假设效果大小与1/x（1−x）（其中x个是因果等位基因的群体频率），而序列核关联测试（SKAT）⁶⁶仿真框架使用的效果大小与−对数（x）VT测试模拟使用一个人口统计历史模型，该模型具有一系列可能的选择强度值，导致效应大小和x个这些模拟旨在证明不同效应大小分布下每种方法的优势：WSS的效应大小与1/x（1−x），SKAT是为与β密度成比例的效果大小而设计的β（x；a）₁，一个₂)对于预先指定的₁和a₂，C-α⁶⁷该测试是针对同一区域内相反方向的效应而设计的，而VT测试对效应大小分布没有任何假设。

当组合罕见的变体时，可以假设所有功能变体都在同一方向上影响性状，或者允许某些功能变体具有相反的作用方向。可以提出一个生物化学论点，即大多数非同义变体是功能丧失亚变体，而功能获得变体很少。然而，一些基因（例如PCSK9⁶⁸)有两种变体。一些测试允许罕见的变异对性状产生相反的影响（例如，加速⁶⁹，C-alpha，基于复制的测试⁷⁰，SKAT）。这些测试要么基于过度分散分析，要么基于显式线性模型，该模型根据数据中观察到的效果方向确定变量对分数的贡献。

候选基因的模拟和测序研究证明，通过功能重要性对罕见等位基因进行分层或加权，Rare-variant测试可以受益^{61,64,71–73.}稀有变量检验的威力受到所分析的所有变量中因果变量的比例的强烈影响，使用功能信息是对可能的因果变量赋予更大权重的有效方法。例如，无意义变体的优先级应高于非错义变体。同样，错义变体的优先级应高于同义变体。通过使用比较序列分析和蛋白质结构分析检查氨基酸变化的影响，可以预测变体的功能后果。许多计算预测和守恒^74,75方法可用（参考文献中进行了综述）。^76–79). 这些方法的准确度约为80%⁸⁰罕见变异体的死亡率可能最高（真正的功能变异体很可能有害，通过净化选择保持在低频率，因此常见变异体最有可能是中性和无功能的）。因此，使用预测方法可以丰富功能变量，从而提高关联测试的能力。然而，由于这种预测并不完美，因此应该通过权衡变量来定量使用它们，而不是通过筛选变量来定性使用它们。许多测试允许将预测分数纳入测试统计，例如VT测试、KBAC、SKAT、罕见变量加权总统计（RWAS）⁷²、似然比测试（LRT）⁷³PLINK/SEQ套件包括预计算的PolyPhen-2⁴⁶人类所有可能的错义变化的预测分数，这使得这些分数很容易适用。

外显子组测序研究的一个重要考虑因素是选择解释多重测试的显著性阈值。一个简单的方法是对20000个独立测试（每个基因一个测试）采用Bonferroni校正，对于实验范围内的显著性0.05，这将得出一个第页-2.5×10的阈值⁻⁶每个基因。然而，这样的阈值可能过于保守，因为它假设每个被测基因都有足够的变异来达到测试统计量的渐近性质。例如，如果在一个给定的基因中只有2个个体携带非同义变异体，那么病例和对照之间的差异永远不会超过2个总观察值，因此最显著的是第页-假设这两个变量是独立的，则可以实现的值约为0.25。因此，除非研究规模较大第页-这些值的显著性通常低于零假设下的预期。图2a在438个外显子上显示了这种效应。PLINK/SEQ套件根据数据计算所谓的i-stat，这是对可实现的最小值的估计第页-基因的值。i-stat可以通过设置阈值（例如，10⁻³)并且，只有根据i-stat高于阈值的基因没有发现关联的能力的想法，修正i-stat低于阈值的基因数量。另一种纠正多重测试的方法是通过表型标签的排列计算实验范围内的显著性阈值，创建最小值的经验分布第页-所有基因在排列中的值，并比较最小值第页-从实际数据到该分布的值(图2b). 这种方法有效地控制了I类误差，并且比Bonferroni校正更不保守。重要的是第页-通过排列计算的阈值取决于研究和统计检验。然而，通过置换进行的实验范围的校正对混淆并不稳健，对于i-stats小于阈值的基因，评估测试统计分布的质量至关重要，以确保对分布进行适当校准。然而，随着样本量的增加，测试的维度也将增加，研究将评估近20000个测试。因此，对于大型研究，我们认为Bonferroni阈值更可取。

在单独的窗口中打开

在单独的窗口中打开

图2

关联分析。(一)关联Q-Q图第页-零假设下的值。(b条)最低分配第页-全xome置换下的值。直方图显示了最低值的分布第页-T5测试的排列值。红色垂直线表示最显著基因的0.05外显显著水平（即，如果其第页-值低于红线指示的级别）。

外显子组测序研究的统计能力

外显子测序研究的威力受到基因变异量的限制。因此，对于具有更多变体的基因，例如较长的基因或突变率较高区域的基因，其功效更高。此外，大多数变异体具有因果关系的基因比那些只有少数变异体的基因更容易识别。在单个候选基因测序研究中，估计这一比例在30%到70%之间^21,22,26.因此，效应大小不仅是单个变量的属性，而且是效应分布的反映，以及如何通过测试解释这些效应。一些统计测试明确说明了在评估关联证据时权力的差异⁸¹.

鉴于样本大小、因果变异的可能影响大小和频率以及基因中因果变异的比例，当前外显子组测序研究是否有足够的能力检测复杂表型下的基因？外显子组测序研究的热情在一定程度上源于成功的候选基因测序研究，因此我们试图测试外显子测序是否有足够的能力检测候选基因方法发现的基因。到目前为止，还没有发表候选基因研究报告第页-在完整外显子组的背景下具有重要意义的值(表2). 这尤其引人注目，因为一些候选基因研究使用的样本量（数千个个体）比正在进行的外显子组测序研究（数百个个体）大得多。这表明，目前的外显子组测序研究在检测等位基因分布和效应大小与已发表的例子相似的基因方面能力不足。事实上，从已发表的研究中推断出的效应大小和频率表明(图3)成千上万的人需要达到可接受的统计能力。这一分析与早先基于群体遗传模拟的研究一致，该研究得出的结论是，要获得令人满意的能量，需要多达10000个处于表型极端的个体³⁰第一个GWAS^82–84他们的能力也极为不足，但成本下降和在荟萃分析中结合研究，使他们能够快速创建强有力的研究和许多发现。同样，随着测序和靶向富集成本的下降⁸⁵外显子组测序很快将为许多研究小组所负担，我们预计将成立联盟，以促进外显子测序数据的汇集，从而实现更有力的研究和新一轮的发现。

在单独的窗口中打开

图3

基因负荷结果外推。水平实线红线显示Bonferroni全基因组显著性阈值P=2.5×10⁻⁶。水平虚线表示从全xome置换导出的阈值(图2b). 对于较大的样本量，置换阈值将更接近Bonferroni阈值，随着样本量的增加逐渐接近该阈值。

表2

罕见变异研究的基因负荷测试结果摘要。该表总结了已发表候选基因重新排序研究的基因负荷测试结果。该表显示，LPL基因只有一个信号是强相关的（P=2.47×10⁻⁵)但没有达到全基因组显著性P<2.5×10⁻⁶（对20000个测试基因进行Bonferroni校正后，P<0.05）。这突出了对大量样本进行排序的重要性。缩写：a：非参考等位基因的等位基因计数，b：如已发表的研究报告所述，RVE罕见变异排除试验。参考计数。²⁶和参考。²¹如已发表的研究报告所述。参考计数。²²基于已发表研究中描述的“功能性突变携带者”。参考计数。²⁵和参考。²⁴基于小等位基因频率（MAF）<0.01的SNP。参考计数。²³仅在对照组中基于MAF<0.01的SNP。全部第页-除非在已发表的研究中另有报告，否则数值为双面测试。

特质	基因	测试	aAC低	AC高	n个	P（P）	裁判
热失重	角点4	费舍尔的确切数字	13	2	1775	^b条0.016	26
热失重	角度5	费舍尔的确切数字	9	1	1775	^b条0.022
高密度脂蛋白	澳大利亚广播公司1	RVE公司	28	4	519	^b条<0.0001	21
	APOA1号机组		1	0	519
	LCAT公司		6	1	519
英国石油公司	SLC12A1/3，KCNJ1	费舍尔的确切数字	9	1	626	0.02	22
肥胖	肥胖	费舍尔的确切数字	73	97	757	0.061	25
T1D（T1D）	IFIH1	费舍尔的确切数字	21	39	960	0.025	24
超TG	APOA5公司	费舍尔的确切数字	1	5	765	0.25	23
	GCKR公司	费舍尔的确切数字	5	20	765	0.024
	低密度脂蛋白	费舍尔的确切数字	8	44	765	2.47×10⁻⁵
	亚太经合组织	费舍尔的确切数字	39	85	765	0.008

在单独的窗口中打开

复制以确认关联

为了发现强有力的关联，外显子组测序研究中的复制将至关重要。由于早期的小型研究将不可避免地缺乏动力，任何基因都不可能达到外显统计意义。在这种情况下，除非对多个测试进行严格修正，否则研究人员应抵制应用一系列统计测试的诱惑，每个测试都有不同的权重方案和变量选择。我们强烈主张，只有复制了关联，才能认为关联是真实的。一个合理的复制策略是根据关联强度选择几个基因（例如10个）⁸⁶从发现阶段和先前的生物合理性来看。然后必须对新样本进行测序和稀有变异关联，使用只适用于（较小的）候选基因集的多重测试校正阈值。

人口分层

人群分层-病例和对照之间的系统祖先差异-是遗传关联研究中一个研究得很好的混淆因素⁸⁷在GWAS中，纠正分层的常用方法包括按人口聚类分层（结构化关联）、主成分分析（PCA）和混合模型^87–90也可以应用基因组控制，但它通常更适用于评估分层，而不是校正分层^87,91.

一个重要的问题是，种群分层是否会混淆外显子组测序研究，如果是，如何在这种情况下纠正分层。尽管过度重复变异测试与单变异测试有着本质上的不同，但分层的可能性仍然存在，因为结构化人口样本中的祖先不同（例如，非洲裔美国人的非洲和欧洲血统，或欧洲裔美国人的北欧和南欧血统）由于不同的人口统计学历史，可能有不同的等位基因频谱。例如，在一项针对非裔美国人的外显子组测序研究中，疾病病例的非洲血统多于对照，人们预计病例中会出现过多的罕见变异，因为非洲染色体携带更多的罕见变异⁹².

我们创建了一个假设的病例对照外显子组测序研究，包括实际测序数据和模拟表型数据，使用438个个体，分为两个群体（见方法）。为了诱导人群分层，我们将病例对照状态随机分配给每个样本，偏向于从一个人群中选取更多病例，从另一个人群选取更多对照。关联测试表明虚假膨胀率具有统计学显著性第页-值。我们通过修改排列方案来解释子种群，从而纠正了种群分层。这种纠正在控制所有关联测试中的I型错误方面是有效的。

我们的模拟表明，外显子序列研究可能会受到人口分层的影响，这可能会产生虚假的关联。我们已经证明，当与全基因组祖先对应的离散簇已知或可以通过对GWAS芯片数据应用标准方法进行推断时，简单的置换方案足以纠正种群分层^88,89,93置换方案很有吸引力，因为它概括了多个罕见变异体测试的大多数负担，然而，在人口结构最好由连续梯度而不是离散簇来描述的情况下，一些测试也可能适合使用PCA协变量⁸⁹.

结论

外显子组测序研究带来了以公正的方式对编码变异进行全面测试的希望。然而，我们预计初步研究将动力不足，并且我们已经强调了一些技术问题，这些问题可能会影响对罕见变体数据的解释和分析，尤其是新变体。我们预计，需要数千个外显子才能获得足够的统计能力，以稳健地检测罕见变异与复杂性状的关联。我们在这个观点中讨论的问题也与未来的全基因组测序研究有关，其中蛋白质编码变异的分析将与外显子的分析保持一致。

仅关注外显子组是复杂性状遗传学中的一个特别严重的限制，在这种情况下，非编码遗传变异被认为比孟德尔遗传学或体细胞癌遗传学发挥更大的作用。然而，有明确的理由从exome开始。首先，将多种罕见变异组合在一起的统计方法在非编码区是有问题的，因为没有一组容易识别的位点携带具有单向表型效应的变异。其次，调控区域中的变体可能具有较小的影响大小。相反，蛋白质编码基因为该位点的突变提供了一个明确且可解释的靶点。这些突变产生的变异，在一项有力的研究中，突显了基因座和性状的关联。因此，尽管聚焦于外显子不太可能解释所有的遗传力，但它有可能突出复杂性状中的基因。

尽管本观点中讨论了一些挑战，但观察到人类群体中存在大量具有重要功能的编码变体，这给我们带来了希望，外显子组测序方法最终将有助于识别许多对复杂性状和疾病重要的基因座。

方法

模拟发现新变体

为了计算样本数量增加时新变体的发现率，首先将所有外显子样本按随机顺序排列。然后，从第一个样本开始，依次分析样本，并计算已识别变量的累积集。对于每个后续样本，如果变异位点在之前的累积样本集中未被识别为变异，则该变异位点被视为新的。相对于基线的折叠增量（其中每个类的基线是在第一个样本中发现的变体数量）绘制在图1为了避免采样偏差，执行随机重采样并计算总平均值。Nonsense、Missense和Synonymous类基于RefSeq注释。根据PolyPhen-2的预测，Missense类进一步分为“可能具有破坏性”、“可能具有损害性”和“Benign”类⁴⁶.“理论”线绘制了在恒定规模种群中中性进化模型下的预期分离位点数量⁴¹.

数据生成

使用Burrows-Wheeler Aligner（BWA）将读数与参考基因组对齐⁹⁴，使用Picard去除PCR重复读数（请参阅Web参考资料），使用基因组分析工具包（GATK）重新校准基本质量分数，并使用GATK细化假定指数附近的比对。结果数据通过GATK进行分析，以发现SNP候选基因并进行基因分型。

QC过滤器

我们使用了以下QC过滤器：（1）quality-score-vs.-depth过滤器，它排除了深度标准化发现置信度不超过2.0的变体；（2）同聚物-序列过滤器，其排除具有替代等位基因的变体，该等位基因与相邻的长度大于5的同聚物序列中的等位基因相匹配；（3）一个strand-bias过滤器，它排除了交替等位基因优先出现在该位点两个可用读取方向之一上的变体，以及（4）一个indel-mask过滤器，它不包括在与indels重叠的位点上发现的变体。

关联分析

随机分配病例/对照状态，对所有基因进行T5罕见变异负担测试（T5是CMC测试的变体⁵⁸该方法只考虑次要等位基因频率低于5%的非同义变异，使用病例中替代次要等位蛋白的总数作为检验统计量，并通过排列表型标签来确定显著性）。整体通货紧缩明显第页-值（即，在任何显著性水平上相关的基因比偶然预期的要少，这是由于基因变异数较少。T1型CMC和WSS的结果相似⁵⁹和VT测试⁶¹这种模式在样本量较小的研究中是可以预见的（约1000人以下）。在这种情况下，可以使用全外显子置换来建立外显子意义。

全外显子置换

完整外显子的表型标记被排列1000000次，即排列的表型影响个体中的所有基因。在每个排列中，外显子宽度最小第页-计算值。对438个个体中15122个基因的100万个全基因组排列进行8次统计测试，花费了不到1000个计算小时。计算非常容易并行化，因此使用集群或云计算非常经济。

功率计算

数据是根据已发表的研究中的五个候选基因和一个肥胖基因集的结果推断出来的(表2). Fisher精确检验用于计算第页-样本大小推断后的值。

人口分层

我们在一项假设的外显子组测序研究中诱导了人群分层，该研究涉及实际测序数据和模拟表型数据，使用来自HIV的184名个体和来自精神分裂症（SCZ）外显子序列研究的254名个体。我们观察到种群之间的等位基因频率存在外显差异，我们通过估计F_装货单使用外显子组测序数据在HIV和SCZ样本之间⁹⁵.F型_装货单使用EIGENSOFT软件进行估算。使用次要等位基因频率至少为5%的变体，我们观察到F_装货单值为0.003，这与欧洲HIV（欧美）和SCZ（瑞典）样本的不同血统以及之前对欧洲人群之间遗传距离的估计一致⁹⁶我们认为，HIV和SCZ样本之间观察到的差异可能是由于样本采集、测序或数据处理的差异导致的差异偏见⁹⁷，但认为这不太可能，因为我们对两个样本集应用了相同的数据处理和QC程序，并且QC指标显示样本集之间没有系统性差异。

为了诱导人群分层，我们随机分配了80%的HIV样本和20%的SCZ样本作为病例，其余样本作为对照。然后，我们使用病例对照标签运行四个关联测试：固定阈值法（CMC测试的T1和T5版本⁵⁸)、WSS⁵⁹和VT测试⁶¹我们通过考虑最显著的p值（15122个基因中）和p值比例<0.05和<0.01来量化人口分层的证据。如空分布所示(图2)，预计由于计数低，第页-数值将缺乏统计意义上的信号。然而，在对人口分层进行校正之前，我们的指标表明，统计上显著的信号过多。例如，对于T5第页-值<0.000001，并且第页-0.05级的数值为0.0595，0.01级为0.0136。其他统计测试和分配为病例的其他比例的HIV样本的结果类似（我们试验了90%、80%和70%，以及30%、20%和10%）。我们注意到，当指定为病例的艾滋病毒感染者比例高于50%时，诱发的通货膨胀高于该比例低于50%时的通货膨胀，这可能是由于与瑞典样本相比，瑞士和欧美样本中的罕见变异的群体遗传过剩。

为了纠正分层，我们修改了实现关联测试的脚本（请参阅Web参考资料），以采用置换方案，在假定已知人群标签的情况下，在每个人群（HIV和SCZ）中置换病例/控制状态。这种置换方案不会改变研究的计算成本。结果表明，置换过程对种群分层进行了充分控制，消除了过量的显著信号。例如，对于T5第页-修正后的值为0.0001第页-0.05和0.01水平下的值分别为0.0340和0.0060。如前所述，统计显著信号的缺乏是由于计数低，并且与零分布一致(图2). 其他统计测试和分配为病例的其他比例艾滋病毒样本的结果类似。这些结果表明，基于排列的校正在控制I型误差方面是有效的。

补充材料

补充信息

单击此处查看。^{（159K，pdf）}

致谢

这项工作部分是由美国国立卫生研究院拨款5R01MH084676促成的，部分是由国际艾滋病毒控制者研究促成的，该研究得到了比尔和梅琳达·盖茨基金会艾滋病疫苗发现合作项目（给P.I.W.d.B.）的支持，艾滋病临床试验小组得到了NIH拨款AI069513、AI34835、，AI069432、AI069423、AI0694、77、AI069501、AI069、474、AI06928、AI69467、AI069.415、Al32782、AI27661、AI25859、AI28568、AI30914、AI06、9495、AI0697、AI069532、AI 069452、AI069350、AI0695、AI06，9484、AI069772、AI34853、AI068636、RR024975和AI077505。SCZ对照个体的测序由3个来源资助：美国国立卫生研究院拨款RC2MH089905、赫尔曼基金会和斯坦利医学研究所。美国国立卫生研究院（National Institutes of Health Training Grant）T32-HL07604-25心血管内科布里格姆女子医院（Brigham and Women’S Hospital，Division of Cardiovascular Medicine）为N.O.S.提供了部分支持。B.M.N.得到1R01MH089208-01的支持。作者感谢Samuela Pollack对EIGENSOFT的帮助。本演示文稿中表达的观点不一定代表NIMH、NIH、HHS或美国政府的观点。

脚注

URL

http://www.completegenomics.com/sequence-data/download-data（完整的基因组数据集）
http://genetics.bwh.harvard.edu/rare_variants（R脚本用于此透视图中的所有关联分析。包含T1、T5、WSS和VT测试，可选加权PolyPhen-2预测）
http://www.hsph.harvard.edu/faculty/alkes-price/software（EIGEN-SOFT软件）
http://picard.sourceforge.net/index.shtml（用于操作序列对齐/映射或SAM文件的Picard实用程序）
http://bio-bwa.sourceforge.net（Burrows-Wheeler校准器或BWA）
http://www.broadinstitute.org/gsa/wiki/index.php/The_Genome_Analysis_Toolkit网站（GATK套件）
http://atgu.mgh.harvard.edu/plinkseq（PLINK/SEQ库有助于管理、质量控制和分析外显子组测序数据，包括文中提到的几个统计测试）

相互竞争的利益：作者声明他们没有相互竞争的经济利益。

作者贡献：A.K.开发了计算分析管道和分析数据，K.G.执行上游质量控制和测序数据分析，R.D.执行功率分析，N.O.S.执行经验数据中罕见变量的评估，B.M.N.参与统计分析，P.J.M.协助数据分析。T.L.参与了研究设计。P.S.、P.F.S.、J.L.M.、C.M.H.、P.L.、P.M.、P.I.W.D.B.、N.G.和S.M.P.提供了数据。A.L.P.、P.I.W.D.B.和S.R.S.构思并设计了该研究。A.L.P.、P.I.W.D.B.、S.M.P.和S.R.S.负责监督工作。A.K.、K.G.、R.D.、N.O.S.、B.N.M.、Y.Y.S.、A.L.P..、P.I.W.D.B.和S.R.S撰写了手稿。所有作者都批准了这份手稿。

数据访问SCZ控制数据可通过基因型和表型数据库（dbGAP）访问，登录代码为phs000473.v1.p1。为了获取HIV数据，研究人员可以提交一份简要的概念表，详细说明他们的研究设计、研究问题和其他需求。带有详细说明的概念表可从以下网站下载：http://cfar.globalhealth.harvard.edu/fs/docs/icb.topic938249.files/harvard%20CFAR%20Concept%20Sheet%20Template%20.docx

请将填妥的表格通过电子邮件发送给Pamela Richtmyer(gro.srentrap@reymthcirp公司). 将根据科学价值、可行性以及与正在进行的概念表/调查的重叠情况对请求进行审查。

工具书类

1Fuller CW等。合成测序的挑战。自然生物技术。2009;27:1013–1023.[公共医学][谷歌学者]

2Rusk N，Kiermer V.引物：测序——下一代。自然方法。2008;5:15.[公共医学][谷歌学者]

三。Metzker ML。下一代测序技术。《自然评论遗传学》。2009;11:31–46.[公共医学][谷歌学者]

4Shendure J，Ji H.下一代DNA测序。自然生物技术。2008;26:1135–1145.[公共医学][谷歌学者]

5Clarke J等人。单分子纳米孔DNA测序的连续碱基鉴定。自然纳米技术。2009;4:265–270.[公共医学][谷歌学者]

6Ng SB等。外显子组测序确定MLL2突变是歌舞伎综合征的病因。自然遗传学。2010;42:790–793. [PMC免费文章][公共医学][谷歌学者]

7Teer JK和Mullikin JC。外显子测序：整个基因组之前的最佳点。人类分子遗传学。2010;19：R145–R151。 [PMC免费文章][公共医学][谷歌学者]

8Hedges DJ等。SOLiD测序平台上三种目标富集策略的比较。《公共科学图书馆·综合》。2011;6：e18595。 [PMC免费文章][公共医学][谷歌学者]

9Ng SB等。12个人类前体的靶向捕获和大规模平行测序。自然。2009;461:272–276. [PMC免费文章][公共医学][谷歌学者]

10Pierce SB等。DBP缺乏蛋白HSD17B4的突变会导致卵巢发育不良、听力损失和佩罗综合征共济失调。美国人类遗传学杂志。2010;87:282–288. [PMC免费文章][公共医学][谷歌学者]

11Krawitz PM等。外显子组序列数据的身份逐代过滤可识别高磷血症精神发育迟滞综合征中的PIGV突变。自然遗传学。2010;42:827–829.[公共医学][谷歌学者]

12王继良，等。利用外显子组测序，TGM6被鉴定为脊髓小脑共济失调的新致病基因。脑：神经病学杂志。2010;133:3510–3518.[公共医学][谷歌学者]

13.Ng SB、Nickerson DA、Bamshad MJ、Shendure J.大规模平行测序和罕见疾病。人类分子遗传学。2010;19：R119–R124。 [PMC免费文章][公共医学][谷歌学者]

14Musunuru K等。外显子组测序、ANGPTL3突变和家族性合并低脂血症。《新英格兰医学杂志》。2010;363:2220–2227. [PMC免费文章][公共医学][谷歌学者]

15Hoischen A等。SETBP1的从头突变导致Schinzel-Giedion综合征。自然遗传学。2010;42:483–485.[公共医学][谷歌学者]

16赵Q，等。通过结合外显子组和转录组测序对推测的抑癌基因进行系统检测。基因组生物学。2010;11：R114。 [PMC免费文章][公共医学][谷歌学者]

17Wei X等人。外显子组测序确定GRIN2A在黑色素瘤中经常发生突变。自然遗传学。2011;43:442–446. [PMC免费文章][公共医学][谷歌学者]

18Varela I等。外显子组测序确定肾癌中SWI/SNF复合基因PBRM1的频繁突变。自然。2011;469:539–542. [PMC免费文章][公共医学][谷歌学者]

19Agrawal N等。头颈鳞癌的外显子序列测定显示NOTCH1中存在失活突变。科学。2011;28 [PMC免费文章][公共医学][谷歌学者]

20Chang H等。外显子测序揭示了八种癌细胞系的全面基因组变化。《公共科学图书馆·综合》。2011;6：e21097。 [PMC免费文章][公共医学][谷歌学者]

21Cohen JC等。多种罕见等位基因导致血浆中HDL胆固醇水平较低。科学。2004;305:869–872.[公共医学][谷歌学者]

22Ji W等。肾盐处理基因中罕见的独立突变导致血压变化。自然遗传学。2008;40:592–599. [PMC免费文章][公共医学][谷歌学者]

23Johansen CT等。通过高甘油三酯血症全基因组关联研究确定的基因中存在过多的罕见变异。自然遗传学。2010;42:684–687. [PMC免费文章][公共医学][谷歌学者]

24Nejentsev S、Walker N、Riches D、Egholm M、Todd JA。IFIH1是一种参与抗病毒反应的基因，它的罕见变体可以预防1型糖尿病。科学。2009;324:387–389. [PMC免费文章][公共医学][谷歌学者]

25Ahituv N等人。人体质量极限的医学测序。美国人类遗传学杂志。2007;80:779–791. [PMC免费文章][公共医学][谷歌学者]

26罗密欧·S等。ANGPTL家族成员中罕见的功能丧失突变导致人类血浆甘油三酯水平升高。临床研究杂志。2009;119:70–79. [PMC免费文章][公共医学][谷歌学者]

27普里查德JK。罕见变异是复杂疾病易感性的原因吗？美国人类遗传学杂志。2001;69:124–137. [PMC免费文章][公共医学][谷歌学者]

28Pritchard JK，新泽西州考克斯。人类疾病基因的等位基因结构：常见疾病-常见变异体……是否？人类分子遗传学。2002;11:2417–2423.[公共医学][谷歌学者]

29Kryukov GV，Pennacchio LA，Sunyaev SR.大多数罕见的错义等位基因对人类有害：对复杂疾病和关联研究的影响。美国人类遗传学杂志。2007;80:727–739. [PMC免费文章][公共医学][谷歌学者]

30Kryukov GV，Shpunt A，Stamatoyannopoulos JA，Sunyaev SR.深度全外显子重测序对人类特征基因发现的作用。美国国家科学院院刊。2009;106:3871–3876. [PMC免费文章][公共医学][谷歌学者]

31Boyko AR等人，《评估人类基因组中氨基酸突变的进化影响》。公共科学图书馆遗传学。2008;4:13. [PMC免费文章][公共医学][谷歌学者]

32Williamson SH等人。从人类基因组的变异模式同时推断选择和种群增长。美国国家科学院院刊。2005;102:7882–7887. [PMC免费文章][公共医学][谷歌学者]

33.Eyre-Walker A、Woolfit M、Phelps T。新型有害氨基酸突变对人体健康影响的分布。遗传学。2006;173:891–900. [PMC免费文章][公共医学][谷歌学者]

34Yampolsky LY，Kondrashov FA，Kondrachov AS。人类蛋白质中氨基酸替代选择强度的分布。人类分子遗传学。2005;14:3191–3201.[公共医学][谷歌学者]

35Fay JC，Wyckoff GJ，Wu CI。人类基因组的正选择和负选择。遗传学。2001;158:1227–1234. [PMC免费文章][公共医学][谷歌学者]

36Nachman MW，Crowell SL。人类每核苷酸突变率的估计。遗传学。2000;156:297–304. [PMC免费文章][公共医学][谷歌学者]

37Kondrashov AS。对引起孟德尔病的20个基因座的人类每核苷酸突变率的直接估计。人类突变。2003;21:12–27.[公共医学][谷歌学者]

38Roach JC等人。通过全基因组测序分析家族四分之一的遗传。科学。2010;328:636–9. [PMC免费文章][公共医学][谷歌学者]

39薛毅，等。用直接测序法测定深根系谱中人类Y染色体碱基替换突变率。当代生物学。2009;19:1453–1457. [PMC免费文章][公共医学][谷歌学者]

40Pereyra F等。HIV-1控制的主要遗传决定因素影响HLA I类肽表达。科学。2010;1551:1551–7. [PMC免费文章][公共医学][谷歌学者]

41埃文斯WJ。选择性中性等位基因的抽样理论。理论种群生物学。1972;三:87–112.[公共医学][谷歌学者]

42Kimura M.分子进化时钟和中性理论。分子进化杂志。1987;26:24–33.[公共医学][谷歌学者]

43Marth GT、Czabarka E、Murvai J、Sherry ST。全基因组人类变异数据中的等位基因频谱揭示了三大世界人口差异人口史的信号。遗传学。2004;166:351–372. [PMC免费文章][公共医学][谷歌学者]

44考文垂A等人。深度重测序揭示了与人口爆炸性增长一致的过多罕见近期变异。自然通信。2010;1:131. [PMC免费文章][公共医学][谷歌学者]

45Li Y，et al.对200个人类外显子进行重新排序，发现了过多的低频非同义编码变体。自然遗传学。2010;42:969–972.[公共医学][谷歌学者]

46Adzhubei IA等人。预测破坏性错义突变的方法和服务器。自然方法。2010;7 [PMC免费文章][公共医学][谷歌学者]

47Halushka MK等。用于血压稳态的候选基因中单核苷酸多态性的模式。自然遗传学。1999;22:239–247.[公共医学][谷歌学者]

48Cargill M等人。人类基因编码区单核苷酸多态性的特征。自然遗传学。1999;22:231–238.[公共医学][谷歌学者]

49Bustamante CD等。人类基因组中蛋白质编码基因的自然选择。自然。2005;437:1153–1157.[公共医学][谷歌学者]

50Sunyaev S，Ramensky V，Bork P.人类非同义单核苷酸多态性的结构基础。遗传学趋势。2000;16:198–200.[公共医学][谷歌学者]

51Sunyaev S等人。有害人类等位基因的预测。人类分子遗传学。2001;10:591–597.[公共医学][谷歌学者]

52基因组分析工具包：用于分析下一代DNA测序数据的MapReduce框架。基因组研究。2010;20:1297–1303. [PMC免费文章][公共医学][谷歌学者]

53Li H等。序列比对/地图格式和SAMtools。生物信息学。2009;25:2078–2079. [PMC免费文章][公共医学][谷歌学者]

54DePristo MA等人。使用下一代DNA测序数据进行变异发现和基因分型的框架。自然遗传学。2011;43:491–498. [PMC免费文章][公共医学][谷歌学者]

55Hellmann I等，通过与黑猩猩cDNA的比较揭示人类基因的选择。基因组研究。2003;13:831–837. [PMC免费文章][公共医学][谷歌学者]

56麦克阿瑟DG，Tyler-Smith C.健康人类基因组中的功能缺失变体。人类分子遗传学。2010;19：R125–R130。 [PMC免费文章][公共医学][谷歌学者]

57.Purcell S，Cherny SS，Sham PC。遗传功率计算器：复杂性状的连锁和关联遗传作图研究的设计。生物信息学。2003;19:149–150.[公共医学][谷歌学者]

58Li B，Leal SM。检测常见疾病罕见变异相关性的方法：应用于序列数据分析。美国人类遗传学杂志。2008;83:311–321. [PMC免费文章][公共医学][谷歌学者]

59Madsen BE，Browning SR.使用加权和统计量对罕见突变进行分组关联测试。公共科学图书馆遗传学。2009;5:11. [PMC免费文章][公共医学][谷歌学者]

60Liu DJ，Leal SM。一种新的自适应方法，用于分析下一代测序数据，以检测由于基因主要效应和相互作用而导致的与罕见变异的复杂性状关联。公共科学图书馆遗传学。2010;6:14. [PMC免费文章][公共医学][谷歌学者]

61Price AL等，外显子重复序列研究中罕见变异的联合检验。美国人类遗传学杂志。2010;86:832–838. [PMC免费文章][公共医学][谷歌学者]

62Bansal V、Libiger O、Torkamani A、Schork NJ。涉及罕见变异的关联研究的统计分析策略。《自然评论遗传学》。2010;11:773–785. [PMC免费文章][公共医学][谷歌学者]

63Asimit J，Zeggini E.复杂性状的罕见变异关联分析方法。遗传学年鉴。2010;44:293–308.[公共医学][谷歌学者]

64.Basu S，Pan W.罕见变异与疾病相关性统计检验的比较。遗传流行病学。2011 [PMC免费文章][公共医学][谷歌学者]

65Stitziel NO，Kiezun A，Sunyaev SR.通过外显子组测序分析变异体的计算和统计方法。基因组生物学。2011;12:227. [PMC免费文章][公共医学][谷歌学者]

66Wu MC，et al.使用序列核关联测试（SKAT）对序列数据进行罕见变量关联测试美国人类遗传学杂志。2011;89:82–93. [PMC免费文章][公共医学][谷歌学者]

67Neale BM等人，《罕见变异的异常分布测试》。公共科学图书馆遗传学。2011;7：e1001322。 [PMC免费文章][公共医学][谷歌学者]

68Kotowski IK等人。PCSK9等位基因谱对血浆低密度脂蛋白胆固醇水平的影响。美国人类遗传学杂志。2006;78:410–422. [PMC免费文章][公共医学][谷歌学者]

69Hoffmann TJ，新泽西州Marini，Witte JS。分析罕见遗传变异的综合方法。《公共科学图书馆·综合》。2010;5:9. [PMC免费文章][公共医学][谷歌学者]

70Ionita-Laza I，Buxbaum JD，Laird NM，Lange C.识别对疾病具有风险或保护作用的罕见变异的新测试策略。公共科学图书馆遗传学。2011;7：e1001289。 [PMC免费文章][公共医学][谷歌学者]

71Tavtigian SV等人。ATM中罕见的、进化上不太可能发生的错义替换增加了乳腺癌的风险。美国人类遗传学杂志。2009;85:427–446. [PMC免费文章][公共医学][谷歌学者]

72Sul JH，Han B，He D，Eskin E.一种用于识别常见疾病罕见变异的最优加权聚集关联检验。遗传学。2011;188:181–188. [PMC免费文章][公共医学][谷歌学者]

73Sul JH，Han B，Eskin E.用似然比检验提高分组关联检验的功效；第十五届计算生物学研究年会论文集；温哥华。2011[PMC免费文章][公共医学][谷歌学者]

74Cooper GM等。哺乳动物基因组序列中约束的分布和强度。基因组研究。2005;15:901–913. [PMC免费文章][公共医学][谷歌学者]

75Cooper GM等。单核苷酸进化约束评分突出了致病突变。自然方法。2010;7:250–251. [PMC免费文章][公共医学][谷歌学者]

76Ng PC，Henikoff S.预测氨基酸取代对蛋白质功能的影响。基因组学和人类遗传学年鉴。2006;7:61–80.[公共医学][谷歌学者]

77Jordan DM、Ramensky VE、Sunyaev SR.人类等位基因变异：从蛋白质功能、结构和进化角度看。结构生物学的当前观点。2010;20:342–350. [PMC免费文章][公共医学][谷歌学者]

78Thusberg J，Olatubosun A，Vihinen M.错义变异体突变致病性预测方法的表现。人类突变。2011;32:358–368.[公共医学][谷歌学者]

79Cooper GM、Shendure J.《针堆中的针：在大量基因组数据中发现致病性变体》。《自然评论遗传学》。2011;12:628–640.[公共医学][谷歌学者]

80Hicks S、Wheeler DA、Plon SE、Kimmel M。错义突变功能的预测取决于所使用的算法和序列比对。人类突变。2011;32:661–668. [PMC免费文章][公共医学][谷歌学者]

81Stephens M，Balding DJ。遗传关联研究的贝叶斯统计方法。《自然评论遗传学》。2009;10:681–690.[公共医学][谷歌学者]

82.Sladek R等。一项全基因组关联研究确定了2型糖尿病的新风险位点。自然。2007;445:881–885.[公共医学][谷歌学者]

83.Saxena R等。全基因组关联分析确定了2型糖尿病和甘油三酯水平的位点。科学。2007;316:1331–1336.[公共医学][谷歌学者]

84Burton P等人，对14000例七种常见疾病和3000例共享对照的全基因组关联研究。自然。2007;447:661–678. [PMC免费文章][公共医学][谷歌学者]

85Drmanac R等人。使用自组装DNA纳米阵列上的未定义碱基读取进行人类基因组测序。科学。2010;327:78–81.[公共医学][谷歌学者]

86Lipman PJ等人，《全基因组关联研究的后续研究：最有希望SNP的总体测试》。遗传流行病学。2011;35:303–309. [PMC免费文章][公共医学][谷歌学者]

87Price AL、Zaitlen NA、Reich D、Patterson N。全基因组关联研究中人口分层的新方法。《自然评论遗传学》。2010;11:459–463. [PMC免费文章][公共医学][谷歌学者]

88Pritchard JK，Stephens M，Donnelly P.使用多点基因型数据推断种群结构。遗传学。2000;155:945–959. [PMC免费文章][公共医学][谷歌学者]

89Price AL等人。主成分分析校正了全基因组关联研究中的分层。自然遗传学。2006;38:904–909.[公共医学][谷歌学者]

90Kang HM等。用于解释全基因组关联研究中样本结构的方差分量模型。自然遗传学。2010;42:348–354. [PMC免费文章][公共医学][谷歌学者]

91Devlin B，Roeder K。关联研究的基因组控制。生物计量学。1999;55:997–1004.[公共医学][谷歌学者]

92.Keinan A、Mullikin JC、Patterson N、Reich D。人类等位基因频谱的测量表明，东亚人的遗传漂变程度高于欧洲人。自然遗传学。2007;39:1251–1255. [PMC免费文章][公共医学][谷歌学者]

93Alexander DH，Novembre J，Lange K.基于模型的非亲缘个体祖先快速估计。基因组研究。2009;19:1655–1664. [PMC免费文章][公共医学][谷歌学者]

94Li H，Durbin R.使用Burrows-Wheeler变换快速准确地进行短读对齐。生物信息学。2009;25:1754–1760. [PMC免费文章][公共医学][谷歌学者]

95Holsinger KE，Weir理学学士。地理结构群体中的遗传学：定义、估计和解释FST。《自然评论遗传学》。2009;10:639–650. [PMC免费文章][公共医学][谷歌学者]

96Novembre J等人。基因反映了欧洲的地理位置。自然。2008;456:98–101. [PMC免费文章][公共医学][谷歌学者]

97Clayton DG等。大规模病例对照关联研究中的种群结构、差异偏见和基因组控制。自然遗传学。2005;37:1243–1246.[公共医学][谷歌学者]