跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
《公共科学图书馆·生物》。2010年1月;8(1):e1000294。
2010年1月26日在线发布。 数字对象标识:10.1371/journal.pbio.1000294
预防性维修识别码:项目经理2811148
PMID:20126254

稀有变异体创造合成基因组范围的关联

尼古拉斯·哈斯蒂,学术编辑

大量不同的常见变异与各种常见疾病风险的轻微增加有关。一项模拟研究表明,对疾病风险影响更大的罕见变异可能是其中一些关联的原因。

摘要

全基因组关联研究(GWAS)现已确定至少2000个与常见疾病或相关性状相关的常见变异(http://www.genome.gov/gwastudies网站)其中数百个已被令人信服地复制。通常认为,相关标记反映了与该标记相关的邻近常见(次要等位基因频率>0.05)因果位点的影响,从而导致广泛的重新测序工作,以找到因果位点。我们提出了另一种解释,即与相关基因相比,不太常见的变异可能会通过随机发生,更经常地与共同位点的一个等位基因相关联,从而产生“合成关联”。虽然合成关联是一种明显的理论可能性,但它们从未被系统地探讨过,作为GWAS发现的可能解释。在这里,我们使用简单的计算机模拟来显示出现这种合成关联的条件以及如何识别它们。我们表明,它们不仅是可能的,而且是不可避免的,并且在简单但合理的遗传模型下,它们很可能解释或促成全基因组关联研究中报告的许多最近确定的信号。我们还通过显示导致听力损失和镰状细胞贫血的罕见因果突变产生全基因组显著的合成关联来说明实际数据集中合成关联的行为,在后一种情况下,合成关联延伸到2.5 Mb的区间,包括相关变体的“区块”得分。总之,不常见或罕见的遗传变异可以很容易地产生可归因于常见变异的合成关联,在解释和跟踪GWAS信号时需要仔细考虑这种可能性。

作者摘要

长期以来,人们一直认为,影响不大的常见遗传变异对常见人类疾病(如大多数形式的心血管疾病、哮喘和神经精神疾病)有重要贡献。目前已经完成了对所有常见疾病共同变异作用的全基因组扫描,该技术声称能够捕获主要人群中超过90%的共同变异。令人惊讶的是,普通变异所解释的变异比例似乎很小,而且,几乎没有识别出实际变异的例子。同时,还发现了具有非常大影响的罕见变体。现在,一项模拟研究表明,即使是检测到的常见变异信号,原则上也可能来自罕见变异的影响。这对我们理解人类疾病的遗传结构和设计未来的研究来检测因果遗传变异具有重要意义。

介绍

精细绘制负责全基因组关联研究(GWAS)信号的因果变异的工作在很大程度上依赖于常见疾病共同变异理论,假设共同变异是观察到的关联的罪魁祸首。这导致了大量的重新排序工作,但大部分都没有成功[1][5]在这里,我们探讨了这样的可能性,即造成这种现象的部分原因可能是导致观察到的关联的疾病类别可能由跨越基因组大区域的多个低频变异组成——我们称之为这种现象综合联想为了方便起见,这些不太常见的变体在这里被称为“罕见”,但我们强调,我们使用这个术语并不严格,只是指那些比GWAS中常规研究的变体更不常见的变体。

该模型中合成关联如何出现的基本思想如图1这表明,在基因谱系的某些部分,偶然发生的罕见变异可能会不成比例地发生。任何“谱系中较高的”变体,如果将谱系中那些包含比平均水平更多疾病变体的部分划分,则将被认定为疾病相关。如果非因果变量与因果变量处于强连锁不平衡(LD)状态,则非因果变量将与因果变量相关联。我们使用前面介绍的术语综合联想 [6]然而,为了描述这种间接关联是如何在一个常见的变体和至少一个以及可能许多罕见的因果变体之间发生的。使用术语合成的与…相反间接的强调,当相关变体的频率远低于承载信号的标记时,关联信号的属性会有很大不同,我们将在下文中详细介绍。

保存图片、插图等的外部文件。对象名称为pbio.1000294.g001.jpg
显示因果变异体和常见变异体最强关联的家谱示例。

(A) 利用3000例病例和3000例对照,基因型相对危险度(γ)=4,以及9个因果变异体,生成了10000个原始单倍型的系谱。含有最强合成关联的分支用蓝色表示。含有罕见因果变异体的分支为红色。(B)使用相同参数生成第二个谱系。这些系谱显示了两种具有全基因组显著合成关联的情况:第一种(上系谱)具有高风险等位基因频率(RAF=0.49),第二种(下系谱)的RAF较低(0.08)。

为了评估罕见致病变异体产生合成关联信号的趋势,这些信号被认为是单一多态性的结果,这种多态性在人群中比致病变异体更常见,我们在一个有或没有重组的区域中基于联合模型模拟了10000个单倍型(材料和方法). 我们假设影响疾病的基因变体的等位基因频率在0.005到0.02之间,通常低于使用当前使用的全基因组关联平台的可靠检测范围(通过包含或间接表示)。我们假设没有罕见遗传风险因素的个体的疾病基线概率为φ。该基因座上至少存在一个罕见的风险等位基因,增加了从φ到γ的发病概率。我们考虑了φ(0.01,0.1)的两个值,并选择了外显率γ的值,使得罕见因果变异的基因型相对风险(GRR)在2到6之间递增变化,其中GRR是比值γ/φ。选择这些值是为了探索GRR为4的周围空间,超过该阈值,将出现一致的联动信号[7]。我们用一个、三个、五个、七个和九个罕见的因果变量模拟了场景。

结果

在我们所研究的条件下,当一个或多个罕见变异是疾病的唯一诱因时,不仅有可能实现常见变异的全基因组意义,而且往往是可能的结果(图2). 总的来说,30%的模拟能够在全基因组意义上检测到与常见SNP的关联(第页<10−8). 三个因素——GRR、样本量和罕见因果变量的数量——对检测与常见SNP关联的能力有显著影响。正如预期的那样,当罕见的因果变异体的GRR增加时,以及当样本量增加时,会产生更大比例的合成关联。随着罕见因果变异体数量的增加,产生合成关联的可能性也随之增加。这种增加是由于罕见的因果变异体数量增加所致,一种可能的解释是,增加更多的因果变种会增加疾病类别的大小,即携带一个或多个疾病等位基因的单倍型的比例[8]。在模拟中,疾病类别的大小不同,这是因为因果变异的频率可以变化,并且疾病类别随着因果变异的数量平均增加。为了研究疾病类别对合成关联的影响,我们根据疾病类别的大小对结果进行分离,首先发现疾病类别越大,出现显著合成关联的可能性越高。然而,我们还发现,在疾病类别规模内,显著的综合关联的概率随着因果变量的数量而降低(图3).

保存图片、插图等的外部文件。对象名称为pbio.1000294.g002.jpg
具有全基因组意义变体的模拟比例。

罕见变异的结果显示为红色;对于常见变体中最热门的,结果以黑色显示;蓝色是在回归模型中包含最热门的结果后,常见变量的次佳结果。在每个图形的底部,模拟参数以图形方式表示。无重组的所有参数的结果如(A)所示,阴影区域表示连锁分析开始产生一致信号的影响大小(GRR=4)。包括重组的模拟结果如(B)所示。(B)中的着色区域与(A)中的阴影区域相同,相同参数的复合速率沿x个-轴。

保存图片、插图等的外部文件。对象名称为pbio.1000294.g003.jpg
具有按疾病类别分离的全基因组显著性变体的模拟比例。

增加因果变异的数量通常会增加通过增加疾病类别的大小而不增加因果变异等位基因频率来创建合成关联的可能性。在疾病类别中,增加因果变异的数量会降低产生综合关联的概率。

重要的是,在98%的模拟中,与单个模拟中最强的因果变量的关联比与最强的常见合成关联更显著,对于每个参数组合,在测试与单个变异的关联时,对于最强的因果变异,具有全基因组显著关联的模拟比例始终高于合成关联。值得注意的是,除了GRR=2的情况外,这里考虑的所有条件都产生了具有显著共同变量的模拟的不可忽略的比例。值得注意的是,即使只有一个罕见的单一因果位点,也可以将显著的关联信号归因于常见变体。对照模拟是通过测试一个家谱中的常见变异体与具有相同参数设置的单独家谱产生的表型进行的,并且没有一项测试低于全基因组显著性10−8用于所有模拟。这表明,重要的合成关联取决于单个基因谱系内发生的关联(或重组图中的相关关联),并且经历自由重组的位点不能创建全基因组的重要合成关联。

直觉上,似乎很明显,当罕见的变体是关联的原因时,应该有多个共同的变体,它们具有显著的独立关联。为了评估这一预期,我们选取了产生全基因组显著关联的系谱,并询问在模型中首次纳入全基因组最高显著关联时,关联最强的是什么。我们发现,几乎40%具有全基因组显著变异的系谱具有次要的、独立的关联,也具有全基因组显著性。我们还发现,不到10%的家谱没有进一步的显著相关性(α=0.05)。这些结果表明,罕见变异体明显倾向于产生合成关联的多个独立信号。

关于合成关联的一个基本问题是,它们是否对重组的存在具有鲁棒性。令人惊讶的是,与没有重组相比,重组不仅不能消除合成关联,而且低重组率可以增强它们(图2B). 例如,对于GRR=4和9个风险等位基因,以及3000个病例和3000个对照的样本量,我们发现显示零重组显著性的树的比例为0.66。当我们引入5×10的重组率时−5然而,我们发现片段之间的比例增加到0.92。当重组进一步增加时,可以观察到合成组合的预期下降。然而,重要的是,即使在通过该区域(5×10−4在片段之间),我们发现几乎30%的模拟显示出一个显著的共同变异,重组必须增加到5×10−3将比例降至1%以下。重要的是,涉及重组的模拟禁止评估在同一片段中具有罕见因果位点的任何常见变体。因此,这些模拟中出现的合成关联发生在由片段间最小重组距离(即1×10)分隔的位点之间−3至5×10−3。重组会增加合成关联,这是违反直觉的,因为重组会降低某一区域的平均LD。然而,重组对基因组区域内位点间关联分布的影响可以解释这一观察结果。虽然平均LD随着重组的增加而下降,但尚不清楚更高的矩是如何表现的,这些矩会影响超过某些给定关联阈值水平的位点对的比例。

我们通过在一个简化的模拟中直接评估罕见和常见变异体之间关联的平均值和方差,以此来测试重组增强关联能力的解释。我们考虑了由特定重组率分隔的两个区域。我们计算了每个模拟中罕见和常见变异之间的平均成对关联,以及罕见和常见变体之间成对LD的方差,并将这两个参数作为重组的函数进行了评估。我们发现,尽管平均值不增加,但方差先增加后减少(图4)这表明重组的增加可以“拓宽”LD在位点之间的分布,从而增加尾部的密度,从而创建更强的合成关联。

保存图片、插图等的外部文件。对象名称为pbio.1000294.g004.jpg
平均值和方差第页 2在罕见和常见位点之间作为重组率的函数。

共有100000个对每个基因座中具有多个变体的两个基因座的模拟显示了第页 2稀有变异体和普通变异体之间受重组影响。虽然平均值是重组的非递增函数,但方差先增大后减小,这说明了最大值的原因第页 2罕见和常见变体之间的差异可以随着一个区域中的低重组量而增加。

这些模式清楚地表明,只要给定的基因组区域有一个或多个导致疾病的罕见变异,这些罕见变异就可以产生在更常见的多态性中观察到的合成关联。在这种合成关联的理想条件下,可以用比GWAS中常规使用的样本量小得多的样本量来检测它们。在不太理想的条件下(例如,由于环境或考虑的位点以外的其他遗传因素导致的较高患病率,或当地罕见变异的外显率较低),样本量必须较大。合成关联的一个基本特征是,尽管它们通常可能是在一个地区存在多个罕见变体时产生的,在某些条件下,即使样本量很大,因果变异的影响也很大,但关联性也很小,因为因果等位基因会与相反的常见等位基因分离。换言之,没有一种常见的变体能够在谱系上划分罕见的变体,从而产生足够大的不平衡,从而产生关联。我们还调查了与因果变异相关的趋势,发现尽管我们的模型规定只有因果位点的衍生等位基因是有害的,但超过三分之一的高度相关的常见SNP显示祖先等位基因的外显率较高。该结果遵循观察到的模式[9]另一个重要的趋势是,如果只有罕见的变异对一个地区的疾病类别有贡献,那么最显著的合成关联的风险等位基因频率将倾向于更常见的等位基因频率分布的低端(中位数=0.10),尽管超过20%的全基因组显著合成关联的风险等位基因频率高于0.25(图5). 当然,当一个地区的所有常见变异体都包括在内时,就会注意到这一趋势,但可用的商业基因分型芯片却并非如此,因为它们更有可能包括更常见的变异体。在这种情况下,偏向低频变体的情况会更少。

保存图片、插图等的外部文件。对象名称为pbio.1000294.g005.jpg
CEU中所有HapMap SNP(黑色)、Illumina 1M SNP(蓝色)和GWAS关联的等位基因频率分布(红色)和模拟合成关联(绿色)。

等位基因频率显示了次要和主要等位基因的频率。GWAS关联具有明显的中心倾向,表示检测与次要等位基因频率较高的变异体关联的能力更强。CEU=西欧血统的人口。

接下来,我们试图确定稀有变异体可以创建合成关联的预期基因组距离。为此,我们模拟了一个具有典型重组率(1 cM/Mb)的10-Mb区域、9个罕见的因果变异、2000例病例和2000个对照,GRR=4。然后我们确定了最远端的因果变异,该变异被证实确实有助于合成关联的信号。我们通过找到最远端的变体来做到这一点,该变体导致最小的单对数下降第页-当其影响从统计上去除时的值(作为协变量纳入回归)。我们发现,当一个合成关联达到全基因组显著性时,影响合成关联显著性的最远距离因果变异在不到13%的模拟中与合成关联的距离小于2Mb,在4%的模拟中距离至少9Mb。最远距离因果变异的中位数距离为5 Mb。模拟曼哈顿图显示了一个具有平均重组的10-Mb区域和GRR=4的九个因果变异,图中显示了合成关联产生的特征示例(图6).

保存图片、插图等的外部文件。对象名称为pbio.1000294.g006.jpg
在10-Mb区域中模拟曼哈顿地块。

(A) 该地区随机选择了9种罕见的因果变异,GRR=4例,3000例,3000名对照。(B) 具有置换表型的同一区域显示了该区域在没有任何关联的情况下的外观。

最后,我们使用两个真实世界的例子评估了合成关联的基因组模式:听力损失和镰状细胞贫血。这两个例子代表了合成关联的两个可能的极端。镰状细胞性贫血是一种严重的孟德尔病,体内产生镰状红细胞。这种疾病主要影响非洲血统的受试者,在美国非裔美国人中的患病率约为1/600[10]众所周知,它是由乙型肝炎病毒在非洲血统的美国人中,最常见的因果变异(Hb S等位基因)的频率为~3.6%[11]相比之下,听力损失是一种复杂的人类疾病,平均每1000名新生儿中就有一人发生听力损失[12]已鉴定出二十多个常染色体隐性遗传非综合征性耳聋的致病基因[13],[14],但GJB2型/GJB6型该基因座约占欧洲血统病例的一半[12],[15]。在数百种已知的GJB2/GJB6型轨迹[14],35delG突变GJB2型最常见,在欧美人群中等位基因频率为1.25%[16],但在GJB2型以及342-kb的删除,包括GJB6型也代表已知的因果变量[17],[18].

对于镰状细胞贫血,共有179个SNP达到全基因组意义(第页<5×10−8),包含染色体11p15.4上的一个~2.5-Mb区域(rs12422109为3.59Mb,rs997433为5.98Mb)。在HapMap YRI群体中,该区域包含数十个基因和数十个可视的LD区块。顶部关联信号(rs7120391,第页 = 1.1×10−136)距离为9 kbOR51V1型非常接近致病基因,乙型肝炎病毒(图7). 显然,高度显著的关联信号可以跨越多个LD区块到达遥远的基因组区域。

保存图片、插图等的外部文件。对象名称为pbio.1000294.g007.jpg
chr11p15.4上的2.5-Mb基因组区域包含179个全基因组与非裔美国人镰状细胞贫血的重要合成关联。

−log10(第页)所有基因组范围内显著SNP的值显示在上面的轨道上,而基于HapMap YRI(尼日利亚伊巴丹约鲁巴人)群体的LD模式显示在下面的轨道上。该区域包含数十个跨越几个可识别LD区块的基因。

听力损失的三个最显著相关SNP均位于GJB2型/GJB6型13q12.1上的位点(图8),包括附近的rs870729GJB6型(第页 = 3.38×10−11,OR:1.69),rs3751385在GJB2型(第页 = 1.50×10−9,OR:1.63)和rs7329467GJA3公司(第页 = 6.87×10−8,OR:1.68)。这三个SNP彼此具有弱LD(成对第页 2值范围从0.02到0.62),但所有这些都是常见的变量。例如,rs870729的次要等位基因频率(MAF)在对照组为18.7%,在病例组为28.0%。为了评估关联信号与三个SNP的独立性,我们将rs870729合并到逻辑回归模型中,再次测试关联性,但仍发现rs7329467的残余关联性(第页 = 4.3×10−6),但不是rs3751385(第页 = 0.33),与上述对合成关联行为的预期一致。该基因座在许多研究中已被广泛重新测序,该基因座没有常见的因果变异,等位基因频率约为18.7%,与rs870729相似。因此,该位点的罕见变异产生了由常见标记SNP捕获的多个独立关联信号。

保存图片、插图等的外部文件。对象名称为pbio.1000294.g008.jpg
GJB2/GJB6基因座13q12.11在听力损失GWAS中的概述。

三个最显著相关的SNP之间的LD较弱。尽管GJB2中最常见的因果变异体(35delG)在欧美人群中的频率仅为1.25%,但GWAS仍然可以使用常见的标记SNP识别该位点。

讨论

这些结果表明,含有一个或多个导致疾病的罕见变异的基因组区域的很大一部分可能会产生“合成”关联信号[6]如果该区域携带过多的因果变异,则该期望值会降低,但对于中间数量的(因果)罕见变异,检测许多此类区域似乎是不可避免的,这主要是因为稀有因果变异数量的增加增加了该区域疾病类别的规模。

分别考虑因果变异的数量和致病等位基因的比例(疾病类别),可以清楚地看出,后者是容易创建合成关联的关键驱动因素。这种直觉是显而易见的。即使单个致病变异体的频率很低,随着疾病类别的增长,它们的总体频率也会接近常见变异体,从而有可能为其中一个常见变异物生成强信号。只有当因果变异体数量如此之多,以致于在谱系中大致均匀分布时(或者如果偶然出现少量因果变异物的均匀分布),才禁止这样做。

考虑到罕见变异产生大型疾病类别的可能性,有必要认识到信号在面临大量重组时可以结合。这清楚地表明,与GWAS信号相关的“轨迹”可能比通常假设的要大得多。

我们还注意到,疾病类别的表观大小并不能很好地指导相关因果变异的数量。即使疾病类别相当大,如果存在数量相对较多的罕见因果变异,并且这些变异可以在延伸至巨型碱基的基因组区域中广泛传播,则很容易仅由罕见变异组成。关于疾病类别的大小,我们的模拟强调了一个违反直觉的结果,即在某些遗传模型下,一个位点上因果突变数量的增加可以增加合成关联的概率。

虽然我们的模拟仅表明可能会发生合成关联,但将此演示与可用数据结合起来确实表明,一些报告的关联可能是由于这种效应,更多关联可能会因周围罕见因果变异的信号而增强。首先,尽管付出了相当大的努力,但绝大多数全基因组关联从未被追踪到因果位点,尽管许多周边区域已被广泛重新测序[2][4]如果所有负责的变异体都是常见的SNP,那么我们可以预期,对于大量的常见变异体,到目前为止已经找到了更明确的因果证据。虽然这一预期对常见的因果变异有效,因为我们大致知道在基因组中应该从哪里寻找,但由于罕见变异可能与相关的常见变异存在相当大的距离,因此这并不适用于合成关联。其次,现在已经知道,罕见的变异会导致常见疾病,而携带罕见的高渗透剂导致疾病的病例通常具有“典型”的临床表现[19][21]因此,总的来说,我们的结果表明,尽管常见变异对许多性状的明显影响不大[6],[22],[23],这种影响可能被系统地高估了[24]值得强调的是,这里提供的替代解释做出了明确、可测试的预测。如前所述,在合成关联模型中,对常见变体有显著影响的区域在考虑了最重要变体的影响后,通常会持续显示出显著的剩余独立影响。第二,由于罕见变异更有可能是特定人群的,因此预计不同人群之间的合成关联不一致。事实上,最近的一些研究已经证实了种群之间的效果差异[24][35].表1列出了这些研究中的变体,在这些变体中,一个单独人群的后续研究的点估计值超出了原始研究比值比的95%置信区间。这包括首次发现关联的人群(12名欧洲人和1名日本人)的13个变异和优势比的置信区间,以及随后在不同人群中进行的20个优势比测试,包括在非裔美国人中进行的8次测试(7次不显著,1次相反方向显著),四次日语测试(一次不显著,三次在同一方向显著),四次韩语测试(一个不显著,同一方向三次显著),两次印度次大陆测试(两次不显著),一次欧洲人测试(不显著)和一次汉语测试(不明显)。尽管这些差异中有许多可能与标记和因果位点之间LD(关联)的差异、遗传或环境交互作用,或仅仅是遗传异质性有关,这些差异很可能是由于多种潜在的罕见变异导致的,这些变异在人群中产生不同的合成效应。GWAS数据中观察到的合成关联也可能有其他诊断。例如,人们可以预期,与GWAS信号周围的大区域中合成的对照相比,独特的扩展单倍型在病例中会得到丰富(K.Wang、S.P.Dickson、C.A.Stolle、I.D.Krantz、D.B.Goldstein等人,未发表的数据)。也许最重要的是,在绝大多数情况下,因果位点的关联统计更强,这意味着在许多情况下,应该可以使用GWAS信号周围的全基因组序列数据来识别候选因果位点,并评估这些关联。当关联是合成的时,当分析正确的因果位点时,预计关联统计会大大加强。

表1

最近GWAS中的变体列表显示了不同人群之间影响差异的证据。
英国皇家空军样本大小
特质SNP公司种族CI公司控制案例控制/案例
T2D型 rs5015480 欧洲的1.131.081.170.4250.37917,968/14,586
非裔美国人0.950.831.080.6330.6211,054/993
T2D型 拉9300039 欧洲的1.481.281.710.8920.9242,432/2,376
非裔美国人0.420.190.910.8890.8841,054/993
日本人1.050.941.170.3000.3501,576/1,844
T2D型 rs8050136 欧洲的1.231.181.320.3980.455第8284页/5681页
非裔美国人1.020.901.150.4460.4521,054/993
韩国人0.890.701.140.1400.129502/908
T2D型 4402960卢比 欧洲的1.181.081.280.3040.3412,432/2,376
非裔美国人0.980.871.110.5250.5281,054/993
T2D型 7754840卢比 欧洲的1.121.031.220.3600.3872,432/2,376
韩国人1.771.502.100.3920.332502/908
日本人1.281.171.410.4100.4701,576/1,844
T2D型 17044137卢比 欧洲的1.161.101.220.2300.2702,432/2,376
非裔美国人0.980.861.120.5820.6151,054/993
T2D型 11037909卢比 欧洲的1.270.971.570.7290.7602,432/2,376
非裔美国人0.940.791.130.8620.8591,054/993
T2D型 1081161卢比 欧洲的1.201.071.360.8500.8722,432/2,376
韩国人1.471.231.750.5580.639502/908年
印度次大陆0.780.561.090.9120.890516/295
T2D型 1111875卢比 欧洲的1.101.011.190.5220.5462,432/2,376
韩国人1.431.181.720.3000.360502/908
印度次大陆0.930.771.120.4650.447514/367
日本人1.271.141.400.2800.3301,576/1,844
T2D型 7923837卢比 欧洲的1.111.021.200.5960.6222,894/2,617
日本人1.271.131.430.1900.2201,576/1,844
骨关节炎 12885713卢比 日本人1.251.061.490.2950.3441,006/426
欧洲的1.010.881.160.5820.579752/920
中国人10.711.410.2050.205210/183
乳腺癌 1219648卢比 欧洲的1.231.031.460.4200.470697/528
非裔美国人0.840.641.090.4500.420427/157
乳腺癌 2981582卢比 欧洲的1.261.041.530.4300.470697/528
非裔美国人0.800.491.080.5200.460427/157
其中包括首次发现关联的人群的13个变异和优势比的置信区间,以及后续单独人群测试的20个优势比,其中随访研究中优势比的点估计值超出了原始研究的置信区间。
RAF,风险等位基因频率。

此外,还存在与发现负责观察到的关联的变体相关的实际含义。也许其中最重要的是,围绕GWAS发现的LD“区块”内的靶向测序通常无法确定因果位点。由于适度的重组可以增强合成关联,并且重组必须非常高才能消除全基因组显著关联的可能性,因此一个或多个负责任的因果位点可能与显示关联信号的常见变体有相当大的距离。镰状细胞贫血的例子清楚地说明了这种可能性,在这个例子中,全基因组的重要合成关联围绕因果突变跨越~2.5 Mb,尽管杂种优势也可能影响这一结果。这种可能性表明,努力识别导致GWAS信号的因果变异,这些变异集中在牵连变异周围的高LD区域,并没有很好的动机,可能会错过许多,甚至是大多数有助于合成关联的罕见变异(例如,见,[5]). 合成关联发生的距离也为日益常见的GWAS信号附近罕见变异的观察提供了另一种解释,但无法完全解释该信号。对这种观察结果的一个简单解释是,将测序扩展到至少4Mb,理想情况下在GWAS信号周围扩展到10Mb,将拾取其他罕见的变体。在某些情况下,识别所有起作用的罕见变异可能解释所有原始信号,而在其他情况下,可能存在罕见变异和常见变异的组合起作用。此外,如果合成关联对许多观察到的信号负责,那么在少量对照样品中测序(甚至在更广泛的基因组区域)也不太可能成功。在我们的模型中,致病位点既罕见又相对较高的渗透性导致疾病,因此不太可能在少数对照样品中检测到。最后,将注意力集中在GWAS信号附近的基因上可能是不完整的或误导性的,因为实际的因果位点可能出现在涉及的共同变异体周围的许多不同基因中。同样值得强调的是,只有一个或两个罕见的变异,其频率远低于相关的常见SNP,才能产生显著的合成关联。在这种情况下,即使对正确的基因组区域进行重新测序,对少数携带“高危”常见变异的病例进行测序,也可能会完全遗漏因果罕见变异。这些考虑表明,在努力围绕全基因组关联重新排序时需要谨慎,相反,在仔细表型队列中进行全基因组测序可能是更好的资源利用方式。

有人认为,罕见的高渗透性变体会产生与许多常见性状中观察到的信号不一致的信号,从而有利于具有数千个边际外显率的常见变体的模型[36]我们已经证明,一个区域中的多个罕见变体能够长距离作用,在常见变体中创建与观察到的关联相似的关联。关键的一点是,多个罕见的因果变异可能导致观察到的关联,因此单个单倍型不足以解释这种关联。

最终,由常见变体与罕见变体引起的GWAS信号的比例是一个只能通过经验解决的问题。我们的分析简单地说明,在跟踪GWAS信号时,必须考虑合成关联的可能性。然而,如果许多信号实际上是合成的,这些结果的一个有趣且可能令人鼓舞的暗示是,从全基因组关联中出现的一些非常温和的关联事实上可能指向一些罕见的、影响更大的变体,这些变体可以直接提供有关疾病病理生理学的信息,或者具有足够高的外显率,从而具有有用的预测作用值。

材料和方法

在初步模拟中,随机选择两个模拟单倍型,每个单倍型替换,并生成足够的个体来模拟所需数量的病例和对照。根据分配的风险指定病例/对照状态,并选择相同数量的病例和对照进行关联测试。我们测试了家谱中所有常见变异与疾病状态的关联,其中常见变异由0.05或更高的次要等位基因频率定义。因此,我们排除了任何实际致病的变体,并将重点放在当前全基因组基因分型平台中通常直接或间接代表的变体上[37]关联测试是通过比较1000、2000或3000个病例和对照进行的,我们筛选了与第页-值小于10−8,全基因组意义的现在典型阈值[1]。我们将单个“模拟”定义如下。绘制了一个随机基因谱系图,其中的突变沿着谱系分布,致病突变从那些在允许频率范围内的变体中随机分配。然后按照描述对病例和对照进行抽样,并对常见变异进行关联性筛选。然后,我们确定了导致全基因组显著信号归因于系谱中至少一个常见变体的模拟比例。

使用基因组模拟系谱树,有效种群规模为10000,突变率为10−8在100-kb区域中。当模拟重组时,使用200个500 bp的片段,每个片段之间发生重组[38]树木是用树状显微镜绘制的[39].

第页-在加性模型下,使用病例对照状态的logistic回归获得值。使用βlogistic回归中的术语。一秒钟第页-常见变异的报告值基于logistic回归,将关联性最强的常见变异作为模型中的协变量,在扣除最强的合成关联后评估剩余关联。

对于这两项疾病相关性研究,我们使用Illumina HumanHap550 BeadChip进行了一项标准GWAS,该芯片具有约550000个SNP,这些SNP代表常见的标记变体,不包括任何一种疾病的致病突变。我们对芯片上通过默认质量控制措施的所有标记进行了标准关联测试(次要等位基因频率>5%,Hardy-Weinberg平衡第页-值>1×10−6,SNP呼叫率>95%),使用PLINK软件[40]对于镰状细胞性贫血GWAS,我们通过多维标度法比较了194例和7407例推断非洲血统的对照,基因组控制通货膨胀因子为1.01。对于听力损失,我们对418例患者和6892名对照受试者进行了GWAS,所有受试者都是通过多维标度法遗传推断出的欧洲血统,基因组控制通货膨胀因子为1.02。

缩写

GRR公司基因型相对风险
全球水资源系统全基因组关联研究
LD(发光二极管)连锁不平衡

脚注

提交人声明,不存在相互竞争的利益。

这项工作的部分资金来自杜克大学基因组科学与政策研究所向DGB提供的启动资金。所有GWA数据集的基因分型都得到了费城儿童医院向应用基因组学中心(HH)颁发的机构发展奖的支持。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。

工具书类

1McCarthy M.I,Hirschorn J.N.全基因组关联研究:基因旅程的潜在下一步。人类分子遗传学。2008;17:R156–165。 [PMC免费文章][公共医学][谷歌学者]
2Lowe C.E、Cooper J.D、Brusko T、Walker N.M、Smyth D.J等。大规模基因精细定位和基因型-表型关联暗示了1型糖尿病IL2RA区域的多态性。自然遗传学。2007;39:1074–1082.[公共医学][谷歌学者]
三。Burfoot R.K、Jensen C.J、Field J、Stankovich J、Varney M.D等。HLA复合物I类区域的SNP定位和候选基因测序:在塔斯马尼亚人中搜索多发性硬化易感性基因。组织抗原。2008;71:42–50.[公共医学][谷歌学者]
4Hafler J.P、Maier L.M、Cooper J.D、Plagnol V、Hinks A等。CD226 Gly307Ser与多种自身免疫性疾病的相关性。基因免疫。2009;10:5–10. [PMC免费文章][公共医学][谷歌学者]
5Deloukas P代表Wellcome Trust Case Control Consortium。在已确认关联的区域中进行精细映射的高通量方法。2008年11月13日,在美国人类遗传学学会第58届年会上的演讲;宾夕法尼亚州费城。
6Goldstein D.B.常见的遗传变异和人类特征。N英格兰医学杂志。2009;360:1696–1698.[公共医学][谷歌学者]
7Risch N,Merikangas K。复杂人类疾病遗传研究的未来。科学。1996;273:1516–1517.[公共医学][谷歌学者]
8Reich D.E,Lander E.S.关于人类疾病的等位基因谱。趋势Genet。2001;17:502–510。[公共医学][谷歌学者]
9Gibson G,Goldstein D.B.《人类遗传学:全基因组关联的隐藏文本》。当前生物量。2007;17:R929–932。[公共医学][谷歌学者]
10Gladwin M.T,Vichinsky E.镰状细胞病的肺部并发症。N英格兰医学杂志。2008;359:2254–2265.[公共医学][谷歌学者]
11Ashley-Koch A,Yang Q,Olney R.S.镰状血红蛋白(HbS)等位基因与镰状细胞病:HuGE综述。《美国流行病学杂志》。2000;151:839–845.[公共医学][谷歌学者]
12Tekin M,Arnos K.S,Pandya A.遗传性耳聋的进展。柳叶刀。2001;358:1082–1090.[公共医学][谷歌学者]
13Petersen M.B、Willems P.J.非综合征、常染色体隐性聋。临床遗传学。2006;69:371–392.[公共医学][谷歌学者]
14Hilgert N,Smith R.J,Van Camp G.导致非综合征性听力损伤的46个基因:在DNA诊断中应该分析哪些基因?突变研究。2009;681:189–196. [PMC免费文章][公共医学][谷歌学者]
15Kenneson A、Van Naarden Braun K、Boyle C.GJB2(连接蛋白26)变异与非综合征性感音神经性聋:HuGE综述。基因医学。2002;4:258–274.[公共医学][谷歌学者]
16Green G.E、Scott D.A、McDonald J.M、Woodworth G.G、Sheffield V.C等。美国中西部导致遗传性耳聋的GJB2突变携带者比率。JAMA公司。1999;281:2211–2216.[公共医学][谷歌学者]
17Marlin S、Feldmann D、Blons H、Loundon N、Rouillon I等。GJB2和GJB6突变:大型听力障碍患者队列中的基因型和表型相关性。耳鼻咽喉头颈外科。2005;131:481–487.[公共医学][谷歌学者]
18del Castillo I、Villamar M、Moreno-Pelayo M.A、del Castillo F.J、Alvarez A等。非综合征性听力损伤中涉及连接蛋白30基因的缺失。N英格兰医学杂志。2002;346:243–249.[公共医学][谷歌学者]
19Stefansson H、Rujescu D、Cichon S、Pietilainen O.P、Ingason A等。与精神分裂症相关的大循环微缺失。自然。2008;455:232–236. [PMC免费文章][公共医学][谷歌学者]
20Spencer K.L、Hauser M.A、Olson L.M、Schmidt S、Scott W.K等。年龄相关性黄斑变性中CFHR3和CFHR1基因的缺失。人类分子遗传学。2008;17:971–977.[公共医学][谷歌学者]
21Nejentsev S、Walker N、Riches D、Egholm M、Todd J.A。IFIH1是一种与抗病毒反应有关的基因,其罕见变体可预防1型糖尿病。科学。2009;324:387–389. [PMC免费文章][公共医学][谷歌学者]
22威康信托案例控制联盟。对7种常见疾病的14000例病例和3000例共享对照进行全基因组关联研究。自然。2007;447:661–678. [PMC免费文章][公共医学][谷歌学者]
23马赫·B·个人基因组:缺失遗传力的案例。自然。2008;456:18–21.[公共医学][谷歌学者]
24Rebbeck T.R、DeMichele A、Tran T.V、Panossian S、Bunin G.R等。FGFR2和MAP3K1对绝经后非洲裔美国人和欧美女性乳腺癌易感性的激素依赖性影响。致癌。2009;30:269–274。 [PMC免费文章][公共医学][谷歌学者]
25Lewis J.P、Palmer N.D、Hicks P.J、Sale M.M、Langefeld C.D等。全基因组关联研究中的欧洲衍生2型糖尿病非洲裔美国人单核苷酸多态性关联分析。糖尿病。2008;57:2220–2225. [PMC免费文章][公共医学][谷歌学者]
26Lei S.F,Yang T.L,Tan L.J,Chen X.D,Guo Y,等。中国人身高的全基因组关联扫描:种族特异位点的证据。人类遗传学。2009;125:1–9. [PMC免费文章][公共医学][谷歌学者]
27Lee Y.H、Kang E.S、Kim S.H、Han S.J、Kim C.H等。韩国人群SLC30A8、HHEX、CDKN2A/B、IGF2BP2、FTO、WFS1、CDKAL1、KCNQ1多态性与2型糖尿病的相关性。J Hum基因。2008;53:991–998.[公共医学][谷歌学者]
28Mototani H、Mabuchi A、Saito S、Fujioka M、Iida A等。CALM1核心启动子区的功能性单核苷酸多态性与日本人的髋关节骨性关节炎相关。人类分子遗传学。2005;14:1009–1017.[公共医学][谷歌学者]
29Loughlin J,Sinsheimer J.S,Carr A,Chapman K。在英国白人人群中,CALM1核心启动子多态性与髋关节骨性关节炎无关。骨关节炎软骨。2006;14:295–298.[公共医学][谷歌学者]
30Shi D,Ni H,Dai J,Qin J,Xu Y,等。中国汉族人群中CALM1核心启动子多态性(−16C/T)与膝骨关节炎易感性之间缺乏关联。BMC医学遗传学。2008;9:91. [PMC免费文章][公共医学][谷歌学者]
31Kao W.H、Klag M.J、Meoni L.A、Reich D、Berthier-Schaad Y等。MYH9与非裔美国人的非糖尿病终末期肾病相关。自然遗传学。2008;40:1185–1192. [PMC免费文章][公共医学][谷歌学者]
32Sanghera D.K、Ortega L、Han S、Singh J、Ralhan S.K等。亚洲印度锡克族九种常见的2型糖尿病风险多态性的影响:PPARG2(Pro12Ala)、IGF2BP2、TCF7L2和FTO变异体具有显著风险。BMC医学遗传学。2008;9:59. [PMC免费文章][公共医学][谷歌学者]
33Dutta S、Sinha S、Ghosh S、Chatterjee A、Ahmed S等。卷轴基因(RELN)单核苷酸多态性的遗传分析:与印度人群中的自闭症谱系障碍无关。神经科学快报。2008;441:56–60.[公共医学][谷歌学者]
34Myles S、Davison D、Barrett J、Stoneking M、Timpson N.疾病相关SNP的全球人群分化。BMC医学基因组学。2008;1:22. [PMC免费文章][公共医学][谷歌学者]
35Horikawa Y、Miyake K、Yasuda K、Enya M、Hirota Y等。日本2型糖尿病易感性全基因组关联研究的复制。临床内分泌代谢杂志。2008;93:3136–3141.[公共医学][谷歌学者]
36Purcell S.M、Wray N.R、Stone J.L、Visscher P.M、O’Donovan M.C等。常见的多基因变异导致精神分裂症和双相情感障碍的风险。自然。2009;460:748–752. [PMC免费文章][公共医学][谷歌学者]
37Li M,Li C,Guan W.全基因组关联研究中SNP芯片覆盖率变化的评估。《欧洲人类遗传学杂志》。2008;16:635–643.[公共医学][谷歌学者]
38Liang L,Zollner S,Abecasis G.R.基因组:一种基于聚合的快速全基因组模拟器。生物信息学。2007;23:1565–1567.[公共医学][谷歌学者]
39Huson D.H、Richter D.C、Rausch C、Dezulian T、Franz M等。树状显微镜:大型系统发育树的交互式查看器。BMC生物信息学。2007;8:460. [PMC免费文章][公共医学][谷歌学者]
40Purcell S、Neale B、Todd-Brown K、Thomas L、Ferreira M.A等。PLINK:全基因组关联和基于人群的连锁分析的工具集。美国人类遗传学杂志。2007;81:559–575. [PMC免费文章][公共医学][谷歌学者]

文章来自PLOS生物学由以下人员提供普洛斯