人类遗传学中一个持续的谜团是所谓的共同特征的缺失遗传力。全基因组关联研究(GWAS)已鉴定出超过1200个基因座,其中包含与超过165种常见人类疾病和特征相关的遗传变异,揭示了之前未知的许多生物途径的作用(1–三). 然而,早期的GWAS令人困惑,因为它们似乎只解释了一小部分性状的“遗传力”。随着GWAS的增大,可解释的遗传率比例明显增加(在一些研究充分的案例中增加到20–30%,在一些案例中增加超过50%),但对于大多数性状而言,大多数遗传率仍然无法解释(1).
这是我们第一篇探索遗传力缺失解释的系列论文。遗传学家将一组已知遗传变异解释的性状(狭义)遗传力的比例定义为π解释=小时2已知/小时2全部的,其中(我)分子小时2已知是由已知变体的加性效应解释的表型方差的比例(ii(ii))分母小时2全部的是可归因于所有变体(包括尚未发现的变体)加性效应的表型方差的比例。分子可以直接从变异的测量效果中计算出来,但分母必须从人口数据中间接推断出来。
人类遗传学家的主流观点是,缺失遗传力的原因在于分子,也就是说,还有其他变异有待发现。很多争论都集中在这些额外的变异是具有中等至小效应的常见等位基因(频率≥1%)还是具有大效应的罕见等位基因(三–9). 我们将在本系列的第二篇论文中讨论疾病相关变体的频谱。
在这里,我们探讨了缺失遗传率的很大一部分可能根本不反映缺失变异的可能性。基本思想很容易表述:目前的研究使用小时2全部的不一致(即收敛到错误答案);他们可能严重高估了分母小时2全部的从而低估了π解释因此,即使发现了影响性状的所有变体,π解释可能远远低于100%。我们将这一差距称为“幻影遗传率”
定量遗传学家早就知道遗传相互作用会影响遗传力计算(10). 然而,关于缺失遗传力的人类遗传学研究很少关注遗传相互作用的潜在影响。一些作者构造了数学示例(11,12)但这些抽象模型与生物学上似乎合理的机制无关,研究也没有考虑是否容易检测到遗传相互作用的存在,从而防止遗传学家被幻影遗传性愚弄。人类遗传学家的主流观点似乎是,相互作用在解释遗传力缺失方面至多起到了很小的作用。
在这里,我们表明,简单而合理的模型可以产生实质性的虚拟遗传力。生物过程通常取决于多种输入之间的速率限制值,例如化学计量比所需的分子复合物的组分水平、生物化学途径所需的反应物或基因转录所需的蛋白质。因此,我们引入了限制途径(LP)模型,在该模型中,性状取决于k个输入,每个输入都是一个严格的加性特征,取决于一组变体(可能是常见的或罕见的)。什么时候?k个=1,LP模型只是一个标准的加性性状。对于k个>1,我们表明有限合伙人(k个)性状可能具有实质性的虚拟遗传力。
考虑到克罗恩病(GWAS迄今已确定71个风险相关基因座),可以说明幻影遗传力的潜在大小(13). 在通常的假设下,疾病是由严格的加性遗传结构引起的,这些基因座只能解释21.5%的估计遗传力。然而,如果克罗恩病继发于有限合伙人(3) 模型中,虚拟遗传率为62.8%,因此遗传互作可能占目前缺失遗传率的80%。
为了避免被幻影遗传性所愚弄,人们可能希望能够根据群体数据(例如近亲之间的表型相关性)或遗传数据(例如上位性的配对测试)识别出性状何时涉及遗传交互作用。然而,我们表明,这项任务可能很困难。对于上述克罗恩病,检测遗传相互作用可能需要50万个样本。
简言之,遗传相互作用可能会大大提高表观遗传力,而标准方法无法轻易检测到。因此,目前对缺失遗传力的估计没有意义,因为它们忽略了遗传相互作用。
最后,我们提出了一种估算方法小时2全部的这不仅适用于加性性状,也适用于任何遗传结构。该方法涉及对孤立人群的研究。它可以为准确测量解释遗传力和缺失遗传力提供前进的道路。
中提供了广泛的数学细节和扩展SI附录。用于数学计算的Matlab软件包位于http://www.broadinstitute.org/mpg/hc.
结果
数量和疾病特征。
根据函数,数量性状假定取决于基因型G和环境EP(P)= Ψ(G公司,E类). 在这里,G公司= (克1,克2, …,克n个)是二倍体基因型n个基因组中的双等位基因变异位点,克我是指定等位基因在我第个站点,以及(f)我是指定等位基因的频率。假设变异位点处于连锁平衡。环境E可能包括一个在成对亲属之间共享的“共享”环境和一个特定于每个个体的“独特”环境,其中包括随机噪声。
疾病特征由二元函数Δ表示(G公司,E类)假设这是由负债阈值模型引起的。具体来说,有一个潜在的(未观察到的)数量特征P(P)= Ψ(G公司,E类),称为“责任”。对于指定的阈值τ,如果Ψ(G公司,E类)≤τ,否则不受影响(Δ=0)。(如果Ψ(G公司,E类) ≥ τ.)
为了方便起见,我们始终假设P(P)已规范化为平均值为0,方差为1。使用变量(P(P))=1,因子解释的方差量等于解释的方差比例。
广义与狭义遗传性。
遗传力有两种衡量方法:广义遗传力H(H)2和狭义遗传力小时2.
广义遗传力H(H)2测量基因的全部贡献。其定义为H(H)2=V(V)G公司/变量(P(P)),其中V(V)G公司是由基因引起的总方差。[具体来说,V(V)G公司=变量(P(P)) –变量(P(P)|G公司),其中变量(P(P)|G公司)是遗传相同个体之间的表型差异。]H(H)2是临床风险评估的相关数量,因为它衡量了我们从基因型预测表型的最终能力。
相比之下,狭义(或加性)遗传力小时2意在捕捉基因对性状的“加性”贡献:它是可以用等位基因数的线性组合来解释的最大方差,克我。尽管小时2这是一个不太直观的概念,通常用于衡量解释性状遗传基础的进展,因为人们可以很容易地计算单个基因座对小时2,如下所述。
解释、缺失和幻影遗传。
接下来,我们定义了“解释”和“缺失”遗传力,重点是狭义遗传力小时2.让小时2S公司(或小时2已知)表示由一组已知变异体S解释的表型方差的比例,以及小时2全部的(=小时2)表示影响性状的所有变异所解释的表型方差的比例。对于S中的变异,“解释遗传力”的比例为π解释=小时2已知/小时2全部的而“缺失遗传力”是π丢失的= 1 – π解释.当找到所有与trait相关的变体时,π丢失的= 0.
人类遗传学家通常使用“自下而上”的方法来估计分子,使用“自上而下”的方法估计分母。
自下而上。
分子小时2已知很容易根据单个变量的影响进行估计。由我th变量是V(V)我= 2(f)我(1 −(f)我)β我2,其中(f)我是频率和β我是基因座的加性效应(定义为表型的回归系数P(P)关于单基因座基因型克我). 在连锁平衡下,一组变异体S所解释的方差是各个基因座的总和:V(V)已知=V(V)S公司= ∑我∈S公司 V(V)我。因为变量(P(P))=1,我们有小时2已知=V(V)已知和小时2全部的=V(V)全部的.因此我们可以估计小时2知道n个= Σ我2(f)我(1 −(f)我)β我2根据全基因组关联研究中估计的等位基因频率和效应大小。
自上而下。
问题在于估计分母小时2全部的由于并非所有的变异都是已知的,人类遗传学家必须间接推断出它们的总贡献,通常是通过基于群体表型相关性的自上而下的数量。我们将这些量称为“表观遗传力”,并用以下符号表示小时2流行音乐.
然后通过假设以下条件估计缺失遗传力小时2全部的=小时2流行音乐并获得小时2流行音乐问题是小时2全部的和小时2流行音乐除非性状是严格加性的,即既不涉及基因-基因(G-G)也不涉及基因/环境(G-E)的相互作用,否则不能保证是相等的。对于具有遗传相互作用的性状,小时2流行音乐可能会大大超过小时2全部的如果是这样,即使发现了所有变体,π的估计值丢失的随着样本量的增加,不会收敛到零。相反,它收敛到1−(小时2全部的/小时2流行音乐)我们称之为幻影遗传率,π幻影.
术语遗传力和符号小时2文献中经常用以指代真正的遗传力小时2全部的以及表观遗传力的几种定义小时2流行音乐尽管这些不同的量不一定相等(SI附录,第1.5节). 我们引入了不同的术语和符号,以避免混淆这些重要差异。
广义遗传力可以有类似的定义H(H)2在这种情况下,很容易估计自上而下的数量,但目前没有实用的方法来估计自下而上的数量(SI附录,第12节). 因此,人类遗传学家很少试图估计由一组基因座解释的广义遗传力的比例。
假设可加性。
接下来,我们描述了分析人类特征的典型框架,并指出为什么平等小时2全部的=小时2流行音乐取决于可加性假设。我们关注表观遗传力的一个衡量标准,小时2流行音乐(王牌),它考虑一加性遗传,c(c)常见的环境和独特的e(电子)环境差异组成部分,但在SI附录第1.3节.
数量性状。
表观遗传力的一个常用定义是小时2流行音乐(王牌) = 2(第页MZ公司–第页DZ公司),其中第页MZ公司和第页DZ公司分别是单卵双胞胎和双卵双胞胎之间的表型相关性(14). (该测量基于双胞胎研究的ACE模型。)可以证明
哪里
表示所有可能的(非负)差异我四阶加性相互作用和j个位点间的四级显性相互作用(SI附录,第1节). 关键是,如果存在任何遗传交互作用,那么W公司>0和小时2流行音乐(王牌)高估小时2全部的不幸的是,目前还无法估计W公司来自人口数据。在大多数人类遗传研究中,“解决方案”只是简单地假设(通常未声明)不存在遗传相互作用,即W公司= 0. 通常,研究假设一个严格的可加模型。(一些研究允许在每个基因座上使用显性项,但它们总是假设基因座之间存在可加性,即没有遗传交互作用。)
假设一个严格的可加模型,遗传结构的形式如下
这两个项都大致呈正态分布,平均值为0,Ψ被归一化为方差为1。在这个模型下,第一项的方差是狭义遗传力小时2全部的.环境噪声ε由共享和非共享环境组成,向量c对表示环境方差的比例变量(ε) = 1 −小时2全部的在R型亲属之间共享。(例如,c(c)同胞是同胞之间共享的环境比例。)我们将此加性模型称为A类(小时2,c(c)对).
可加模型具有许多优雅的特性。如果ρ(对)表示R型亲属之间的表型相关性,则
这里,γ对是类型亲属之间的遗传关系对(γ对=1、1/2、1/4和1/8(对于MZ双胞胎、兄弟姐妹、祖父母-孙子女和堂兄弟姐妹)。在没有共享环境方差的加性模型下,表型相关与遗传相关成正比。
疾病特征。
传统上假设疾病特征遵循责任阈值模型,其中无形责任Ψ遵循上述加性模型,如果Ψ≤τ,就会发生疾病。我们将这种加性疾病模型称为A类Δ(小时2,c(c)对,μ),其中μ=探针(Ψ≤τ)表示疾病的流行程度。模型参数(小时2,c(c)对,μ)完全确定流行病学可观测量(μ,λMZ公司, λ同胞,●●),其中μ是疾病流行率,λ对是类型亲属的风险增加对(15).
为了将模型应用于疾病,需要基于可观测量拟合模型参数。(遗传学家通常认为c(c)对=0,在这种情况下,剩余的两个参数可以基于μ和λ进行拟合MZ公司对于与疾病相关的遗传变异,然后使用该模型将观察到的疾病风险增加转化为推断出的责任尺度上的加性效应。遗传力计算不是基于观察到的疾病状态,而是基于看不见的责任等级。使用责任量表的一个优点是,遗传力计算往往对疾病流行率的不确定性具有鲁棒性。(参见SI附录,第2节详细信息,包括λ的使用MZ公司和λ同胞处理共享环境。)
遗传相互作用创造了虚拟遗传性。
如果遗传学家在错误的假设下分析一个涉及遗传相互作用的性状,即它是加性的,会发生什么?为了探讨这个问题,我们引入了一类简单且生物学上似乎合理的模型。
数量性状。
生物过程通常取决于多种输入之间的速率极限值,例如化学计量比所需的分子复合物组分水平、生化途径所需的反应物或基因转录所需的蛋白质。因此,我们定义了一个限制路径模型,其中一个特征P(P)取决于来自k个≥1个生物过程。为了简单起见,我们假设输入Ψ1, Ψ2, …, Ψk个,均遵循中的标准加法模型等式。2每个都有完全相同的参数,小时2通路、和c(c)对除了Ψ我大致正常,我们对因果变异的数量或等位基因频率没有限制。
我们定义特征有限合伙人(k个,小时2通路,c(c)对)为Ψ的最小值我.对于单个路径(k个=1),定义简化为简单的可加模型。会发生什么k个> 1?
让我们考虑一个具体的例子:P(P)* =有限合伙人(4, 50%,c(c)对),使用c(c)同胞=50%(产生共同的环境差异V(V)c(c)=27%)和c(c)对其他亲属=0。假设遗传学家分析P(P)*根据标准(但错误的)假设,它是可加性的。因为我们知道真正的遗传结构(虽然遗传学家不知道),我们可以计算所有相关参数的准确值(SI附录,第3节). 因为我们对渐近偏差感兴趣,所以我们忽略了采样变化。
遗传学家将从估计待解释的表观遗传力开始。双胞胎之间观察到的表型相关性为(第页MZ公司,第页津)=(62.4%,35.4%),收益率小时2流行音乐= 2(第页MZ公司−第页DZ公司) = 54.0%. 然后,遗传学家将进行基因研究,确定与该性状相关的变异,估计其影响大小,估计遗传力小时2已知并将其与小时2流行音乐假设样本如此之大,以至于所有变体都被识别出来(尽管遗传学家不知道这一点),小时2已知才是真正的遗传力,小时2全部的= 25.4%.
尽管已经发现了所有变异,但它们似乎只能解释表观遗传力的47%(=25.4/54.0),小时2流行音乐剩下的53%是幻影遗传率,这永远不会用额外的变异来解释。这是在错误模型下分析数据的结果。
对于广泛的参数,也得到了类似的结果。显示的结果k个= 1–10,小时2通路=10–90%,以及c(c)对=0或50%。幻影遗传力随着k个一个数学定理(16)意味着π幻影→100%作为k个成长(SI附录,第3.4节).
极限路径模型下的虚拟遗传力。(A类)数量性状模型有限合伙人(k个,小时2通路,c(c)对). 对于各种参数,曲线显示了表观遗传力小时2流行音乐(王牌)和幻影遗传力π幻影曲线连接具有以下各种值的点k个(1、2、3、4、5、6、7、10,箭头尖位于k个=10),对于特定值小时2通路(10、30、50、70和90%,由曲线颜色表示)和c(c)对(0%填充圆圈和箭头,50%打开方框和箭头)。红色星号表示示例P(P)*文中提到。(数量小时2流行音乐可以超过100%,如一些遗传力高的模型和一些实际性状所示。在这种情况下,我们设置小时2流行音乐= 100%.) 原始数据位于SI附录,表6. (B类)疾病模型有限合伙人Δ(k个,小时2通路, 0%, μ). 对于各种参数,曲线显示λ的值MZ公司和幻影遗传力π幻影。的值k个和小时2通路如中所示A类患病率μ值分别为0.1%(实线)、1%(虚线)和10%(虚线部分)。红色星号表示文本中提到的示例Δ*。在两者中A类和B类,作为k个增加,性状变得更加非线性;幻影遗传率增加到50%以上。原始数据位于SI附录,表7.
疾病特征。
我们同样可以通过对数量性状的LP模型应用阈值来定义疾病性状的限制途径模型。具体来说,我们定义了疾病特征有限合伙人Δ(k个,小时2通路,c(c)对,μ)当且仅当有限合伙人(k个,小时2通路,c(c)对)≤τ,μ表示患病率。这个案子k个=1再次降低为可加模型。会发生什么k个> 1?
再次,让我们考虑一个具体的例子:Δ*=有限合伙人Δ(3, 50%,c(c)对,1%),带c(c)对=所有亲属的0%。根据观察到的MZ和DZ双胞胎的相对风险,遗传学家会计算出小时2流行音乐= 49.0%. 然而,一项无限大的基因图谱研究将产生小时2已知(=小时2全部的) = 21.2%. 尽管所有变异都已被确定,但它们似乎只能解释表观遗传力的43.2%=(21.2/49.0)小时2流行音乐剩余56.8%为幻影遗传率。对于广泛的参数,也得到了类似的结果。显示的结果k个= 1–10,小时2通路=10–90%,以及c(c)=0.1、1和10%。
上感是常见的。
结果表明,错误地假设一个性状是加性的,会严重扭曲关于缺失遗传力的推断。从生物学的角度来看,没有先验的理由期望性状应该是加性的。生物学充满了非线性:酶与底物浓度的饱和和受体与配体浓度的饱和产生了S形响应曲线;蛋白质的协同结合导致急剧转变;路径的输出受速率限制输入;遗传网络表现出双稳态。
长期以来,模型生物的遗传学研究已经确定了相互作用基因的具体实例(17). 重要的例子包括合成特性(例如。,18),只有当多个基因座或途径全部被破坏时才会发生。随着模式生物受控遗传背景下全基因组作图技术的出现,研究已开始揭示上位性普遍存在。在酵母中酿酒酵母,Brem等人(19)作为数量性状分析两个菌株间杂交片段的基因转录水平。对于每个转录物,他们发现了杂交中最强的数量性状位点(QTL),然后根据该位点的基因型确定了剩余最强的QTL。在67%的病例中,这两个QTL表现出上位性互作。在细菌方面,Khan等人(20)和Chou等人(21)最近已经证明,在增加生长速度的五个突变集合中存在明显的上位性。在小鼠和大鼠中,Shao等人(22)分析了一组染色体替代菌株,每个菌株携带的染色体与供体菌株不同,具有共同的受体遗传背景。对于几十个数量性状,个体供体染色体的效应之和远远超过供体基因组的总效应(中位数为八倍),表明上位性较强。虽然在人类中很难检测到遗传相互作用(见下文),但最近在先天性巨结肠、强直性脊柱炎、银屑病和I型糖尿病中报告了一些涉及具有巨大边际效应的变异的病例(SI附录第7.1节).
有时会提供一些论据来支持可加性假设(例如,选择响应的线性)。我们讨论了这种推理中的缺陷(SI附录,第11节).
我们能通过亲属间的比较来检测基因的相互作用吗?
遗传学家能根据近亲之间的表型相关性检测出某一性状涉及遗传交互作用的先验,从而避免被幻影遗传力愚弄吗?即使我们只关注LP模型,这项任务也很难完成。
表型分布。
数量性状的表型分布不能揭示遗传互作的存在。的分布有限合伙人(k个)价值适中的特征k个(比如,k个≤10)与加性模型中的正态分布相当相似(SI附录,图1). 此外,与完全正态性的偏差在真实性状中很常见,通常通过对分布进行变换来解决。
Sib相关性。
同胞之间的表型相关性并不能揭示一个性状涉及遗传相互作用。对于数量性状,相关性(第页MZ公司,第页DZ公司)上述LP模型与实际性状的模型相似:它们完全符合Hill等人最近报告的值范围(23)86个性状(SI附录第5.1节). 对于疾病特征,相对风险(λMZ公司, λ同胞)对于各种LP模型,类似于真实性状的模型,例如,Wray等人报告的15种实际疾病的模型(24) (SI附录,第5.2节).
远亲之间的相关性。
单凭同胞相关性无法区分可加性和非可加性LP模型,这并不奇怪:对于这两种模型,我们都可以选择与观测到的相关性基本相符的参数。人们可以通过考虑其他亲属来扩展分析。对于没有共同环境的性状,亲缘关系之间的表型相关性应随着遗传相关性线性下降(γ对)如果性状是加性的(通过等式。三)但如果性状涉及遗传交互作用,则应凹起。理论上,可以通过将不同的遗传模型拟合到亲属之间的表型相关曲线来测试遗传交互作用。实际上,很难从这种分析中得出强有力的结论。首先,此类测试基本上取决于拟合少数值(例如,个体与γ的相关性对=1、1/2、1/4和1/8),精度有限。第二,相对类型之间共享环境差异程度的差异可以显著改变曲线的形状(SI附录,第6节).
例如:克罗恩病和精神分裂症。
通过考虑实际疾病的替代模型,可以说明从几个参数中识别遗传结构的问题。
对于克罗恩病,目前的GWAS已经确定了71个风险位点。假设疾病遵循加性模型,这些已知基因座解释了h2已知=总表型方差的10.8%,或π解释=21.5%的遗传力(假设小时2全部的=小时2流行音乐= 50%). 或者,可以定义有限合伙人(三)该模型与患病率和sib风险相一致。在该模型下,幻影遗传力为π幻影= 62.8%. 遗传互作将占目前缺失遗传力的80%[=62.8/(1−0.215)]。已知的变体将解释π解释=真遗传力h的57.5%[=21.5/(1−0.628)]2全部的= 18.6% (SI附录,第6节).
对于精神分裂症,Risch(15)各种相关类型的复发风险(γ对=1、1/2、1/4和1/8)。我们拟合了一个加性模型和一个有限合伙人(2) 数据模型(SI附录,第6节). 两个模型都很适合,但前者没有虚拟遗传力,而后者的虚拟遗传力为46%。
我们能从成对发作中检测到遗传相互作用吗?
尽管很难根据种群数据(如同胞相关性)先验地检测基因相互作用,但一旦绘制出变异图,人们仍然可能希望检测变异之间的后验上位性。事实上,遗传学家已经测试了基因座之间的成对上位性,但几乎没有发现显著的信号。未能检测到成对上位性是否可以减轻我们对幻影遗传力的担忧?不幸的是,答案是否定的。
原因是单个交互效应预计要比线性效应小得多,检测效应所需的样本大小与效应大小的平方成反比。如果n个基因座具有同等的效应,那么检测n个基因座位的样本量将与n个2而检测其~的样本量n个2相互作用与n个4.
考虑一下有限合伙人(3) 疾病模型Δ*如上所述,幻像遗传率为56.8%。假设我们考虑两个频率为20%的变体,这两个变体有助于不同的路径,并将风险增加1.3倍(这与GWAS中常见的变体相比是一个很大的影响)。检测变异所需的样本量为~4900(功率为50%,全基因组显著性水平为α=5×10−8在具有相同数量病例和对照的全基因组关联研究中),而检测其两两相互作用所需的样本量约为450000(50%的幂和适当的显著性水平来解释多重假设检验)。研究了10万个样本的研究人员可能会发现所有的位点,但几乎没有发现上位性相互作用的证据。研究人员可能会得出结论,尽管虚拟遗传率实际上大于50%,但遗传结构是可加性的。简而言之,未能检测上位性并不排除存在足以导致实质性幻影遗传力的遗传交互作用。(我们讨论了其他可能检测上位性的方法SI附录第7.5节.)
一致的上下估计小时2全部的.
我们需要的是一个自上而下的估算器小时2全部的这不仅对附加性状是一致的,对任何遗传结构也是一致的。传统方法之所以失败,是因为它们关注近亲之间的表型相关性;这造成了两个问题:(我)近亲之间广泛的等位基因共享使得很难解开遗传相互作用的影响;和(ii(ii))不同相对类型之间共享环境的差异使得很难区分环境的影响。
我们可以通过研究人群中几乎无关的个体来消除这些问题。具体来说,可以(我)确定在因果基因座共享等位基因的概率与群体平均值略有不同的个体对,以及(ii(ii))测量它们的表型相似性如何依赖于它们的基因型相似性。
这一目标可以通过研究最近的基因隔离群体(如冰岛、芬兰、哈特人或阿米什人)来实现,在这些群体中,可以使用密集的基因分型来可靠地检测个体之间的大片段共有同一血统(IBD)(SI附录,第8节). 我们有以下定理。
定理1。
考虑一个群体,其中可以检测到个体之间共享的大片段IBD。给两个人我我和我j个,让κ我,j个= κ(我我,我j个)表示它们的基因组在大IBD片段中共享的比例。让κ0表示人群中成对κ的平均值。
给定一个特征,让ρ(κ)表示在大IBD区块中共享其基因组比例κ的成对个体之间的平均表型相关性。不管性状的遗传结构如何,真正的遗传力
等于
,式中ρ′(κ0)是大型IBD片段平均共享水平周围表型相关性的变化率。因此,
提供一致的自上而下估计
.
该定理既适用于数量性状,也适用于疾病性状[在疾病(0,1)量表上测量遗传力],样本来自一般人群。证据出现在SI附录,第8节以及病例对照研究中确定的个人版本。
要将此结果应用于实践,可以(我)从人群中收集个人;(ii(ii))对于每对个体,计算表型的乘积Q和IBD共享的程度κ;和(三)估计ρ′(κo个)作为κ上Q的回归系数,对于κ周围邻域中的κ对o个.
说明了数量性状模拟数据的方法P(P)*上面,其中小时2全部的=25.4%和小时2流行音乐= 54%. 1000名IBD患者的模拟数据与卡塔尔相似(25),我们估计
=25.8±8.2%,非常接近小时2全部的= 25.4%.
从平均IBD共享周围的表型相关斜率估计加性遗传力。我们在定理1中对估计量进行了模拟。对从隔离人群中选择的1000名个体的样本生成基因型和表型数据(平均IBD共享κ0=3.5%,SD 5.7%)和限制性途径性状P(P)*(在文本中描述)具有1000个因果位点(参见SI附录,第9节详细信息);结果是100次模拟的平均值。对于每对个体,我们计算了乘积Z轴1Z轴2和IBD共享(SI附录). 蓝色误差条显示预期的平均值和SDZ轴1Z轴2对于IBD共享中每1%箱中的配对,根据所有100个模拟中的所有此类配对进行估计。黑色曲线显示了平均表型相似性的解析近似值第页对(SI附录,第3.3节,等式3.12). 红线显示了一条最小二乘线性回归线,该回归线使用在区间[0,2κ内IBD共享的所有配对进行拟合0]. 平均估计坡度(乘以1−κ0)为0.258±0.082;正如定理1所预期的那样,这与真正的遗传力非常接近小时2全部的=0.254(与表观遗传力不同,小时2流行音乐= 0.54).
将我们的方法与Visscher及其同事最近介绍的两种优雅的方法进行比较是有益的,这两种方法都涉及到基因型相似性的表型相关性回归。第一个(26)测量同胞对内IBD的基因型相似性——用我们的术语来说,基本上测量ρ′(1/2)。它通过研究单一类型的亲属来消除共享环境的影响,但由于它研究的是近亲,因此被基因相互作用所混淆(SI附录,第10节). 第二个(27)测量群体中成对个体的SNP目录中各州身份的基因型相似性。正如作者所指出的,这种方法没有被遗传相互作用所混淆,但不能产生一致的估计值,因为它对因果变异的敏感性随等位基因频率而下降。尽管如此,该方法还是得出了一个有价值的下限小时2全部的.
讨论
本文的要点是(我)已知变异体(π)解释的遗传率比例的当前估计解释)隐含地假设性状不涉及遗传交互作用;(ii(ii))这种假设是不合理的,因为许多具有交互作用的模型与可用数据一致;和(三)在这些模型中,π的真值解释可能比目前的估计要大得多。因此,普遍认为缺失遗传力直接反映了由于未发现的变异导致的变异是不合理的。相反,遗传力缺失可能在很大程度上是由于遗传相互作用。
我们在这里关注一个简单的生物自然模型,即限制途径模型;它不能轻易地与基于人口数据或成对上位性检验的加性模型区分开来,但需要大量的虚拟遗传力。我们对LP模型的关注并不意味着真正的特征必然遵循这个特定的模型;它只是提供了一个存在的证据,即错误的假设可能会导致大量的遗传性缺失。我们讨论更一般的多路径模型(SI附录第4.4节)这也显示了巨大的虚拟遗传力。(除了G-G相互作用外,我们注意到G-E相互作用可以产生额外的虚拟遗传力。)
重要的是,我们并不是说缺失遗传力完全或主要是由于遗传相互作用。相反,可能存在更多的因果变异,这是缺失遗传力的重要部分。应继续大力开展发现工作。
克罗恩病的案例说明了这些观点。目前已知的基因座可以解释~22%、~58%或更多的真实遗传力,这取决于疾病是否遵循有限合伙人(1),有限合伙人(3) ,或其他型号。可用数据无法区分模型。这种惊人的不确定性破坏了“默认推断”,例如,经常得出的结论是,罕见的变异必然在很大程度上导致疾病,因为常见的变异对遗传力的解释“太少”。[值得注意的是,最近对克罗恩病的研究(28)据报道,在56个疾病相关位点上,罕见变异解释的遗传力比普通变异少10-20倍。]
考虑到结果对遗传结构的依赖性,报告解释或缺失遗传力比例的作者应明确指出,计算是在任意假设性状是加性的情况下进行的。
在LP模型中,幻影遗传率随路径数增加而增加。更一般地说,生物复杂性更大的性状可能具有更大的虚拟遗传力。目前的研究与这一观点大致一致:胎儿血红蛋白水平等“简单”性状的表观遗传力大于体重指数或初潮年龄等“更复杂”性状的表观遗传力(SI附录第6.3节). 这种差异可能反映了基因座的数量和性状背后的遗传相互作用。
虽然上位性在实验生物中的普遍存在表明真正的遗传力,但由于遗传相互作用而导致的人类性状的表观遗传力的分数无法从现有数据中推断出来小时2性状的数量可能远低于目前的估计。(以下值小时2这并不意味着性状在这个术语的流行用法中是“较少遗传的”,这个术语指的是基因的总贡献,H(H)2。这只是意味着相加效应只占H(H)2.)
我们描述了克服遗传相互作用问题的潜在解决方案:定理1提供了一种自上而下的方法来测量无论潜在遗传结构如何都一致的加性遗传力。原则上,该方法可以提供对遗传力的准确评估,并通过比较从不同方法获得的自上而下的估计值来检测是否存在遗传交互作用。为了评估其实际效用,有必要将其应用于来自孤立人群的适当数据。
最后,尽管我们在这里重点关注,但我们认为,对缺失遗传性的担忧不应转移医学遗传学的基本目标。为发现与共同特征相关的变异而进行的人类遗传学研究,主要应被视为模拟模式生物中的突变狩猎,其主要目的是确定潜在的途径和过程。关键的重点应该是研究迄今为止发现的变体的生物学作用。在人类群体中,由变异解释的表型变异比例是一个众所周知的不良预测因子,无法预测基因在生物学或医学中的重要性。[一个典型的例子是编码HMGCoA还原酶的基因,它只能解释胆固醇水平变化的一小部分,但却是降胆固醇药物的一个强有力的靶点(1).] 最终,生物医学研究最重要的目标不是解释遗传性,即预测个性化的患者风险,而是了解疾病的潜在途径,并利用这些知识制定治疗和预防策略。