ajhg标志Guide for AuthorsAbout this journalExplore this journalAmerican Journal of Human Genetics
我是亨吉奈特。2004年5月;74(5):965–978。
2004年4月14日在线发布。 内政部:10.1086/420855
PMCID:PMC181989年
PMID编号:15088268

混合材绘图研究的设计与分析

摘要

来源于不同大陆的人群之间的混合可以用来检测这些人群中风险等位基因分布差异的疾病易感位点。我们首先检验了这种方法在配子混合和基因座祖先没有不确定性的限制情况下的统计能力和映射分辨率。我们发现,对于一种罕见的疾病,最有效的设计是只研究受影响的个体。在一个典型的非裔美国人群体中(双向混合比例为0.8/0.2,祖先杂交率为2/100cm),一项对800名受影响个体的研究有90%的能力检测出P值<10−5个一个在人群间产生风险比为2的基因座,预期的作图分辨率(位点位置的95%置信区间大小)为4cm。实际上,从标记数据推断基因座祖先需要贝叶斯计算密集型方法,如ADMIXMAP程序中实现的那样。仅受影响的研究设计需要关于每个等位基因频率的强有力的先验信息。我们展示了如何结合来自未管理和混合群体的数据来估计研究混合群体中这些祖先特有的等位基因频率,允许未管理和混合群体中等位基因频率之间的变化。利用基于非裔美国人群体遗传结构的模拟数据,我们表明,在3厘米间距处,使用祖先信息含量为36%的标记进行连锁试验,可以提取60%的信息。在经典的连锁研究中,最有效的策略是使用中等密度的标记进行初始基因组搜索,然后用额外的标记使假定连锁区域饱和,以提取几乎所有关于基因座祖先的信息。

背景

由于基因原因疾病风险不同的种族群体之间的混合提供了一种自然实验,原则上可以利用这种实验来定位基因,就像实验杂交一样。虽然应用这种方法需要先进的统计方法,但在实践中,它所依赖的检测连锁关系的基本原则很简单。例如,假设一个基因座上的风险等位基因在不同人群中分布不同,从而导致欧洲人骨质疏松性骨折的风险比西非人高出两倍。如果我们根据欧洲/西非混合血统的个体在这个位点上是否有0、1或2个欧洲血统的基因拷贝进行分类,那么有2个拷贝的人比那些有0个欧洲血统基因拷贝的人疾病风险要高出两倍。我们不必直接比较这三组之间的疾病风险(这需要队列设计)。相反,我们只能研究病例,在每个配子的每个位点上比较观察到的和预期的具有欧洲血统的基因拷贝的比例。

虽然这种方法的理论是由麦凯格概述的(1998)它的实际应用有待于统计方法的发展和对祖先有信息的标记板的发展。为了将近交系间实验杂交的连锁分析方法推广到最近混合的人群中,必须克服三个主要问题:

  • 1

    人口分层造成的混乱。在一个实验杂交中,所有个体都有相同的混合史。在混合人口中,混合的历史是未知的,并且比例混合在不同的个体之间是不同的。这就导致了疾病与未连接位点的祖先的联系。这个问题可以通过调节每个个体父母的混合比例来克服(麦凯格)1998). 为了调节亲本混合,我们可以在广义线性模型中调整亲本混合(Hoggart et al。2003)或者将观察到的基因座祖先与每个个体中预期的基因座祖先(给定的亲本混合)进行比较。

  • 2

    人类族群不是近交系。实验杂交通常是利用近交系进行的,通过标记基因座在每个菌株中固定了不同的等位基因。对于由祖先大陆定义的人类群体,我们可以预先选择显示这些大陆群体之间极端等位基因频率差异的标记。然而,即使是这些标记也不能完全提供祖先信息。这个问题可以通过一种多点分析来克服,这种分析结合了染色体上所有标记的信息,以提取每个基因座的祖先信息(Falush等人。2003;Hoggart等人。2003).

  • 三。

    祖先群体中的等位基因频率未知。在一个实验杂交中,祖先菌株的等位基因频率是已知的。对于一个混合的人类群体,对于祖先特有的等位基因频率的估计,每个等位基因的概率,给定被研究基因座的配子的祖先,是不确定的。这是因为构成混合种群的祖先亚群通常不能被精确地定义,而且对于其中一些亚群,没有未经管理的后代可供研究。如本文所述,通过结合来自未管理和混合群体的数据来估计祖先特有的等位基因频率,可以克服这个问题。

在分析祖父母未分型的远缘系(Sillanpaa和Arjas)之间的实验杂交时,也出现了类似的问题1999)利用t基因座对小鼠群体的异质性和数量性状进行精细定位。2000).

混合映射的研究设计与统计能力

在这一节中,我们检验混合映射在没有不确定性的情况下的统计能力,在这种情况下,基因座祖先和配子混合比例被测量。我们随后指出,如果一个全基因组范围的祖先信息标记被分型,并且假定连锁的区域被附加标记饱和,以提取有关基因座祖先的高比例信息,这些条件几乎可以满足。

研究设计比较

我们首先比较两种替代性研究设计和统计检验与二元性状/疾病的联系:(1)仅受影响的试验,比较观察到的和预期的具有高风险亚群祖先的配子比例;(2)病例对照试验,基于疾病与基因座祖先的关联性logistic回归模型中的高危人群。在推导下面的测试时,我们假设测试是在疾病位点进行评估的。以下论点适用于单基因和少基因疾病模型。尽管我们只考虑单个基因座效应的检验,但正如等位基因关联研究中所提出的那样,这些论点可以很容易地扩展到构建两个或多个基因座联合效应的检验(Devlin等人。2003基尔皮卡里和锡兰帕亚2003).

  • 1

    仅受影响的测试。观察单位是单个配子。感兴趣的参数是祖先风险比率r,根据风险与高风险等位基因拷贝数的函数的乘法模型,研究基因拷贝数为2对0的人的疾病风险比。概率zr考虑到配子来自一个受影响的个体,并且具有来自高风险亚群的混合比例θ,从高风险人群观察基因座祖先的方法是(McKeigue)1998)

    公式图像

    观察到的位点祖先状态的可能性A(低风险人群的祖先得分为0,高风险人群的祖先得分为1)因此

    公式图像

  • 2

    病例对照试验。观察单位是单个个体,感兴趣的参数是在研究位点的高危亚群中有2对0基因拷贝的患者的对数优势比β。该检验相当于在logistic回归模型中检验β=0的假设。这个测试也可以应用于一个二元性状的横断面或队列研究。如果忽略配子混合引起的混淆,模型可以指定为

    公式图像

    给出被观察个体疾病状态的可能性为

    公式图像

    哪里是具有来自高风险亚群(0,1/2或1)祖先的基因拷贝的比例;θ是个体两个配子的平均混合比例;β是具有2对0基因拷贝的个体疾病的对数优势比,这些个体的祖先来自高风险亚群;p是研究样本中疾病的患病率(在病例对照研究中,病例数和对照数相等时,固定为1/2);∏是个体受影响的概率,给定p、 x,θ、 和β;以及d是疾病状态的指标变量(0=对照;1=病例)。用解释变量指定模型以期望θ为中心,消除β(被测参数)与截距之间的协方差。

连锁检验可由方程给出的似然函数导出(2)以及(). 对于一个数量性状,可以用线性回归模型对基因座祖先效应进行类似的检验。如果被测参数被转换(必要时)在实线上,则对数似然函数的渐近逼近得到了改进。因此,对于仅受影响的测试,对数似然被评估为日志而不是r.

在任何给定的研究设计中,检测给定大小效应的统计能力可以从预期信息中计算出来,定义为减去与被测参数相关的对数似然二阶导数的期望值。表1对于不同的研究设计,列出了测试中的参数、在特征位点进行单次观察的对数可能性,以及一个具有两个配子的个体在高风险亚群中具有比例混合θ的期望信息(在参数的零值处)。为了比较研究设计,仅受影响研究的预期信息是根据对数优势比β而不是日志. 对于一种罕见的疾病,β≈日志.

表1

混合材绘图的各种研究设计的预期信息[注]

研究设计被测参数一次观测的对数可能性两个配子的期望信息
仅受影响日志,哪里r是遗传风险比方程式M14(一个配子)方程式M15
只受疾病流行程度ψ影响β、 祖先优势比对数如上所述r用ψ、β表示方程式M16
病例对照与病例对照比p/(一)-p)β、 祖先优势比对数方程式M17方程式M18
平均截面方差α的定量研究2β、 祖先效应方程式M19方程式M20

注:θ=高风险祖先配子的比例混合;d=病例对照状态的指示变量;=具有高风险祖先的基因拷贝的比例。

表1结果表明,在病例对照设计中,单个个体在β=0时提供的预期信息是p(一)-p)/(1-ψ)2乘以仅受影响研究的预期信息。对于一种罕见的疾病((1-ψ)2≈1),病例对照设计方程式M1案例和方程式M2控制(p=1/2)具有仅受影响测试的预期信息的四分之一n案例。只有当ψ=0.5时,病例对照设计与仅受影响设计一样有效。如果ψ>0.5(患病率>50%),只研究对照组更有效。这些结果适用于基于似然函数的任何测试。

统计功率计算

检测产生效应大小λ的轨迹(其中λ可以是对数优势比β或对数风险比日志)I类错误概率第二类错误概率b组,所需的观察次数n是由

公式图像

哪里0λ分别表示在零假设和替代假设下,单个观测值提供的预期信息。在仅受影响的设计中,高风险亚群中具有比例混合θ的单个配子贡献的期望信息为

公式图像

固定的r、 五在θ=(1)处最大化+r1/4页)-1. 因此,信息最丰富的配子是那些来自高危亚群的混合比例略低于50%的配子。对于适度的效果大小,λ0

公式图像

因此,从方程(4),所需信息内华达州090%功率(Z1-b=1.28),以检测单侧尺寸λ=1的影响P值<10−5个(Z1-=4.27)近似为方程式M3. 90%功率所需的样本量,以检测在P值<10−5个通过将所需信息(30.8)除以单个观测值中的预期信息(见表1. 任何其他效应大小所需的样本量是通过将这些数字除以效果大小的平方来计算的。因此,在非裔美国人群体中,西非混合体的平均比例θ为∼0.8(Parra等人。1998),一个只受影响的设计需要800个人90%的功率来检测P值<10−5个,一个影响祖先风险比的基因座r=2个(日志=0.69)。

统计建模

上述理论结果是基于配子混合和基因座祖先可以推断而不存在不确定性的假设。实际上,标记数据只会产生关于配子混合和基因座祖先的不完全信息。我们之前已经描述了混合模型的程序ADMIXMAP如何用于控制遗传关联研究中的群体分层混杂(Hoggart et al。2003;遗传流行病学组网站)。我们现在描述这个程序在混合料绘图中的应用。

模型外加剂

由ADMIXMAP拟合的基本模型已在Hoggart等人之前详细描述过(2003). (计算方法见附录A用Falush等程序对相似结构进行了拟合。2003). 研究中的种群被建模为k祖先亚群。我们将“配子混合体”定义为具有每个子种群祖先的亲本基因组的比例;这与每个子种群具有祖先的配子基因组的比例并不完全相同。混合种群中配子混合的分布用参数向量α=(α)的Dirichlet分布来模拟1,…,αk). 在ADMIXMAP中可以指定两种可选的配子分类模型:随机交配模型,其中两个亲本配子独立于此Dirichlet分布绘制;或一个分类交配模型,其中两个亲本配子的混合比例相同。这些备选方案代表了极端情况;原则上,该模型可以扩展,以估计个别混合物的配合程度。

每个配子上不同基因座上祖先的随机变化由k独立泊松到达过程。由于这些到达过程的相对强度由配子θ的混合比例指定,因此只需要一个额外的参数:到达过程强度的总和,用τ表示。尽管祖先的随机变化并不完全遵循独立泊松到达过程的模型,即使在没有干扰的假设下(McKeigue1998),这种建模假设简化了问题。如果在单个脉冲中出现了混合,τ的期望值是自未被管理的祖先以来经过的世代数(Falush等人,1995年)。2003). 参数τ决定了混合作图研究的分辨率和提取每个位点祖先信息所需的标记密度。τ值越大,制图分辨率越高,但提取一定比例信息所需的标记密度也会越高。对于一个具有混合比例θ的配子,祖先交叉率ρ(来自该子种群的祖先和来自其他子种群的祖先之间的转换密度)由ρ=2θ(1-θ)τ给出。

该模型假设基因座之间没有等位基因关联,条件是基因座的祖先。当两个或两个以上的标记靠得太近以致于这一假设不成立时,这些标记被归为一个单一的“复合基因座”。在任何给定配子上的一个复合基因座内的所有标记位置上,祖先都是相同的,因为在这个短距离内,由于混合而可能发生的重组可以忽略不计。在复合基因座上,用单倍型和单倍型频率代替等位基因和等位基因频率。给定一个基因座的祖先,观察到的等位基因或未观察到的单倍型的可能性是多项式的,其概率由祖先特定的等位基因(或单倍型)频率决定。该程序采集单倍型的后向分布和每个基因座的祖先特异等位基因(或单倍型)频率。

性状对配子混合的依赖性建模

对于病例对照或横截面设计,一个广义线性模型被指定为性状对两个配子的平均混合比例的依赖性,以及用户指定的任何其他解释变量。对于数量性状,这是一个线性回归模型;对于二元性状,这是一个logistic回归模型。建立性状对个体混合的依赖性模型允许程序使用性状值和基因型数据来推断配子混合比例。即使只对受影响个体进行连锁试验,包括对照组和拟合logistic回归模型,也有助于模型推断配子混合和等位基因频率。

等位基因频率建模

在一个基因座上观察到每个可能的等位基因或单倍型的概率,是由混合群体中特定于祖先的等位基因(或单倍型)频率决定的。ADMIXMAP允许以三种方式之一指定祖先特定的等位基因频率:

  • 1

    如McKeigue等人所述,作为用户指定的常数,并进行错误指定的分数测试(2000);

  • 2

    作为随机变量,具有用户指定的Dirichlet先验分布(参考先验[Jeffreys1961],当Dirichlet参数向量的所有元素等于0.5时,可在没有等位基因频率数据的情况下指定);以及

  • 三。

    作为随机变量的“离散”模型,允许混合群体中祖先特定的等位基因频率与未被管理的现代后代的相应频率不同。

对于大多数由大陆群之间最近的混合形成的种群,一些关于祖先特有等位基因频率的信息可以从对混合种群作出贡献的大陆群的现代未被允许的后代中获得。我们可以假设这些未经管理的后代中的等位基因频率与混合群体中相应的祖先特定等位基因频率相同;我们将其称为“无分散”假设。如果等位基因频率是从相对较小的未经管理的个体样本中估算出来的,则有必要考虑估计中的抽样误差。在贝叶斯框架中,这一点很简单,上一次研究的后验分布成为下一次研究的先验分布。因此,我们可以将祖先特定等位基因频率的Dirichlet先验分布指定为通过结合参考先验获得的后验分布,Di公司(0.5,…,0.5),数据可能来自未经管理的总体。这种分布的参数只需在未经管理的群体样本中每个等位基因的观察计数上加0.5即可得到。我们可以通过构建基于后验预测检查概率的模型诊断来测试无离散假设,如中所述附录B. 对于每个亚群,这个测试比较了观察到的和复制的等位基因在混合群体中计数的可能性,给出了祖先特有的等位基因频率。这个检验是在每个基因座上计算的,并且(通过对所有基因座的对数似然数相加)作为每个亚群体的总结检验。

当有证据表明不分散假设被违反时,我们可以拟合一个离散模型。与假设不存在离散性的模型相比,在估计研究中的混合群体中祖先特有的等位基因频率时,该模型对来自现代未被管理后代的等位基因频率数据的权重更小(“历史”等位基因频率)。这是通过指定一个等位基因频率的层次模型来实现的,该模型类似于Lockwood等人所描述的(2001). 对于每个大陆群,混合群体中祖先特有的等位基因频率方程式M4以及相应的“历史”频率方程式M5独立于Dirichlet分布,Di公司(μ). 对于一个有等位基因,μ=(μ1,…,μ)以及方程式M6. 我们重新参数化了Dirichlet分布,这样方程式M7. 每个位点的等位基因频率分布为

公式图像

哪里索引基因座和j对混合群体中的一个亚群体进行索引(j=1)或相应的非管理大陆群(j=2)。离散参数η控制着Dirichlet分布的方差,并且对于每个大陆群中的所有基因座都是相同的。它和赖特的有关Fst(赖特)1951),签字人Fst=(1+η)-1(洛克伍德等人。2001). 在我们的应用中,η指数在现代未被管理的后代中的“历史”等位基因频率与混合群体中相应的祖先特定等位基因频率之间的离散度。η值越大,等位基因频率的离散度越小。

模拟结果表明,要从具有模糊先验分布的混合群体样本数据中可靠地估计离散参数η,标记面板必须包含紧密连锁的标记序列,这样才能准确地推断出基因座祖先,或混合比例必须在抽样个体之间有很大的差异,因此可以从观察到的等位基因频率对个体混合比例的依赖性中推断出祖先特有的等位基因频率。在目前报道的研究中,我们只使用了宾夕法尼亚州立大学的标记面板(Shriver等人。2003),它只有几个短的连锁标记序列。在这种情况下,有必要根据对每个大陆群内各亚群间等位基因频率方差的估计,为离散参数η指定一个有用的先验。例如,Fst西非各亚群之间估计为∼0.02(Cavalli-Sforza et al。1994). 如果等位基因频率在现代西非人和非洲裔美国人中相应的祖先特异性等位基因频率的离散性与西非亚群之间的离散度相似,这表明η的先验分布模式应为∼50。同样,Fst欧洲各亚群之间的差异估计为∼0.002,这表明η的先验值应为∼500。由于离散参数η将取决于如何选择标记,以及在大陆群内对哪些亚群进行抽样以估计等位基因频率,η的先验值应反映这种不确定性。

根据贝叶斯推理的原理,我们可以利用混合映射产生的祖先特定等位基因频率的后验分布来确定这些等位基因频率的先验分布,以便在后续研究来自同一混合群体的新样本时确定这些等位基因频率的先验分布。从这一阶段开始,我们不需要指定一个离散模型,只要我们可以假设祖先特定的等位基因频率在来自同一混合群体的不同样本之间没有变化。为了简化计算,ADMIXMAP产生的等位基因频率的后验分布近似于Dirichlet分布,该分布可用于指定后续研究的先验。通过将Dirichlet分布协方差矩阵的均值和行列式与由ADMIXMAP生成的等位基因频率的后验均值和后验协方差矩阵的行列式相等来计算该分布的参数。

混合材绘图的应用

联动试验

ADMIXMAP中提供的链接测试是基于缺失数据可能性的分数测试。使用这种方法,可以直接检验形式λ=λ的任何无效假设0,其中λ0是贝叶斯模型中指定的值。基本算法已在别处进行了描述(McKeigue等人。2000;Hoggart等人。2003). 对于完整数据的每次实现,我们计算实现得分(λ处的对数似然梯度0)以及实现的信息(减去λ处对数似然的二阶导数0). 对于一个只受影响的试验无效假设的研究日志=0时,单个配子在任何给定轨迹上的实现分数和信息可由表达式导出(2)作为(A-θ) /2和θ(1-θ)/4。比分美国被评估为已实现分数的后验期望,以及观察到的信息从完整信息(已实现信息的后验期望)中减去缺失信息(已实现分数的后验方差)。在无效假设下,美国t-1美国有一个χ2分配。

与完全贝叶斯方法相比,这种分数检验算法有以下几个优点:(1)计算效率高,因为在马尔可夫链蒙特卡罗采样器的一次运行中可以检验多个假设;(2)它只需要拟合一个零模型,避免可能出现在零值之外的困难(如确定偏差);(3)观察到的完整信息的比率是相对于直接测量潜在变量的理想实验而言研究设计效率的有用估计。在大样本中,分数检验渐近等价于似然比检验。此外,渐近地,对数似然近似为二次函数(见公式[5]).

在仅受影响的设计中,测试特定基因座连锁的另一种方法是计算一个似然比,该比率将在无效假设下的可能性进行比较,H0,在另一种假设下,没有疾病位点与正在研究的基因位点相联系,H1,研究中的基因位点的人群风险比r.

信息内容映射

一个信息内容图衡量一个标记集检测连锁的充分性,与一个无限密集的标记图相比较,这个标记图允许在没有不确定性的情况下推断位点祖先和配子混合。这使我们能够确定应该在地图上添加其他标记的位置。我们可以利用每个位点的纯受影响分数测验中观察到的完整信息的比率来构建这个信息内容图。为了这个目的,测试应该在一个未经选择的个体样本上进行评估,我们可以假设他们的零假设是真的。对于研究中的每个混合群体,地图的信息含量必须单独评估,因为它取决于混合的历史以及祖先特有的等位基因频率。在经典的连锁研究中,提取特定比例信息所需的标记密度与单个标记的信息含量之间存在权衡。

有几种可能的方法来计算祖先的标记信息内容。在本文中,祖先标记信息内容的引用值是基于期望的比例f通过对基因座进行分型来减少单个配子上基因座祖先的先验方差(麦凯格)1998Molkhia等人。2003). 这种方法对我们的目的是有用的,因为它相当于只有受影响的分数测试在没有来自连锁标记位点的信息的情况下所具有的效率。另一种方法,n,由Rosenberg等人提出(2003). 虽然绝对值fn不同的是,这两种衡量指标在信息内容方面的排名相似。

排除映射

排除图显示,在基因组的每个位置,影响大小r在LOD可以排除一个分数。这可以用来排除区域从类型的额外标记,因为已经获得的数据足以排除研究设计用来检测的大小的影响。为了构造排除图,我们需要对数似然作为每个轨迹上效应大小的函数。如上所述,近似对数似然的二次函数方程式M8-比方说,ℒ-可以从分数中得到美国和信息在分数测试中计算。对于仅受影响的测试,对数似然被评估为方程式M9;如果我们任意设置ℒ=0,这个函数是

公式图像

要根据LOD分数为−2的传统标准计算排除阈值,我们可以替换方程式M10然后求解这个二次方程,计算出r其可能性比r=1。与真实对数似然函数(在配子混合和基因座祖先没有不确定性的情况下计算)的比较表明,这种近似是相当精确的,除了在r它们远离null,这与排除映射无关。

映射分辨率

通过采用Kruglyak和Lander的方法,可以计算出由纯受影响设计的混合映射检测到的疾病位点位置的期望置信域大小(1995b)在受影响相对对连锁研究中,产生置信域大小的概率分布。我们假设配子混合和基因座祖先是在没有不确定性的情况下测量的,就像在一个无限密集的标记图已经被键入的极限情况下一样。对于受影响个体的单个配子,概率zr疾病所在地的高危亚群的祖先通过方程式给出(1). 因此,似然比与疾病位点与效应大小的假设进行对比r在一个给定的地图位置,假设这个位置与疾病无关是两个伯努利似然系数的比值zr和θ。

克鲁格莱克和兰德(1995b)利用随机游动理论导出置信域大小分布的近似值Cγ有可能包含疾病位点。在疾病位点区域,LOD评分表现为一个随机游走,条件是通过其在疾病位点的期望值。在一项仅受影响的地图研究中,这种行走的步幅是恒定的,

公式图像

上下阶跃概率分别为π和1-π,其中

公式图像

置信区间Cγ定义为包含LOD分数超过阈值水平的所有点的最小间隔Z*-Tγ,其中Z*最大LOD分数。Tγ是由方程式M11.

为了计算置信域大小的分布,我们需要转移数的分布S要求LOD分数永久性地低于Z*-Tγ. 在一个受影响的相对对研究中,这些转换是在从同一祖先遗传的配子上共享0到1个基因拷贝之间。在一项混合映射研究中,这种转换是在单配子上的低风险和高风险亚群的祖先状态之间发生的。这些跃迁被模拟为具有强度参数ν=[ρ]的泊松到达过程+(一)-zr)+ρ-zr]n在疾病易感位点区域,其中n是受影响的配子数,ρ+和ρ-分别是向较高和较低LOD分数的转换密度。因此,对于来自高风险亚群的具有比例混合θ的配子,这些跃迁的密度由ρ给出+=θτ和ρ-=(1-θ)τ,其中τ是上述强度参数的总和。所有祖先杂交的平均密度n疾病位点区域的配子为ν=[θτ(1-zr)+(1-θ)τzr]n佩尔摩根。连续到达之间的距离服从指数分布,平均值为1/ν。因此,到达的距离S跃迁具有带形状参数的伽马分布S以及标度参数ν。从这个分布中得到的样本可以通过模拟生成,这样我们就可以计算出置信区间大小的分布Cγ.

数据源

三个非洲裔美国人样本和一个西班牙裔美国人样本,从一组38个标记中选择双列标记,这些标记可提供西非、欧洲和美洲原住民的祖先信息。非裔美国人样本包括一项对费城202名个体的横断面研究,在26个基因座上进行了分型;在华盛顿特区对232名个体进行了横断面研究,在34个基因座上进行了分型(见Shriver等人[2003]以及393名居住在华盛顿特区的个体,他们被纳入一项前列腺癌病例对照研究,在27个位点上进行了分类(见Kittles等人[2001]以及[2002]有关此集合的详细信息)。西班牙裔美国人样本是科罗拉多州圣路易斯山谷居民的横断面样本,由Hoggart等人描述,从临床上确定的糖尿病病例丰富,分型在21个标记位点(2003).

未经管理的西非人、欧洲人和美洲土著人的样本被分为同一组38个祖先信息标记。在全部35个基因座上,35个基因座上的38个基因型个体由35个基因型个体组成。有关这些数据集的更多详细信息,请参见Shriver等人(2003).

结果

祖先交叉率和映射分辨率的估计

表2显示了基于三个非洲裔美国人样本和一个西班牙裔美国人样本的强度参数τ之和的估计值。95%可信区间很宽,因为在这些研究中使用的标记板只包括一些连锁标记序列。结合这些研究,我们估计非裔美国人的τ为每100厘米∼6。Falush等人(2003)估计来自伊利诺伊州梅伍德的非裔美国人样本τ的后验平均值为9.8,90%可信区间为7-13。

表2

四个混合群体强度参数和的后验总结

强度和参数
人口个人数量标记数量中值的95%可信区间
非洲裔美国人:
 前列腺癌393645.74.3–7.2节
 费城202266.13.3–10.6节
 华盛顿特区232337.14.6–10.8节
西班牙裔美国人:
 圣路易斯山谷446218.15.1至12.4

强度之和为6意味着,当混合比例为0.8/0.2时,祖先杂交率为∼2/100cm(2×0.80×0.20×6)。在此基础上,我们计算了在基因座祖先和配子混合没有不确定性的限制条件下,混合作图研究在非裔美国人群体中的预期分辨率。图1显示置信区域大小分布的中位数和上95个百分位值,与祖先风险比作图r样本量为800人,混合比例为0.8,τ=6。r=2,置信域的期望大小为4cm。因为标度参数ν与样本大小呈线性关系n,置信域大小的期望值与1成正比/n. 因此,对于1 cM的预期绘图分辨率,需要3200个个体才能获得具有祖先风险比的位点r=2,且∼9000人r=1.5。

保存图片、插图等的外部文件名为AJHGv74p965fg1.jpg

疾病位点位置95%置信区间大小的中位数和上95%的上百分位,与800个固定样本量的风险比作图,混合比例为0.8,τ=6。

测试链接、信息内容映射和排除映射

为了证明ADMIXMAP在密集标记图混合作图中的应用,我们模拟了一个仅受影响的研究,该研究基于非洲裔美国人的遗传结构,即高风险人群的混合比例θ=0.8,强度之和τ=6/摩根。对于每个个体,标记基因型在两条100厘米长的染色体上产生,每1厘米间隔一个标记,其中一个包含一个疾病位点,其祖先风险比为2,位于染色体的一半,另一个则没有疾病位点。这些标记是双列的,等位基因1的频率在高危亚群中被指定为0.8,在低风险亚群中被指定为0.2(相当于f=0.36[麦凯格1998]或者n=0.28【Rosenberg等人。2003]). 这两个数据集还包括200个未链接的双列标记,这些标记对祖先来说是完全信息性的,代表了有关配子混合的信息,这些信息可以通过在基因组中键入几百个其他祖先信息标记来获得。

用ADMIXMAP对这项模拟研究进行了三次分析:(1)一次使用所有标记位点的基因型数据;(2)将两条染色体上每第二个和第三个连锁标记位点的基因型设置为“缺失”,以模拟一个标记均匀间隔为3厘米的研究;(3)一组在两条染色体上随机选择33个标记,用平均间隔为3厘米的标记模拟标记不均匀分布的研究。包括缺失基因型的基因座可以确保程序计算这些位置上提取的信息的比例,这样我们就可以评估所提取的信息在多大程度上在标记基因座之间丢失。图2显示P在所有三个分析中包含疾病位点的染色体的分数测试中计算的值。在每一个分析中,连锁在一个广泛的区域被检测出来。图3显示在没有疾病位点的染色体上提取的信息的比例。当标记间距为1cm时,中间90%的染色体信息提取率大于80%。当标记间距为3cm时,中间90%的染色体提取信息的比例为∼60%,而标记位点之间的信息只略有下降。平均间距为3cm,但随机分布的标记,某些标记位点间的信息下降到∼50%。数字图44和55显示祖先风险比率超过该阈值的估计阈值r对于包含疾病位点的染色体和没有疾病位点的染色体,在LOD评分为−2的情况下,可以排除该位点。即使标记的间距为3厘米,一个祖先的风险比率r⩾2被排除在没有疾病位点的整个染色体上,LOD评分为−2。在含有该疾病位点的染色体上,每间隔1cm标记可排除的祖先危险比>2的区域比标记间距为3cm的区域大。

保存图片、插图等的外部文件名为AJHGv74p965fg2.jpg

地块方程式M13 P从一个染色体长度为50厘米的基因座模拟疾病的风险值为2厘米。实线,每1厘米间隔一个标记;虚线,每3厘米间隔一个标记;虚线,标记随机间隔,平均间距为3厘米。

保存图片、插图等的外部文件名为AJHGv74p965fg3.jpg

长度为100cm的染色体模拟数据的信息内容图,无疾病位点。实线,每1厘米间隔一个标记;虚线,每3厘米间隔一个标记;虚线,标记随机间隔,平均间距为3厘米。

保存图片、插图等的外部文件名为AJHGv74p965fg4.jpg

长度为100cm的染色体模拟数据的排除图,疾病位点在50cm处的风险比为2。实线,每1厘米间隔一个标记;虚线,每3厘米间隔一个标记;虚线,标记随机间隔,平均间距为3厘米。

保存图片、插图等的外部文件名为AJHGv74p965fg5.jpg

长度为100cm的无疾病位点染色体模拟数据的排除图。实线,每1厘米间隔一个标记;虚线,每3厘米间隔一个标记;虚线,标记随机间隔,平均间距为3厘米。

祖先特异等位基因/单倍型频率的估计

为了测试从同一个被研究混合群体的连续样本中了解祖先特定等位基因频率的能力,我们使用了上述三个非洲裔美国人的数据集。三个数据集总共包括37个祖先信息标记,其中23个是所有三个数据集共有的;标记的详细信息由Shriver等人提供(2003). 这个模型被指定为三个亚群体:西非人、欧洲人和美洲土著人。如果我们假设非裔美国人中祖先特有的等位基因频率不随居住地区的不同而变化,那么对祖先特定等位基因频率的连续更新应使估计的等位基因频率与真实值的拟合度更高。为了验证这个预测,我们计算了两组等位基因频率估计值:(1)作为未经管理的西非人口样本中的平均频率获得的估计值;(2)作为后验分布平均值的估计值,通过拟合离散模型得到,该模型由来自未经管理的西非样本给出的“历史”等位基因频率人口和来自华盛顿特区和费城的数据集作为混合人口进行研究。由于这些研究中标记的数量太少,无法可靠地推断离散参数,因此为这些参数指定了信息先验。西非等位基因频率的色散参数的先验值被指定为η∼佐治亚州(4,0.04),其质量的95%在20和200之间。欧洲等位基因频率的色散参数的先验值被指定为η∼佐治亚州(6,0.02),其质量的98%在100和1000之间。由于在这些非裔美国人群体样本中,关于美洲原住民等位基因频率的信息很少,因此关于美洲原住民等位基因频率的分散参数的先验值被指定为η∼佐治亚州(1000,10),平均值为100,方差为10。

图6比较这两组等位基因频率估计值与前列腺癌数据集的拟合度。每一组估计值被用来指定一个具有固定等位基因频率的模型,并计算这些等位基因频率错误指定的分数测试。在等位基因频率估计仅基于未经管理的群体抽样的情况下,4个基因座的错误等位基因频率测试在1%水平上显著,在P值<10−5个其中两个。等位基因频率的估计是基于后验分布,通过在离散模型中结合来自非管理和混合群体(华盛顿特区和费城)的数据得到的,只有两个基因座显示了在1%水平上显著的等位基因频率错误指定的证据。当用一个模型分析前列腺癌数据集时,原始和更新的非洲特有等位基因频率估计值的拟合度也得到了类似的改善,其中等位基因频率被指定为具有先验分布的随机变量,而不是固定的。为了测试这种模型的适用性,我们必须使用基于后验预测检查概率的模型诊断,如上文所述等位基因频率建模“小节。在离散模型中,基于使用非均匀群体数据的先验分布,后验预测检验概率从0.06(在使用非洲特有等位基因频率的原始先验分布的模型中)增加到使用更新的先验分布的模型中的0.27。有关预测检查概率的计算,请参阅附录B.

文件名为jpajv6的外部对象

P在非管理的西非人群的频率估计值指定的模型中,对错误指定的非洲等位基因频率的测试中获得的值(水平轴)该模型通过在离散模型中结合非管理和混合种群(华盛顿特区和费城)的数据,指定了频率估计(纵轴). 错配试验显著的基因座P第一个模型指定的等位基因频率值<.01,显示为黑色方块。

讨论

早期的作者提出,通过检测混合(Chakraborty和Weiss)产生的疾病的等位基因关联,可以利用混合物产生的连锁信息定位疾病易感基因1988). Stephens等人(1994)引入了“混合连锁不平衡映射”这一术语。相比之下,本篇文章中描述的方法依赖于检测疾病与从标记数据推断出的基因座祖先的关联性。与检测基因座祖先对疾病风险的影响相比,依赖等位基因关联测试的方法有两个严重的局限性:不能使用仅受影响的设计,不能在多点分析中结合来自连锁标记的信息来提取有关祖先的信息。

我们已经表明,对于一种罕见的疾病,病例和对照组的比较只传达了相同总样本量的仅受影响研究的四分之一。由于等位基因关联测试不能结合来自连锁标记的信息,其检测导致疾病风险种族变异的基因座的效率受到单个标记基因座祖先信息含量的限制。被选为祖先信息的标记通常具有小于40%的祖先信息平均含量。因此,在遗传信息丰富的密集标记图谱的情况下,等位基因关联的病例对照研究测试所传递的信息少于总样本量相同的仅受影响的混合作图研究的十分之一(0.25×0.40)。即使对于一种常见疾病,仅研究病例比比较病例和对照组更有效,除非该疾病的患病率>50%。对于患病率>50%的疾病,最有效的设计是只研究未受影响的个体。

检测一个对疾病风险的种族变异有一定贡献的基因位点所需的样本量(祖先风险比为1.5-2)在现实的范围内,即使在非洲裔美国人中,平均混合比例(0.8/0.2)远远不是混合绘图研究的最佳值。我们已经表明,如果对非裔美国人的研究如我们所建议的那样有效,95%置信区间的预期大小为∼4cm。在实践中,如果在染色体上检测到与疾病位点的连锁,我们不会计算该位点位置的置信域,而是扩展统计模型,在完全贝叶斯分析中估计该疾病位点的影响大小和位置,从而获得轨迹。

在发现疾病风险与种族差异的联系时,可以采用几种策略进行精细绘图。一种方法,如前所述(Hoggart等人。2003),是为了构建一个等位基因关联性检验,即以位点祖先为条件,从而消除混合产生的长程信号。另一个可能的策略是筛选最近选择的证据(Sabeti等人。2002)因为种族间风险等位基因的差异分布很可能是由不同的选择压力造成的。

混合映射的期望分辨率和所需的标记密度取决于强度参数之和,或者等价于祖先交叉率。我们估计非裔美国人的强度总和和祖先杂交率分别为∼6/100cm和2/100cm。我们的模拟显示,在使用一组平均信息含量为0.36的标记进行初始基因组搜索时,要在整个基因组中提取至少60%的信息,平均标记间距需要3cm。这将需要在整个基因组中有1200个标记。没有必要使标记间距均匀,因为在这个标记密度下,标记基因座之间的信息不会丢失太多。

Kruglyak和Lander先前为多点家族连锁研究阐明的许多原则(1995答:, 1995b)可推广到混合材绘图研究。一个例子是计算置信域分布的算法,如本文所述。另一个是标记信息内容和所需标记密度之间的权衡。在没有平均信息含量高达0.36的标记的情况下,可以通过信息量较少的标记密集的地图来提取相同比例的信息。与家族连锁研究一样,最有效的策略是利用一组足以在大多数基因组中排除研究设计用来检测的大小效应的标记集进行初始基因组搜索,然后用额外的标记饱和假定连锁的区域,以提取几乎所有关于祖先的信息。在这篇文章中提出的模拟表明,一个相对低密度(每3厘米1个)的标记图谱可能足以进行最初的基因组搜索。混合作图研究的统计能力和作图分辨率的计算可以建立在假设一个密集的标记图的基础上,这样配子混合和基因座祖先就可以测量而不存在不确定性。

对混合映射的一个批评是,它假定经历混合的每个祖先大陆群内部都是同质的。因此,例如,有人认为,非洲的遗传异质性使得将现代非洲裔美国人的遗传结构简单地作为两个基因库的混合体来建模是不现实的:西非和欧洲(Terwilliger和Göring)2000). 然而,在ADMIXMAP中使用的模型并没有假设西非各亚群之间的遗传同质性;它只假设了非洲裔美国人中非洲血统的基因库(同样,欧洲血统的基因库内)的同质性。这是一个更现实的假设;尽管奴隶来自西非的不同地区,但来自这些不同非洲亚群体的基因很可能被随后的运动所混合。同质性假设可以通过扩展Hoggart等人描述的人口分层检验进行检验(2003)测试每个亚群内的残余分层。

在大陆群内部存在异质性的地方,可供取样的非混合组可能不代表那些经历过混合的组。因此,举例来说,我们无法对构成现代非裔美国人中非洲血统基因库的非洲亚群的确切组合进行抽样。大陆群内的遗传异质性也可能导致混合群体中祖先特有的等位基因频率与现代未被管理的西非、欧洲和美洲土著人口中的等位基因频率发生变化。我们已经用实际数据证明,通过结合来自未管理和混合群体的数据,可以更准确地估计祖先特有的等位基因频率,允许等位基因频率在未管理和混合群体之间的分散。由于祖先特异性等位基因频率具有很强的先验性,混合作图研究的设计可以基于只对受影响个体进行分型,而无需键入对照组来估计等位基因频率,而不依赖于病例样本。为了充分利用这一方法,研究人员应建立一个共同的祖先信息标记小组,用于混合作图研究,并汇集他们的控制数据,以便所有可用的数据可以用来估计混合群体中的特定祖先等位基因频率。

与其他检测疾病易感性基因的方法相比,混合作图有三个主要优点:它比家族连锁研究具有更高的统计能力(McKeigue)1998)它比全基因组关联研究需要的标记更少,而且不受等位基因异质性的影响(Terwilliger和Weiss)1998). 通过混合作图检测一个基因座的能力并不取决于该基因座上疾病等位基因的数量,而仅仅取决于该基因座上的疾病等位基因库是否在祖先亚群之间存在差异分布。即使在疾病风险的总体种族差异无法检测到的情况下,也有可能存在这样的基因座。如果存在混合群体,混合作图的可行性取决于标记多态性的全基因组面板的可用性,这些多态性对于经历过混合的不同亚群体之间的祖先有信息。为此,可以使用任何类型的标记:snp、插入/删除多态性或微卫星。虽然微卫星比双列标记具有更高的多态性信息含量,但它们并不一定具有更高的祖先信息含量。公共领域的SNP等位基因频率数据的积累,使我们能够选择显示大陆组间极端频率差异的亚组,而不必筛选未选择的标记。ADMIXMAP可用于评估给定混合群体中标记面板祖先的信息内容。必要时可以添加标记,直到提取的信息比例超过基因组上所有位置的某个特定最小值。

我们注意到,作为从混合或分层群体中建模基因型和表型数据的通用程序,除了混合作图外,它还有许多应用。结构程序(Falush等人。2003)适合一个类似的人口混合模型,但没有纳入一个回归模型的性状依赖于个别混合,不包括连锁试验。我们已经在遗传控制和遗传控制的研究中描述了遗传分层。2003). 其他应用包括估计疾病风险与单个混合物的关系(Molkhia等人。2003),从犯罪现场提取的DNA样本中,识别出与另一个亚群体混合或有祖先的边缘个体(在其他同质人群中),并预测与个体混合比例(如皮肤色素沉着和眼睛颜色)密切相关的特征。

致谢

感谢T.Smith、C.Bonilla、E.Parra、B.Falkner和W.Chen允许我们使用他们的数据。对于编程方面的帮助和建议,我们要感谢R.Sharp和N.Wetters。这项工作得到了美国国立卫生研究院(National Institutes of Health)DK53958和HG02154(均为医学博士)、MH60343(下午)和RR03048(R.A.K.)的资助。

附录A:计算方法

在给定观测数据的情况下,通过马尔可夫链蒙特卡罗模拟,生成所有未观测变量的后验分布。有了密集的标记图,有必要联合取样每个染色体上所有基因座的祖先状态,以确保取样者快速混合。如Falush等人所述,这是使用隐马尔可夫模型向前向后算法来实现的(2003). 为了允许配子混合比例的共轭更新,我们引入了一个二元变量ξ=(ξ)的辅助向量1,…,ξ-1)每一个配子。这些向量的坐标取ξ的值j=1如果k轨迹间存在独立的泊松过程j和轨迹j+1和ξj=0否则。配子混合比例根据定义为

公式图像

哪里k是经历混合的子种群数量,α是描述种群水平混合的Dirichlet分布的参数,以及Aij公司是一个长度向量k带元素如果基因座祖先来自th亚群,否则为0。

为了减少模型参数之间的后验协方差,从而确保采样器的快速混合,回归模型中的每个解释变量都以样本平均值为中心;这些均值的估计在老化期进行。在线性回归模型中,回归参数的全条件分布为多元正态分布。在logistic回归模型中,回归参数的全条件分布可以近似为正态分布,我们在Metropolis-Hastings算法中使用正态分布作为建议分布。由于强度和参数τ的全条件分布是对数凹的,因此可以使用自适应抑制采样器(Gilks和Wild1992). 除强度和参数τ外,超过10次迭代的自相关系数对所有种群水平参数都很低。通过为该参数选择一个合理的起始值,可以缩短老化所需的迭代次数。当前版本的程序不能包含关于阶段的先验信息,尽管它采样了祖先状态和每个位点的单倍型的联合后验分布。

附录B:后验预测试验(贝叶斯P价值观)

当拟合模型的替代方案不能被指定为连续参数偏离其指定值时,可以根据后验预测检查概率(Rubin)构建一个缺乏拟合的测试1984). 对于缺失数据的每次实现,重复观察是的代表由后验预测分布生成,并与观测数据进行比较是的通过一些检验统计量T. 后验预测检验概率定义为检验统计量值计算的概率是的代表比从中计算的值更极端是的, 方程式M12,其中ω是模型参数。该概率通过ω的后验分布和后验预测分布进行评估是的代表. 如果ω中不存在后验不确定度,则该程序相当于经典的精确检验,其中P当零假设为真时,在假设重复的实验中,值在0-1区间上具有均匀分布。当后验不确定度为ω时,后验预测检验概率比经典概率更为保守P值,因为它们在空值下的假设重复实验中的分布收缩到预期值0.5。当测试被用作模型诊断,而不是用于正式的统计推断时,这不是一个严重的问题。

电子数据库信息

此处显示的数据的URL如下所示:

伦敦卫生与热带医学院遗传流行病学组,http://www.lshtm.ac.uk/eu/genetics/index.html(对于ADMIXMAP程序)

工具书类

Cavalli Sforza LL,Menoozz P,Piazzi A(1994)《人类基因的历史与地理》。普林斯顿大学出版社[谷歌学者]
Chakraborty R,Weiss-KM(1988)混合基因作为寻找连锁基因和检测位点间等位基因关联差异的工具。美国科学院学报85:9119–9123[PMC免费文章][公共医疗][谷歌学者]
Devlin B,Roeder K,Wasserman L(2003)多点关联模型分析。流行基因25:36–4710.1002/gepi.10237[公共医疗] [交叉引用][谷歌学者]
Falush D,Stephens M,Pritchard JK(2003)利用多基因座基因型数据推断群体结构:连锁基因座和相关等位基因频率。遗传学164:1567–1587[PMC免费文章][公共医疗][谷歌学者]
Gilks WF,Wild P(1992)Gibbs抽样的自适应拒绝抽样。应用统计41:337–348[谷歌学者]
Hoggart CJ,Parra EJ,Shriver MD,Bonilla C,Kittles RA,Clayton DG,McKeigue PM(2003)分层群体中遗传关联混杂的控制。美国遗传学杂志72:1492–1504[PMC免费文章][公共医疗][谷歌学者]
《概率论》,牛津大学出版社,1961年[谷歌学者]
Kilpikari R,Sillanpaa MJ(2003)定量和定性性状中多基因位点关联的贝叶斯分析。流行基因25:122–13510.1002/gepi.10257[公共医疗] [交叉引用][谷歌学者]
Kittles RA,Chen W,Panguluri RK,Ahaghotu C,Jackson A,Adebamowo CA,Griffin R,Williams T,Ukoli F,Adams Campbell L,Kwagyan J,Isaacs W,Freeman V,Dunston GM,Massac A(2002)CYP3A4-V与非裔美国人前列腺癌:由于人口分层导致的因果或混杂关系?Hum Genet 110:553–56010.1007/s00439-002-0731-5[公共医疗] [交叉引用][谷歌学者]
Kittles RA,Panguluri RK,Chen W,Massac A,Ahaghotu C,Jackson A,Ukoli F,Adams Campbell L,Isaacs W,Dunston GM(2001)与非裔美国人前列腺癌侵袭性相关的Cyp17启动子变体。癌症流行病学生物标志物Prev 10:943–947[公共医疗][谷歌学者]
Kruglyak L,Lander ES(1995年)完成定性和定量性状的多点同胞对分析。美国遗传学杂志57:439–454[PMC免费文章][公共医疗][谷歌学者]
---(1995年)b)复杂性状的高分辨率遗传作图。美国遗传学杂志56:1212–1223[PMC免费文章][公共医疗][谷歌学者]
Lockwood JR,Roeder K,Devlin B(2001)等位基因频率的贝叶斯分层模型。埃皮迪米尔基因20:17–3310.1002/1098-2272(200101)20:1<17::AID-GEPI3>3.0.CO;2-Q[公共医疗] [交叉引用][谷歌学者]
McKeigue PM(1998)《疾病风险中种族差异的基因定位:通过对亲本混合物的调节来检测混合群体中连锁关系的方法》。美国遗传学杂志63:241–251[PMC免费文章][公共医疗][谷歌学者]
McKeigue PM,Carpenter JR,Parra EJ,Shriver MD(2000),《用贝叶斯方法估计混合种群中的混合和连锁检测:对非洲裔美国人群体的应用》。Ann Hum Genet 64:171–18610.1046/j.1469-1809.2000.6420171.x[公共医疗] [交叉引用][谷歌学者]
Molokhia M,Hoggart C,Patrick AL,Shriver M,Parra E,Ye J,Silman AJ,McKeigue PM(2003)《加勒比海地区人群中系统性红斑狼疮与西非混合性疾病风险的关系》。人类遗传学112:310–318[公共医疗][谷歌学者]
Mott R,Talbot CJ,Turri MG,Collins AC,Flint J(2000)远缘种家畜数量性状基因座精细定位方法。美国科学院学报97:12649–1265410.1073/pnas.230304397[PMC免费文章][公共医疗] [交叉引用][谷歌学者]
Parra EJ,Marcini A,Akey J,Martinson J,Batzer MA,Cooper R,Forrester T,Allison DB,Deka R,Ferrell RE,Shriver MD(1998),利用群体特异性等位基因估计非裔美国人的混合比例。《美国遗传学杂志》63:1839–1851[PMC免费文章][公共医疗][谷歌学者]
Rosenberg NA,Li LM,Ward R,Pritchard JK(2003)遗传标记对祖先推断的信息性。美国遗传学杂志73:1402–1422[PMC免费文章][公共医疗][谷歌学者]
Rubin DB(1984)应用统计学家Bayesian合理且相关的频率计算。《美国国家统计年鉴》12:1151–1172[谷歌学者]
Sabeti PC,Reich DE,Higgins JM,Levine HZ,Richter DJ,Schaffner SF,Gabriel SB,Platko JV,Patterson NJ,McDonald GJ,Ackerman HC,Campbell SJ,Altshuler D,Cooper R,Kwiatkowski D,Ward R,Lander ES(2002),从单倍型结构检测人类基因组中最近的阳性选择。自然419:832–83710.1038/自然01140[公共医疗] [交叉引用][谷歌学者]
Shriver MD、Parra EJ、Dios S、Bonilla C、Norton H、Jovel C、Pfaff C、Jones C、Massac A、Cameron N、Baron A、Jackson T、Argyropoulos G、Jin L、Hoggart CJ、McKeigue PM、Kittles RA(2003)《皮肤色素沉着、生物地理祖先和混合材绘图》。人类遗传学112:387–399[公共医疗][谷歌学者]
Sillanpaa MJ,Arjas E(1999)不完全远缘后代数据中多个数量性状位点的贝叶斯映射。遗传学151:1605–1619[PMC免费文章][公共医疗][谷歌学者]
Stephens JC,Briscoe D,O'Brien SJ(1994年),《人类群体中混合连锁不平衡图:限制和指南》。美国遗传学杂志55:809–824[PMC免费文章][公共医疗][谷歌学者]
Terwilliger JD,Göring HH(2000),《20世纪和21世纪的基因作图:统计方法、数据分析和实验设计》。《人类生物学》72:63–132[公共医疗][谷歌学者]
Terwilliger JD,Weiss(1998)复杂疾病的连锁不平衡映射:幻想还是现实?生物技术期刊9:578–59410.1016/S0958-1669(98)80135-3[公共医疗] [交叉引用][谷歌学者]
Wright S(1951)种群的遗传结构。安尤根15:159–171[谷歌学者]

文章来自美国人类遗传学杂志在这里提供美国人类遗传学学会