跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国人类遗传学杂志。2004年11月;75(5): 771–789.
2004年9月22日在线发布。 数字对象标识:10.1086/425281
预防性维修识别码:项目经理1182107
PMID:15386213

使用病例对照数据和仅病例数据进行外加剂映射的统计检验

摘要

混合图谱是一种很有前途的新工具,用于发现有助于形成复杂性状的基因。这种作图方法使用最近混合人群的样本来检测在原始贡献人群中风险等位基因具有不同频率的易感位点。尽管混合映射的想法已经出现了十多年,但基因组工具直到现在才变得可用,以使其成为复杂映射的可行且有吸引力的选择。在本文中,我们描述了新的统计方法,用于分析外加剂映射研究中的多点数据,以检测“祖先关联”;相反,它们只是基于样本在某个基因座的祖先比例与基因组平均值的偏离程度。我们的功率计算表明,对于祖先群体中潜在风险等位基因频率显著不同的位点,混合映射的功率可以与关联映射的功率相比,但标记数量要少得多。我们还表明,尽管“祖先信息标记”(AIM)优于随机单核苷酸多态性(SNP),但当AIM不可用时,随机SNP可以表现得很好。因此,研究AIM不可用的混合人群的研究人员可以使用稍高密度的随机标记进行混合映射。执行基因图谱计算的软件“MALDsoft”可在普里查德实验室网站。

介绍

在大多数人群中,连锁不平衡(LD)随距离迅速衰减。因此,对复杂疾病基因座的全基因组关联扫描需要键入大量标记——大约每隔几kb就有一个标记(Kruglyak1999Gabriel等人。2002). 然而,由于最近的种群混合,一些人类种群的弱LD延伸到非常大的遗传距离。例如,在具有~20%欧洲血统的非裔美国人中,在20 cM的距离内观察到平均显著的LD(Parra等人。1998). 早在1988年,就有人首次提出,这种长程“混合LD”可以实现高效的基因定位,所需的标记远远少于在平衡种群中进行传统关联定位所需要的标记(Chakraborty和Weiss1988Stephens等人。1994). 迄今为止,混合映射的应用相当有限(Shriver等人。2003)但是基因组工具现在刚刚成熟,混合作图将为复杂性状的研究做出重要贡献。

当两个或多个等位基因频率不同的群体混合在一起时,混合LD就会出现。在随后的几代人中,每个人都有一定比例的祖先,这些祖先来源于每个原始贡献群体。Falush等人(2003)区分了这类群体中出现的三种不同规模的LD:(1)“混合LD”,由于个体间祖先比例的差异,甚至出现在未连锁标记之间;(2) “混合LD”,发生在同一染色体上的标记之间,如果它们经常从原始群体中的单个祖先染色体一起遗传;和(3)“背景LD”,发生在种群内非常短的距离内。虽然传统的关联作图利用背景LD并旨在检测表型和特定等位基因之间的关联,但混合作图使用混合LD检测祖先和表型之间过度相关的基因组区域。

混合作图的中心前提是,由于许多疾病在不同人群中的频率不同,因此有理由假设潜在的遗传风险变体在不同人群(哈尔德和施莱弗2003). 然而,应该指出,与种族或族裔相关的环境和社会因素在疾病病因中也可能很重要。因此,仅仅观察到疾病风险与血统相关并不立即保证风险等位基因频率存在潜在差异(Risch等人。2002). 尽管如此,对于许多疾病来说,风险等位基因的频率在祖先群体(哈尔德和施莱弗2003).

当风险等位基因频率不同人群之间存在差异,那么与对照组相比,最近混合患有特定疾病的个体可能在该疾病常见的人群中具有较高的总体祖先(Knowler等人。1988). 更重要的是,在疾病位点附近,受影响的个体从风险等位基因更为频繁的人群中遗传染色体的概率更高。混合映射旨在检测后一种信号,同时控制病例和对照之间祖先总体差异的可能性。

迄今为止,已提出了两种主要类型的外加剂绘图统计测试。一类测试使用家庭数据,例如来自父母/受影响的春季三人组的数据,并应用传递/不平衡测试(TDT)框架。这些测试筛选来自一个群体或另一个群体的染色体过度传递的位点或染色体区域(与标准TDT中特定等位基因的过度传递相反)(McKeigue1997郑和埃尔斯顿1999Lee和Yen2003). 另一类测试是由Paul McKeigue及其同事(McKeige)开发的,使用无关的受影响个体1998McKeigue等人。2000). 他们将他们的方法描述为测试“以亲本混合物为条件的关联”(McKeigue等人。1998第241页)。他们的方法旨在找到受影响个体的祖先相对于父母的估计祖先向祖先群体倾斜的位点。最近,Hoggart等人(2004)Patterson等人(2004)扩展了这些方法,使用隐马尔可夫模型(HMM)充分利用多点SNP数据检测信号(c.f.,McKeigue1998).

在本研究中,我们描述了一对新的混合映射测试统计量。就像Hoggart等人最近的方法一样(2004)Patterson等人(2004),我们的方法使用HMM来估计未观察到的染色体祖先,因此专门设计用于利用全基因组扫描中的多点信息。我们的方法是相对非参数的,从这个意义上说,该测试扫描基因组,寻找祖先比例总体偏斜的位置,而不是假设疾病位点外显率之间的特定关系。我们还提供了一种简单的基于模拟的方法来评估全基因组意义。

除了统计测试外,混合映射中另一个关键的突出问题是如何选择标记(Shriver等人。1997Smith等人。2001Collins-Schramm等人。2002Rosenberg等人。2003)以及需要什么样的标记密度来获取大多数关于祖先的信息(麦凯格1998McKeigue等人。2000Patterson等人。2004Smith等人。2004). 迄今为止,大多数讨论都集中在识别所谓的“祖先信息标记”(AIM)上。AIM是用于区分混合样本中的人群的异常信息标记(Pfaff等人。2001Smith等人。2004). 显然,如果使用随机标记,这样的标记可以成功地进行混合映射,并且基因型要比使用随机标记时所需的基因型少。然而,对于一些当前的基因分型技术(例如基于芯片的基因分样),使用标准的预定标记集可能比为新的标记集创建基因分型分析更容易。此外,必须为每一个新的贡献人口组合分别确定AIM。我们的结果表明,使用随机选择的标记进行混合映射是AIM映射的可行替代方案。

用于执行本文所述计算的软件可在普里查德实验室网站。

问题陈述

考虑以下问题。研究人员希望对不同祖先群体最近混合形成的种群进行混合映射。目标是识别导致特定疾病表型风险的遗传变异。研究人员收集了(1)混合人群中受影响个体的样本,(2)未受影响或随机对照个体的样本以及混合人群中的样本,以及(3)“学习样本”,其中包括来自每个祖先群体(或其近似值)的随机个体并用于估计祖先等位基因频率。如下文所述,最好但不要求同时具有控制和学习样本。所有样本个体的基因型均为跨越基因组的一组约1000–20000个标记位点。本研究的主要目的是描述如何有效利用这些数据来识别包含疾病易感基因的染色体区域。

模型和符号

我们的方法是基于Pritchard等人开发的用于研究混合种群的先前模型(2000)和Falush等人(2003)并在程序的链接模型中实现结构。我们首先假设K(K)为研究样本提供血统的不同人群。个体可能在多个群体中有祖先,我们将每个个体的“祖先”定义为该个体从每个群体遗传的基因组比例K(K)人口。个人的祖先由向量指定,q个()={q个()1,q个()2, …,q个()K(K)},其中q个()k个是个人祖先的比例来自人口k个以及在哪里方程式M1。我们将使用表示包含以下所有值的多维向量q个(i).

混合个体的基因组可以被视为由一系列染色体片段或“区块”组成,每个片段或“块”都是作为一个完整的单位从祖先群体中进化而来,没有重组(图1). 对于个人我,每个染色体块都来自人群k个有概率地独立q个()k个。假设从一个块到下一个块的断点发生在泊松过程中,其速率为第页根据摩根大通。因此,染色体块的平均大小为100/第页cM.注意第页可以大致解释为自混合后的平均时间(Falush et al。2003Patterson等人。2004).

保存图片、插图等的外部文件。对象名称为AJHGv75p771fg1.jpg

混合种群染色体镶嵌结构示意图。阴影和未阴影方框表示来自不同祖先群体的染色体片段。如果一个易感等位基因在阴影人群中的频率较高,那么受影响的个体将在该基因所在的阴影人群中增加祖先(垂直线). 我们的方法旨在检测这种类型的信号。

数据由沿着每条染色体的一系列标记组成;这些用来推断染色体块的隐藏模式。符号z(z)(,)表示起源种群(1…,K(K))的标记的第个副本个人i、。(这里,区分二倍体个体中标记的两个副本。)Z轴指包含以下所有值的多维向量z。

每个群体的特征是每个基因型标记的等位基因频率列表。P(P)表示包含每个群体中每个标记处的等位基因频率的多维载体。等位基因频率将提前未知,但通常会有来自原始人群的非服用代表样本来帮助估计。

如Falush等人所述(2003),我们使用马尔可夫链–蒙特卡罗从P、 Q、Z、,第页,共页,根据基因型数据十、。该算法已用于相控、非相控和部分相控数据,并能处理缺失数据和X染色体数据。后验均值估计P、 问:,第页将用表示方程式M2,方程式M3、和方程式M4分别是。

最后,我们可以定义一些后验平均量。我们使用方程式M5方程式M6分别表示受影响个体和对照组的估计平均祖先比例。例如,如果有d日案例,然后

方程式图像

请注意方程式M7是一个向量K(K)元素(以及以下数量)。接下来,让我们方程式M8表示个体的后平均祖先在轨迹我,评估时间:方程式M9,方程式M10、和方程式M11(参见附录A):

方程式图像

后验平均值z(z)在轨迹在案例和控制中,将表示为方程式M12方程式M13分别是。例如,

方程式图像

我们将参考方程式M14作为个体的“特定于地方的祖先”(位于基因座)、和方程式M15方程式M16将被称为“平均特定于当地的祖先”(位于).

请注意,在这些模型中K(K)种群通常是任意的。当存在预定义的学习样本时,可以使用这些样本将数字附加到总体样本上,但如果没有,则蒙特卡罗算法会随机分配一组标签。上述定义的平均数量旨在根据特定标签进行计算。请参阅Pritchard等人的文章(2000)和“讨论”部分以获得进一步的评论。

模拟详细信息

本研究中的结果基于Falush et al.所述联动模型下生成的模拟数据(2003)或使用下述Wright-Fisher型号。我们假设了两个等位基因标记,即两个祖先群体(K(K)=2),以及第页= 10. 血统比例q个()1为每个混合个体单独建模,我,作为具有参数(0.2,0.05)的正态分布随机变量;的值q个()1外部(0,1)被拒绝。一半的学习样本的祖先比例为(0,1),另一半的比例为(1,0)。的值第页以及q个被选择来近似非洲裔美国人的特征(例如,Parra等人。1998Falush等人。2003Patterson等人。2004).

对于连锁模型模拟,然后根据连锁模型模拟每个染色体上的祖先模式(Falush等人。2003),条件是q个().对于样本中的每条染色体,祖先状态z(z)(,)1第一个标记处的概率为0q个()0,否则,祖先状态为1。后续标记的祖先状态由

方程式图像

哪里d日表示与基因座的遗传距离到轨迹+1.

在两个模型下模拟了标记的群体等位基因频率。第一个模型用于生成具有预先指定的绝对值δ的AIM,δ是两个祖先群体中等位基因频率之间的差异。对于给出的结果,δ设置为0.5(Shriver等人。1997). 对于每个标记,第一个群体中一个等位基因的等位基因频率从范围[δ,1]或范围[0,1-δ]的均匀分布中提取,概率为0.5;设置第二群体中相同等位基因的频率,以保证距离δ。第二个模型通过一个简单的种群差异模型来模拟随机标记(Nicholson等人。2002Falush等人。2003). 在每个轨迹上,我,等位基因频率,P(P)A类根据[0.1,0.9]中的均匀分布得出假设的祖先种群;那么,条件是P(P)A类,每个群体的等位基因频率,k、,由带有参数的beta分布生成[fP公司A类,(f)(1-P(P)A类)],其中(f)与人口差异的一般度量有关,F类装货单,作为(f)=(1-F类装货单)/F类装货单.

此处显示的结果取其中之一F类装货单=0.1,这大致是不同大陆上人口差异的典型值,或者F类装货单=0.2,这代表了差异最大的人群。例如,在一个大型SNP数据集中,平均三向F类装货单非裔美国人、亚洲人和欧洲人之间的差距为0.12(Akey等人。2002). 在我们的模型下F类装货单=0.1,~1.4%的随机SNP符合AIM标准(即δ⩾0.5),8%符合F类装货单=0.2. 为了进行比较,Rosenberg等人(2003)报告称,在非洲裔美国人与欧洲裔美国人、非洲裔美国人和东亚人、以及欧洲裔美国人与东亚人的比较中,1.9%、4.6%和2.7%的SNP符合AIM条件(Akey等人。2002). 美洲原住民和欧洲人之间的差异(与拉美裔样本的绘图相关)似乎高于欧洲人和非洲人之间的差异。2002【补充信息】;Risch等人。2002)但目前比较这些人群的SNP数据很少。

生成了一些数据集来评估错误指定等位基因频率的影响。在这些模拟中,学习样本是用如上所述生成的一组等位基因频率来模拟的。然后,通过对以原始频率为中心的正常变量的等位基因频率进行重采样,获得混合个体的等位频率,SD为0.05。一次Z轴P(P)标记数据被模拟为从适当的等位基因频率分布中提取的二项式。

为了模拟替代模型下的数据,在模拟中的固定位置包括一个额外的疾病位点,但在分析之前从数据中删除。为了说明目的,我们假设了相对较大的影响:在两个人群中,高危等位基因的频率分别为0.01和0.60,三个基因型的外显率分别为0.050、0.175和0.700。下面,我们给出了一个更通用的框架来描述我们的方法的威力。

最后,我们使用Wright-Fisher模拟来模拟具有随机、未确知SNP的全基因组数据扫描。如上所述,模拟了两个亲本群体中的等位基因频率F类装货单=0.1,无后续突变。然后建立了一个新的第三群体,其中有30000人,他们的基因型根据群体1中的等位基因频率进行了模拟。接下来,我们以每代5%的速度模拟了从种群2到新种群的五代迁移。然后,在又进行了五代无基因流的随机交配后,从混合群体中抽取500例病例和500名对照。此外,根据父母群体等位基因频率模拟200名个体作为学习样本。我们模拟了23条染色体的数据,每条染色体有750个SNP,每个SNP之间的间隔为0.2 cM。我们假设了四个疾病位点,在人群1和人群2中,每个位点的高危等位基因频率分别为0.05和0.60。疾病位点与其他位点一起进行模拟,然后在分析之前从最终数据集中删除。疾病位点被认为是选择性中性的。在最后一代中模拟潜在病例个体,然后以概率5接受-n个,其中n个是该个体携带的低风险等位基因的数量。从混合人群中随机抽取对照组。

测量基因组中祖先的变异

如上所述,在“模型和符号“截面图中,混合个体的染色体可以被视为来自每个染色体的片段的马赛克。”K(K)贡献种群(图。(图11和2)。2). 为了进行混合映射,我们需要使用标记数据来重建染色体的镶嵌结构。

保存图片、插图等的外部文件。对象名称为AJHGv75p771fg2.jpg

数据沿单个染色体的条件独立结构。染色体由一系列片段组成,每个片段都来自一个贡献群体。这个z(z)s表示染色体上每个标记的起源群体;的顺序z(z)s构成具有跳跃率的马尔可夫链r.(右)。基因型数据(X(X)s) 是通过从适当的人群频率中随机抽取一个等位基因而产生的z(z)s.标记1和标记2之间的遗传图距离表示为d日1二倍体非相位数据的模型是类似的。

数字图3和44显示了分别使用AIM和随机标记重建单个个体特定于地方的祖先的示例(Falush等人。2003,2003b条Patterson等人。2004). 结果说明了这种方法的几个特点:(1)标记相对密集,对于阶段性和非阶段性数据来说,数据基本上是关于祖先的全部信息;(2) 正如预期的那样,对于低标记密度,非相位数据的推断质量低于相位数据,并且随机标记的推断质量也低于AIM;(3)不确定性P、 问:,第页相对较小,对Z轴(结果未显示)。

保存图片、插图等的外部文件。对象名称为AJHGv75p771fg3.jpg

使用AIM重建单个个体的特定于地方的祖先。顶部图显示了单个个体的“真实”模拟祖先(即个体是否有从群体1继承的0、1或2条染色体,作为染色体位置的函数)。下面的图显示了根据不同密度的标记数据以及有无已知单倍型阶段对该个体的后验平均值估计。这些数据是在假设混合时间比现在早10代的情况下模拟的。

保存图片、插图等的外部文件。对象名为AJHGv75p771fg4.jpg

使用平均值的随机SNP重建单个个体的特定于地方的祖先F类装货单在两个祖先种群之间=0.1。请参阅图例图3和“模拟详细信息“部分了解更多信息。

为了进一步探索标记密度对推断质量的影响,图5绘制了一系列场景下特定位置祖先估计的均方误差(MSE)。注意,使用AIM(δ=0.5),可以通过使用~1 SNP/cM获得相对准确的局部特异性祖先估计值;F类装货单祖先种群之间的SNP/cM为0.2,当F类装货单=0.1. 图中绘制的结果假定混合物发生在10代以前。相反,如果发生了外加剂(平均)t吨几代人以前,标记密度绘制在X(X)-轴需要乘以系数t吨/10.总之,对于像非裔美国人这样的人口,其混合的平均时间为~7~10代F类装货单≈0.1,~3000 AIMs或15000随机SNPs应允许准确估计人类基因组中的地方特异性祖先。

保存图片、插图等的外部文件。对象名称为AJHGv75p771fg5.jpg

作为标记密度函数的地方特异性祖先估计的准确性。这个X(X)-轴显示每个cM的SNP数量Y(Y)-轴显示了估算中的MSE方程式M43三条线对应一个平均值F类装货单在0.1的祖先种群之间(顶线)和0.2(中线)δ=0.5的AIM(底线). 这些数据被视为不分阶段的。零密度时的值显示MSEq个(i)已知,但没有关于Z轴在感兴趣的地方。这些数据是在假设混合时间比现在早10代的情况下模拟的,平均值为q个()=0.2(参见“模拟详细信息”部分了解详细信息)。

在计算了样本中每个个体的特定位置祖先之后,我们可以绘制样本中的平均祖先作为基因组位置的函数(图6). 请注意,在大多数地区,病例和对照组的平均祖先在平均全基因组祖先周围随机波动。疾病突变位置附近(图6,垂直虚线),病例的祖先向风险变异更常见的人群猛增(图6,顶部面板)。控件显示该位置没有尖峰(图6,中间面板),因此如果我们计算病例的平均血统减去每个位置上对照组的平均血缘,这也显示了疾病突变位置的向上峰值(图6,底部面板)。在这个例子中,标记密度相对较低(1 AIM/2 cM),因此在估计平均祖先的随机变异时存在中度误差。尽管如此,该方法清楚地检测到了异常轨迹。

保存图片、插图等的外部文件。对象名称为AJHGv75p771fg6.jpg

样本中的平均祖先图,作为染色体位置的函数。灰色线表示真实值,黑色线表示案例的估计平均值(顶部),控件(中间的)以及平均值的差异(底部). 垂直虚线表示模拟疾病基因的位置。参数:800个病例,800个对照,200个学习样本,500个AIM,间隔2 cM。

测试统计信息

图6表明数据中有两种类型的信号可以指示疾病变体的存在。首先,在疾病位点附近,病例的局部平均祖先应该与病例的全基因组平均祖先不同。为了测量这个信号,我们定义了以下测试统计量(T型1),只使用案例来测试基因座的祖先关联:

方程式图像

其中SD(x个)表示随机变量的SD,x、,在零假设下。方程式的分子(5)计算人口中祖先比例的差异k个在轨迹以及群体祖先的总基因组比例k、。

第二种信号是,在疾病位点附近,病例的局部平均祖先也应该与对照的局部平均后代不同。该信号由病例对照试验统计数据捕获(T型2):

方程式图像

术语方程式M17测量病例和对照之间血统的局部差异。总的来说,分子测试这是否与病例和对照组之间祖先的基因组平均差异不同方程式M18因此,该测试纠正了病例和对照可能具有不同平均祖先比例的可能性(通常称为“人口分层”)。确实,可以预期方程式M19如果潜在风险变异体在不同祖先群体中的频率不同。

当只有两个总体时,这些测试统计数据是针对一个总体还是另一个总体进行计算并不重要;只有测试统计的符号会改变。如果有两个以上的祖先种群,那么可以针对每个祖先种群分别计算测试统计数据。对于这两个测试统计数据,我们处理P(P)第页就好像他们是无误的。在模拟(未显示)中,我们发现P(P)第页往往很小,而且方程式M20是由于标记数据中的信息有限。测试2在概念上与Patterson等人最近研究中提出的“病例对照”测试相似(2004).

这两个测试统计量都是以这样一种方式构建的,即我们可以期望它们在零假设下作为标准正态分布(这通过下面描述的模拟得到了证实)。虽然我们可能经常有一个先前的假设,即疾病位点会在疾病常见的人群中产生过多的祖先,但假设一种多因素疾病全部的疾病位点将在这个方向上产生过度。也就是说,我们将对方程式M21高于和低于预期;因此,我们将这些测试视为双面测试。

下一个问题是如何计算方程分母中的SD项(5)和(6). 如果标记数据是关于祖先的完美信息,那么,因为我们假设已知,计算方程式M22方程式M23(这些差异将是方程式M24,其中n个是案例数[英寸T型1]或案例加控件T型2].) 然而,标记数据通常会对祖先留下一些模糊性,这使得真正的方差小于用完美信息获得的方差。因此,插入在完美信息假设下计算的方差是保守的。(注意,在非参数连锁映射中也出现了类似的问题[Kruglyak等人。1996孔和考克斯1997])

相反,我们的解决方案是通过参数自举方法估计适当的SD。具体来说,我们用估计值重新计算标记数据方程式M25,方程式M26、和方程式M27在零假设下。对于实际数据,每个模拟数据集都是通过前向后退算法的一次迭代来运行的,如中所述附录A,以获得的后验平均值

方程式图像

前向-后向算法的每次迭代都很快,因此在计算上便于进行多次重复模拟。从这些数据中,我们得到了方程式M28方程式M29然后插入到方程中(5)和(6). 根据基因组中不同位置的信息量,估计的标准差随标记的不同而不同,并且在0(没有关于祖先的信息)和标准差(对于全信息情况)之间有界。我们指出,作为正态近似的替代方法,可以通过蒙特卡罗模拟计算两种试验的经验分布,以及相应的经验分布P(P)值可以用于假设检验。然而,如下图所示,正态近似结果非常准确,因此使用经验分布似乎没有什么好处。最后,如下文所述,这种参数自举方法还为评估数据中最大信号的全基因组重要性提供了一种方便的方法。

我们在这里提出的统计检验是相对非参数的。这些测试旨在寻找平均血统中与正常背景变异有显著差异的区域。该方法不同于其他研究人员最近采用的参数化方法(Hoggart等人。2004Patterson等人。2004),其隐含地或明确地假设在未观察到的疾病位点处的特定遗传模型。当假设模型正确时,参数化方法通常会更有效,但如果遗传模型错误,则可能会表现糟糕。在关联映射中也出现了类似的问题;我们的方法有点类似于非参数链接方法,该方法只是测试受影响个体之间共享的增加(例如,Kruglyak等人。1996).

测试统计数据的分布

我们进行了一系列仿真,以评估我们提出的测试的有效性和威力。图7显示了针对中显示的相同数据的仅病例和病例对照测试统计的示例图6正如预期的那样,这两个测试统计数据在该地区的大部分地区都在−2和2之间(即正态分布的中心95%)。在疾病部位,两种测试都显示出非常显著的信号。

保存图片、插图等的外部文件。对象名称为AJHGv75p771fg7.jpg

作为染色体位置函数的测试统计值图。灰色线条图T型1(仅适用于案例)和黑线图T型2(病例与对照)。垂直虚线表示疾病基因的位置。与典型情况一样,当使用仅案例测试时,本例中的信号更大。基因型数据与图6.

此外,我们通过在上述模型下模拟许多数据集,检查了测试统计数据是否遵循正确的分布。图8显示了零模型和替代模型下仅病例和病例对照测试统计的分布。在零模型下,两个测试都显示出对正态分布的良好拟合。在替代模型下,两种分布都大大偏离了零。请注意,在这个示例中,仅案例测试比案例控制测试强大得多。如下文所述,尽管我们认为病例对照试验可能对模型错误指定更为稳健(参见“讨论“部分)。

保存图片、插图等的外部文件。对象名称为AJHGv75p771fg8.jpg

仅针对案例的零假设和替代假设下测试统计的模拟分布(黑线)和病例对照(灰色线条)战略。虚线表示理论正常密度。参数:100个AIM,间距为2 cM,350个病例,350个对照。请参阅“模拟详细信息”部分了解有关模拟的更多详细信息。

我们还进行了模拟,以评估在祖先群体中错误指定等位基因频率是否会增加1型错误率(参见“模拟详细信息“第节)。这些模拟是为了模拟祖先人口中存在精细规模人口结构的情况(例如,在西非人中进行非裔美国人的混合映射)。在这种情况下,用于估计祖先群体等位基因频率的学习样本可能不是祖先群体的理想代表。对于我们使用的参数,结果与在正确模型下获得的结果无法区分,如图8(结果未显示)。这似乎是因为大多数关于地方特异性祖先的信息都来自许多标记,所以这种类型的随机错误往往会被抵消。在使用低密度标记图进行的研究中,我们会更加关注错误指定的等位基因频率的影响。Patterson等人(2004)建议通过删除峰值中最显著的标记,可以测试信号是否过度依赖于一个异常位点。这似乎是对数据质量的明智测试,尤其是在稀疏地图中。

全基因组意义

到目前为止,我们已经讨论了如何在基因组的某一点上评估祖先关联信号的重要性。但是,对于全基因组扫描,最常见的是报告最高峰值,因此需要一种评估这些峰值的全基因组显著性的方法,该方法考虑到已执行的大量统计测试。

测试统计值的“全基因组显著性”,t处,定义如下。假设在没有任何真实信号的情况下重复基因组扫描实验,并且基因组中任何地方测试统计的最大绝对值为t吨*.基因的全基因组意义t吨定义为以下概率|t吨*|⩾|t吨|.

连锁分析中多重测试的传统方法应用分析理论预测基因组扫描中最大信号超过某一值的概率(例如,兰德和克鲁格利克1995). 这种理论似乎可以推广到目前的情况。或者,多重测试的假发现率方法对测试之间的依赖性很强,并可能为混合物绘图提供一种方便的替代解决方案(Sabatti等人。2003埃夫隆2004). 然而,我们迄今为止开发的方法将模拟方法用于多个测试,如下所示。

使用我们上面描述的参数自举方法,我们可以直接估计信号的全基因组显著性。也就是说,给定的每个复制模拟方程式M30,方程式M31、和方程式M32,使用适当的标记间距和标记信息量值模拟基因组扫描。对于每个模拟,我们可以简单地记录最大绝对值,t吨*,从而获得每个信号的经验分布,t处,可以进行比较(请参见图9). 因此,该程序为多次测试提供了校正,没有超出所有单点测试所需的额外模拟。

保存图片、插图等的外部文件。对象名称为AJHGv75p771fg9.jpg

测试统计量最大极值的重复模拟分布T型1在一个400-cM的区域,没有疾病位点。这种模拟分布可用于量化数据集中观测到的最极端信号的经验全基因组显著性。

全基因组扫描的模拟

如“模拟详细信息”部分,我们还使用Wright Fisher模拟在一个更现实的连续混合模型下生成数据,该模型在五代人的时间内(随后是五代人的随机交配)。我们在23条染色体的基因组上模拟了约17000个标记,标记间距为0.2 cM。这些标记是随机确定的F类装货单=0.1。

图10显示了这些数据的测试结果。这两种测试都清楚地找出了四个“真正”的疾病位点(但请注意,这些假定的效应大小相对较大)。全基因组显著性的阈值约为±4。除了四个真实信号外,没有任何区域达到全基因组显著性,尽管使用仅病例检测时有两个位点接近-4。(对于这些图,我们使用了全基因组的中位数方程式M33,代替方程M34,在计算方程式中[5]和[6],因为这四个“真”基因座在估计的q个d日

保存图片、插图等的外部文件。对象名称为AJHGv75p771fg10.jpg

500个病例和500个对照的模拟基因组扫描的图谱结果,有四个真正的疾病基因座。上部和下部图分别显示了仅病例和病例对照试验的结果。每个图上的四个大的向上峰值对应于四个模拟疾病位点;对于基因组的大多数剩余部分,测试统计数据位于±1.96的虚线内,对应于中心95%的零分布。

然而,在额外的Wright-Fisher模拟中,我们在混合人群中使用了较小的人群规模,我们发现仅病例测试有反保守的趋势(结果未显示)。这似乎是混合种群遗传漂变的结果。即使是极少量的遗传漂变也会在模型未考虑的测试统计数据中产生一些额外的方差。由于病例和对照都同样受到漂移的影响,病例对照试验仍然相当稳健。实际上,这种影响可能很重要,除非混合人口在其历史上一直很庞大。

混合映射的力量与联系和联想的力量相比

本节描述了在有关于祖先的完美信息的情况下,拟议测试的理论性能。我们将这些混合物测试的性能与相似理想条件下的链接和关联映射性能进行了比较。

理论

考虑一个具有等位基因的疾病易感性位点A类导致不同程度的疾病风险。第页1是的频率A类群体1中的等位基因第页2是的频率A类在人口2中。假设混合种群中所有抽样个体的祖先都是种群1的一小部分(q个1)和他们祖先中的一小部分来自人口2(q个2=1-q个1). 此外,我们假设标记数据完全是关于疾病位点祖先的信息,并且q个1已知;因此,我们的计算将代表在实践中可以实现的功率上限。

在这些条件下(即。,q个1所有个体的常数和信息量非常丰富的标记数据),我们提出的两个测试可以更简单地改写为

方程式图像

方程式图像

哪里方程式M35是病例染色体的样本比例(和方程式M36是控制染色体的样本比例),来源于群体1的特定位点,其中d日c(c)分别是病例和对照个体的总数。表达式右侧的平方根项(7)和(8)是的SD的倒数方程式M37方程式M38分别在零假设下。在零假设下,两个检验都是渐近正态的,平均值为0,方差为1。

为了研究测试性能A类等位基因赋予不同的风险,我们假设疾病风险的乘法模型。在这个模型中,具有基因型的个体AA、AA,美国患有概率为γ的疾病2(f), γ(f)、和(f)分别是。为了简单起见,我们假设对照个体是根据表型随机抽样的。

现在,让我们q个*1表示来自病例个体的染色体在疾病位点来自群体1的概率。我们的测试旨在检测q个*1q个1经过一些代数运算,可以证明

方程式图像

哪里方程式M39是的总频率A类在混合人群中。在乘法模型下,受影响个体中两条染色体的起源种群是独立的。如预期,如果第页1=第页2,如果γ=1,或如果q个1=0或1,则q个*1=q个1在这种情况下,疾病位点不产生信号。在替代假设下,这两个检验是渐近正态的,平均值和方差如下:

方程式图像

方程式图像

请注意,对于d日=c(c),测试统计的期望值T型2小于T型1乘以方程式M40,尽管有两倍多的个体进行基因分型。

我们将报告以概率β实现双侧显著性水平α所需的样本量的功率。为此,我们解决方程式M41对于d日c(c)(其中T型代表任一种T型1T型2)(Risch和Merikangas1996). 所需样本量是第页1,第页2,q个1和γ。

表1,我们报告了实现β=80%功率所需的样本量(Z轴0.8=0.84)P(P)α值=2.5×10-5(Z轴2.5×10-5=4.06). 这个P(P)通过假设我们的目标是在双边测试中达到0.05水平的全基因组显著性,并假设基因组包含~1000个独立测试(即混合测试之间的相关性在~3 cM的距离上衰减),得出了该值。中报告的结果表1不要考虑某些基因分型工作也可能花费在学习样本上的可能性。

表1

混合映射与关联关联分析的功效比较[注]

外加剂映射
关联和链接
样品尺寸要求
样品尺寸要求
等位基因具有第页1第页2q个1测试1测试2第页协会联动装置
γ=4.0
.0560第8条65251.055121,070
.05.30第8条236924第10条298552
.0560.2152644.30179479
.05.30.23871,593602371,414
γ=2.0
.0560第8条3471,362.052,60446756个
.05.30第8条1,4835,873第10条1,43016,169
.0560.25262,155.307156,073
.05.30.21,8347,4206077110,367

注:-在全基因组研究中达到80%功效所需的样本量(个体总数)。对于混合映射,模型由子群体风险等位基因频率参数化第页1第页2和外加剂比例q个1和1-q个1对于连锁和关联,我们假设一个单一的非混合人群具有风险等位基因频率第页。因此,表的左侧和右侧并不完全可比,但它们确实允许在这些不同类型的映射策略下,对检测γ=2.0和γ=4.0的等位基因的能力进行松散的比较。结果显示所需病例数加上对照;连锁列报告了所需sib对数量的两倍。如文中所述,全基因组显著性所需的显著性水平对于连锁来说是最低的,对于关联来说是最高的。如果出现以下情况,则外加剂试验无效第页1=第页2.

表1此外,还比较了混合映射的功效与利用受影响同胞对进行连锁研究的功效,以及非用药人群关联的病例对照研究。我们的计算遵循Risch和Merikangas的计算(1996). 对于所有三个研究设计,我们假设相同的潜在疾病模型。连锁计算假定标记数据是关于遗传的完整信息。关联计算假设该区域中只有一个影响敏感性的变异,并且该变异是基因型的。跟随Risch和Merikangas(1996),我们需要在P(P)=10-4用于悬挂机构和P(P)=5×10-8用于关联。此处给出的联动结果纠正了Risch和Merikangas最初研究中的计算错误(1996)(见Risch和Merikangas1997). 病例对照研究所需的病例数加上随机对照,以在泛发人群中获得合适的功率约为(Z轴α+Z轴β)2(第页*+第页)(2)-第页*-第页)(第页*-第页)-2/4,其中第页是风险等位基因的频率,第页*=第页γ(第页γ+1-第页)-1是病例中风险等位基因的频率,以及Z轴α=5.45.

预测力及其与关联和关联的比较

表1描述了四种研究设计在理想条件下的功效:(1)病例-纯混合映射,(2)病例-对照混合映射,以及两种非管理人群的标准方法,即(3)使用同胞对的连锁映射和(4)病例-控制关联。这些分析的一个结果是,病例对照试验的效力总是低于仅病例试验,需要多出约4倍的个体才能达到同等效力。这是因为只有病例的测试比较了本地血统比例(适度可变)和基因组平均血统(相当准确),而病例对照测试比较了两个本地血统的比例,两者都是可变的。

然而,当存在遗传漂移或选择,或者当群体等位基因频率没有得到很好的估计时,病例对照测试更为稳健。因此,似乎将基因分型成本降至最低的一个明智的折衷方案是仅使用病例筛选基因组,然后也使用对照个体检查有希望信号的区域。

研究设计之间的功率比较不太简单,因为不同的研究类型在其基本假设以及基因分型和样本收集的成本和可行性方面都不同。首先,只有当祖先群体之间的疾病易感性频率存在显著差异时,混合映射才有效;对于许多疾病来说,这种基因的存在似乎相当合理,但目前尚未得到证实。当存在影响易感性的单一变体时,关联映射表现良好,但对于具有多个变体的基因,关联映射可能表现不佳。此外,目前大多数关联映射计划旨在对标记物的一个子集进行基因分型,并通过LD检测致病变异,这将进一步降低理论最大值的功率。

其次,这些研究所需的基因分型数量从~10~10的全基因组连锁扫描标记4混合物映射至~10的标记6中等完整全基因组关联扫描的标记。利用目前可用的基因分型技术,混合作图已经在中等规模的研究中触手可及,而全基因组关联仍然过于昂贵,无法进行常规研究。

撇开这些警告不谈,跨研究类型进行比较仍然很有趣。正如Risch和Merikangas指出的那样(1996)如所示表1在理想条件下,关联映射比链接强大得多。当人群疾病易感性频率差异很大时,混合映射与关联映射具有相同的优势统计特性,并且可以大大优于关联映射。

一般来说,人们可能认为混合映射在单点测试中的功效低于关联映射,因为通常情况下,血统只提供了关于潜在疾病突变是否存在的不完整信息;相反,对于这些计算,我们假设在关联映射中,实际的疾病标记是类型化的。事实上,我们的测试2(病例与对照组)的功率始终低于关联映射,但对于某些参数组合,我们的检测1(仅病例)实际上可以比全基因组扫描中的关联表现更好。测试1具有将每个基因座的病例祖先与平均的病例血统,可以非常准确地估计,而测试2和关联映射都寻找两个估计频率之间的差异(分别在病例和对照组中)。此外,混合映射中的多重测试代价比关联映射中的小得多。

总之,对于频率在不同人群中差异很大的疾病等位基因,混合映射比连锁映射更强大,并且可以具有与关联映射相当的能力。然而,混合映射几乎没有能力或根本没有能力找到频率在人群中相对一致的疾病等位基因。混合映射所需的基因分型工作略高于连锁映射所需,远低于关联映射所需。

讨论

在这项研究中,我们描述了两种检测混合人群中“祖先关联”的测试。仅病例检测,在较小程度上,病例对照检测可以以很小的成本提供全基因组关联图谱的大部分力量。这些测试可能比广泛使用的连锁分析受影响同胞对研究设计强大得多。

当然,混合映射的警告是,只有当潜在风险变量在原始人群中的频率显著不同时,该方法才能很好地工作。在撰写本文时,没有足够的数据来了解这种情况发生的频率。然而,对于许多疾病来说,风险等位基因频率的人群差异似乎是一个合理的工作假设,这些疾病的流行率在不同种族之间差异很大。通过检测表型状态是否与血统相关,可以获得额外的初步证据在内部混合组,就像前列腺癌的情况一样(Kittles等人。2002). 无论如何,现在人类遗传学界对混合图谱有很大兴趣,很快就会有硬数据开始解决这个问题。

正如我们在这里所展示的,仅病例研究设计远比病例对照设计强大。这就提出了一个问题,即收集和基因分型控制是否有意义。尽管模型表明,使用控制没有任何好处,但实际上,我们认为控制提供了一个重要的检查,以确保测试在有信号的区域正确执行。特别是,显示病例和对照之间的差异有助于排除错误指定的等位基因频率产生信号的可能性,或者血统的改变是由于其他一些因素,例如自然选择或遗传漂变。我们的模拟表明,只有病例检测可能对遗传漂变异常敏感,除非混合人群相当大。控制也有助于提高只有病例检测中的等位基因频率估计值。一种经济的基因分型策略可能是只在病例显示信号的区域对对照进行分型,再加上足够的额外标记物来准确估计对照的祖先。

混合作图的一个重要问题是决定基因型有多少标记以及选择哪些标记。Smith等人(2004)开发了一个包含约3000个异常信息丰富的标记的SNP图,用于非裔美国人样本。当然,这将是该种群混合映射的重要资源,但我们希望指出,在其他尚未获得此类资源的混合种群中,混合映射已经是可行的。在混合人群中F类装货单⩾0.1在祖先群体之间,只有10000–15000个随机SNP可以捕获有关特定于地方的祖先的大部分信息。对这么多标记进行基因分型的成本越来越合理。

我们在本研究中没有考虑微卫星,因为高通量SNP基因分型似乎比微卫星基因分型更广泛。然而,在祖先估计方面,微卫星往往比SNP提供更多信息(Rosenberg等人。2003)因此,在某些情况下,这可能是一种明智的研究方法,特别是在非模式生物的混合和杂交研究中(例如,Rieseberg等人。1999)高密度SNP图可能不可用。

虽然我们在这里关注的是离散的二元性状,但我们的一般框架也可以以自然的方式处理数量性状。假设x个是个体的特质价值还有那个方程式M42是的平均值x个穿过抽样个体。那么一个测试统计数据是

方程式图像

这个检验也是渐近正态的,而且,分布的正尾和负尾都可能引起人们的兴趣。

与连锁分析一样,混合映射峰的位置克隆通常会在整个区域进行密集的标记关联映射。外加剂映射峰通常比连锁峰窄得多,这表明精细映射应该更容易。关于混合种群中精细映射的一个似是而非的担忧是,如上所述,混合LD可以在此类种群中延伸很长的距离。这是否意味着很难定位突变?事实上,至少对非裔美国人来说,短程LD的强度与非洲人非常相似(Gabriel等人。2002). 因此,至少在非裔美国人中,进行精细制图似乎没有问题。短尺度和长尺度下LD之间的明显差异可能是因为背景LD在短距离非常强,但衰减非常快,而混合LD在所有距离都相对较弱,但衰减缓慢。在非裔美国人中,混合LD对短距离总LD的贡献很小,但在没有背景LD的cM距离产生可测量LD。然而,由于血统的差异,混合人群中的关联测试可能会出现假阳性。因此,重要的是使用能够控制这种效果的方法(例如,Pritchard等人。2000b条Hoggart等人。2003).

我们现在谈谈与我们的方法有关的技术问题。Hoggart等人(2003)批评了Pritchard等人早期的研究(2000b条)用于使用类似于此处使用的两阶段测试,其中祖先根据程序进行估计结构被“插入”到关联测试中。他们的第一个批评是,这种程序没有考虑到祖先估计的不确定性。其次,他们担心,在缺乏学习样本的情况下,人口标签无法识别。不可识别性意味着,至少在理论上,标签可能会在马尔可夫链运行期间切换,在这种情况下,平均祖先估计值将没有意义。尽管这些担忧在理论上是合理的,但这里给出了混合绘图测试的广泛模拟,以及STRAT测试的模拟(Pritchard等人。2000b条),表明,在实践中,统计检验确实在零假设下得到了正确的校准。此外,我们对该项目有丰富的经验结构我们发现,在实践中,信息数据集不需要考虑标签切换。此外,两阶段工艺还有一些实际优势。首先,两阶段过程使输出更加透明,对最终用户来说更容易理解。其次,它让用户更容易进行祖先估计,并开发适合自己数据的其他关联测试(例如,Thornsberry等人。2001).

总之,我们提出了在混合种群中检测祖先关联的强大多点方法。现在,人类可以获得密集的全基因组SNP面板,SNP基因分型成本也变得越来越合理,我们相信混合映射将为复杂性状的分离做出重要贡献。

致谢

我们感谢同事Daniel Falush和Matthew Stephens,他们帮助创建了结构此处使用;诺亚·罗森伯格,进行了有益的讨论;还有两位匿名审稿人,因为他们仔细阅读了手稿。这项工作得到了美国国立卫生研究院的支持(向J.K.P.授予GR 2772)。

附录A:HMM

为了计算外加剂映射试验统计数据,参数估计P、 问:,第页来自结构在联动模型下。马尔可夫链隐状态的估计Z轴然后根据下面定义的概率,使用Baum-Welch算法对每个个体独立执行。这些计算与Falush et al(2003),但这里的目标是计算每个轨迹的边际后验分配概率,而不是从联合后验分布中抽取单个实现。

对于每个个体的每个染色体,我们将正向概率定义为β1克=公共关系(x个1, …,x个,z(z)=k个|P(P),第页,)后向概率为α1克=公共关系(x个+1, …,x个L(左)|z(z)=k个,P(P),第页,),为所有状态定义k个以及从1到L。因此β1克α1克=公共关系(x个1, …,x个L(左),z(z)=k个|P(P),第页,),可能性可以计算为

方程式图像

对于每个给定的l、。此处使用的算法与在链接模型下实现的算法略有不同结构,因为这里的兴趣在于计算条件概率,

方程式图像

对于所有基因座和所有人口k、。我们首先提供完整相位信息情况下的算法细节。回顾方程式

方程式图像

定义马尔可夫链的转移概率(等式[4])还有那个第页吉尔吉斯斯坦是等位基因的频率j个在轨迹在人口中k、,我们发现了

方程式图像

对于k个=1, …,K(K),和β(+1)k个由β递归获得1克作为

方程式图像

β的计算1克对于=1, …,L(左)k个=1, …,K(K)允许我们获得向前的概率。从α开始Lk公司=1,则向后概率计算为

方程式图像

对于=L(左)-1、…、1和k个=1, …,K(K).

当相位信息缺失或仅部分已知时,前向概率需要表示为

方程式图像

其中上标(1)指第一个等位基因拷贝和上标(2)指每个基因座的第二个等位基因拷贝。类似地,每个轨迹的后向概率变为

方程式图像

两个等位基因拷贝中祖先状态的联合条件概率为

方程式图像

该算法既适用于全相位数据,也适用于非相位数据。b条表示相邻基因座的第一个等位基因的概率+1位于同一染色体上。对于非相位数据,等位基因拷贝的顺序是随机的,因此b条设置为0.5。在这种情况下,我们得到第一个轨迹的正向概率为

方程式图像

对于k个1=1, …,K(K)k个2=1, …,K(K),然后将完全正向递归计算为

方程式图像

至于向后概率,我们得到α1克1k个2=1和

方程式图像

该算法的实际实现稍微复杂一些,因为我们在前进和后退步骤中定期重新调整概率,以避免数值下溢。

电子数据库信息

此处提供的数据的URL如下:

Pritchard实验室网站,http://pritch.bsd.uchicago.edu

工具书类

Akey JM,Zhang G,Zhang-K,Jin L,Shriver MD(2002)《查询高密度SNP图以获取自然选择特征》。基因组研究12:1805–1814 10.1101/gr.631202[PMC免费文章][公共医学] [交叉参考][谷歌学者]
Chakraborty R,Weiss KM(1988)混合作为一种工具,用于发现连锁基因并检测基因座之间的等位关联差异。美国国家科学院院刊85:9119–9123[PMC免费文章][公共医学][谷歌学者]
Collins-Schramm HE、Phillips CM、Operario DJ、Lee JS、Weber JL、Hanson RL、Knowler WC、Cooper R、Li H、Seldin MF(2002)《用于混合连锁不平衡绘图的种族差异标记》。美国人类遗传学杂志70:737–750[PMC免费文章][公共医学][谷歌学者]
Efron B(2004)大尺度同时假设检验:无效假设的选择。美国统计协会杂志99:96–104[谷歌学者]
Falush D、Stephens M、Pritchard JK(2003))种群结构推断:连锁位点和相关等位基因频率的延伸。遗传学164:1567–1587[PMC免费文章][公共医学][谷歌学者]
Falush D、Wirth T、Linz B、Pritchard JK、Stephens M、Kidd M、Blaser MJ、Graham DY、Vacher S、Perez-Perez GI、Yamaoka Y、Megraud F、Otto K、Reichard U、Katzowitsch E、Wang XY、Achtman M、Suerbaum S(2003)b条)人类迁徙痕迹幽门螺杆菌人口。科学299:1582–1585 10.1126/Science.1080857[公共医学] [交叉参考][谷歌学者]
Gabriel SB、Schaffner SF、Nguyen H、Moore JM、Roy J、Blumenstiel B、Higgins J、DeFelice M、Lochner A、Faggart M、Liu Cordero SN、Rotimi C、Adeyemo A、Cooper R、Ward R、Lander ES、Daly MJ、Altshuler D(2002)人类基因组中单倍型块的结构。科学296:2225–2229 10.1126/Science.1069424[公共医学] [交叉参考][谷歌学者]
Halder I,Shriver MD(2003)测量和使用混合物研究复杂疾病的遗传学。人类基因组学1:52–62[PMC免费文章][公共医学][谷歌学者]
Hoggart CJ、Parra EJ、Shriver MD、Bonilla C、Kittles RA、Clayton DG、McKeigue PM(2003)分层人群中遗传关联混淆的控制。美国人类遗传学杂志72:1492–1504[PMC免费文章][公共医学][谷歌学者]
Hoggart CJ、Shriver MD、Kittles RA、Clayton DG、McKeigue PM(2004)混合绘图研究的设计和分析。《美国人类遗传学杂志》74:965–978[PMC免费文章][公共医学][谷歌学者]
Kittles RA、Chen WD、Panguluri RK、Ahaghotu C、Jackson A、Adebamowo CA、Griffin R、Williams T、Ukoli F、Adams-Campbell L、Kwagyan J、Isaacs W、Freeman V、Dunston GM(2002)《非裔美国人的CYP3A4-V与前列腺癌:因人口分层导致的因果关系还是混杂关系?人类基因110:553–560 10.1007/s00439-002-0731-5[公共医学] [交叉参考][谷歌学者]
Knowler WC、Williams RC、Pettitt DJ、Steinberg AG(1988)Gm3-5、13、14和2型糖尿病蜂窝织炎——美国印第安人与遗传混合的关联。美国人类遗传学杂志43:520–526[PMC免费文章][公共医学][谷歌学者]
Kong A,Cox NJ(1997),等位基因共享模型:LOD评分和精确连锁测试。《美国人类遗传学杂志》61:1179–1188[PMC免费文章][公共医学][谷歌学者]
Kruglyak L(1999)常见疾病基因全基因组连锁不平衡定位的前景。《自然遗传学》22:139–144 10.1038/9642[公共医学] [交叉参考][谷歌学者]
Kruglyak L、Daly MJ、Reeve-Daly MP、Lander ES(1996)《参数和非参数联动分析:统一的多点方法》。《美国人类遗传学杂志》58:1347–1363[PMC免费文章][公共医学][谷歌学者]
Lander E,Kruglyak L(1995)《复杂性状的遗传解剖:解释和报告连锁结果的指南》。《自然遗传学》11:241–247 10.1038/ng1195-241[公共医学] [交叉参考][谷歌学者]
Lee WC,Yen YC(2003)《使用区间传递/不平衡测试的混合物映射》。Ann Hum基因67:580–588 10.1046/j.1529-8817.2003.00052.x[公共医学] [交叉参考][谷歌学者]
McKeigue PM(1997)在最近混合的人群中通过连锁不平衡绘制疾病风险的潜在种族差异基因。《美国人类遗传学杂志》60:188–196[PMC免费文章][公共医学][谷歌学者]
———(1998年)绘制疾病风险中种族差异的基因:通过父母混合的条件来检测混合人群中的联系的方法。《美国人类遗传学杂志》63:241–251[PMC免费文章][公共医学][谷歌学者]
McKeigue PM、Carpenter JR、Parra EJ、Shriver MD(2000年)《用贝叶斯方法估计混合种群中的混合和检测连锁:应用于非洲裔美国人》。Ann Hum基因64:171–186 10.1046/j.1469-1809.2000.6420171.x[公共医学] [交叉参考][谷歌学者]
Nicholson G、Smith AV、Jónsson F、Güstafsson O、Stefansson K、Donnelly P(2002)《从单核苷酸多态性数据评估群体分化和分离》。J R Stat Soc【B系列】64:695–715[谷歌学者]
Parra EJ、Marcini A、Akey J、Martinson J、Batzer MA、Cooper R、Forrester T、Allison DB、Deka R、Ferrell RE、Shriver MD(1998)《利用人群特异性等位基因估算非裔美国人混合比例》。《美国人类遗传学杂志》63:1839–1851[PMC免费文章][公共医学][谷歌学者]
Patterson N、Hattangadi N、Lane B、Lohmueller KE、Hafler DA、Oksenberg JR、Hauser SL、Smith MW、O'Brien SJ、Altshuler D、Daly MJ、Reich D(2004)《疾病基因高密度混合映射方法》。美国人类遗传学杂志74:979–1000[PMC免费文章][公共医学][谷歌学者]
Pfaff CL、Parra EJ、Bonilla C、Hiester K、McKeigue PM、Kambow MI、Hutchinson RG、Ferrell RE、Boerwinkle E、Shriver MD(2001)混合种群中的种群结构:混合动力学对连锁不平衡模式的影响。美国人类遗传学杂志68:198–207[PMC免费文章][公共医学][谷歌学者]
Pritchard JK、Stephens M、Donnelly P(2000))利用多点基因型数据推断种群结构。遗传学155:945–959[PMC免费文章][公共医学][谷歌学者]
Pritchard JK、Stephens M、Rosenberg NA、Donnelly P(2000)b条)结构化人群中的关联映射。《美国人类遗传学杂志》67:170–181[PMC免费文章][公共医学][谷歌学者]
Rieseberg LH、Whitton J、Gardner K(1999)《杂交区和两种向日葵之间基因流动障碍的遗传结构》。遗传学152:713–727[PMC免费文章][公共医学][谷歌学者]
Risch N,Burchard E,Ziv E,Tang H(2002)《生物医学研究中的人类分类:基因、种族和疾病》。基因组生物学3:评论2007[PMC免费文章][公共医学][谷歌学者]
Risch N,Merikangas K(1996)复杂人类疾病遗传研究的未来。科学273:1516–1517[公共医学][谷歌学者]
———(1997)复杂疾病的遗传分析:反应。科学275:1329–1330[公共医学][谷歌学者]
Rosenberg NA、Pritchard JK、Weber JL、Cann HM、Kidd KK、Zhivotovsky LA、Feldman MW(2002),人类种群的遗传结构。科学298:2381–2385 10.1126/科学1078311[公共医学] [交叉参考][谷歌学者]
———(2003)对“人类种群的遗传结构”评论的回应。科学300:1877[公共医学][谷歌学者]
Sabati C,Service S,Freimer N(2003)复杂疾病连锁和关联基因组筛查中的错误发现率。遗传学164:829–833[PMC免费文章][公共医学][谷歌学者]
Shriver MD、Parra EJ、Dios S、Bonilla C、Norton H、Jovel C、Pfaff C、Jones C、Massac A、Cameron N、Baron A、Jackson T、Argyropoulos G、Jin L、Hoggart CJ、McKeigue PM、Kittles RA(2003)《皮肤色素沉着、生物地理祖先和混合图谱》。人类基因112:387–399[公共医学][谷歌学者]
Shriver MD、Smith MW、Jin L、Marcini A、Akey JM、Deka R、Ferrell RE(1997)使用人群特异性DNA标记进行种族关联评估。美国人类遗传学杂志60:957–964[PMC免费文章][公共医学][谷歌学者]
Smith MW,Lautenberger JA,Shin HD,Chretien JP,Shrestha S,Gilbert DA,O'Brien SJ(2001)非裔美国人和西班牙裔人群混合连锁不平衡映射标记。《美国人类遗传学杂志》69:1080–1094[PMC免费文章][公共医学][谷歌学者]
Smith MW、Patterson N、Lautenberger JA、Truelove AL、McDonald GJ、Waliszewska A、Kessing BD等(2004)非裔美国人疾病基因发现的高密度混合图。美国人类遗传学杂志74:1001–1013[PMC免费文章][公共医学][谷歌学者]
Stephens JC、Briscoe D、O'Brien SJ(1994)《绘制人类混合连锁不平衡:限制和指南》。美国人类遗传学杂志55:809–824[PMC免费文章][公共医学][谷歌学者]
Thornsberry JM、Goodman MM、Doebley J、Kresovich S、Nielsen D、Buckler ES(2001)矮人8多态性与开花时间相关。《自然遗传学》28:286–289 10.1038/90135[公共医学] [交叉参考][谷歌学者]
Zheng C,Elston RC(1999),多点连锁不平衡映射,特别是非洲裔美国人。基因流行病学17:79–101 10.1002/(SICI)1098-2272(1999)17:2<79::AID-GEPI1>3.0.CO;2-牛顿[公共医学] [交叉参考][谷歌学者]

文章来自美国人类遗传学杂志由以下人员提供美国人类遗传学学会