摘要
从进化研究到关联图绘制,再到法医鉴定,许多种群遗传活动都依赖于对种群结构或相关性的适当估计。所有应用都需要认识到,具有等位基因依赖性基本含义的量并不是绝对意义上的定义,而是“相对于”除目标集以外的一些等位基因集。1984年的堰和科克勒姆估计明确了等位基因的参考集是跨人群的,而标准亲属关系估计没有明确参考。威尔和科克勒姆表示这些估计是针对独立人群的,而标准亲属关系估计有一个隐含的假设,即研究样本中的个体对,而不是目标对,是无关的或不是近亲繁殖的。然而,当种群之间发生迁移时,种群失去了独立性,并且种群中的个体对之间存在多个目标对的依赖性。因此,我们重新定义了我们对种群结构、亲缘关系和近亲交配的处理方法,以明确说明感兴趣的参数涉及目标等位基因和参考等位基因集之间等位基因依赖程度的差异,因此可能是负的。我们将参考集作为对研究个体进行抽样的群体。我们提供了这些参数的简单矩估计,用个体内部和个体之间的等位基因匹配来表示亲缘关系和近亲交配,或用种群内部和种群之间的等位基因匹配来描述种群结构。个体内等位基因、群体内个体间等位基因以及群体之间等位基因的多层次层次结构可以统一处理亲缘关系和群体结构。我们预计我们的新测量方法将有广泛的应用,但我们注意到,它们的估计值对罕见或私人变异体很敏感:一些人群特征化应用建议利用这些敏感性,而相关性估计可能最好使用所有遗传标记,而不过滤次要等位基因频率。
我们在这里用等位基因依赖的基本框架对关联性和人口结构进行了统一处理,其中依赖程度可以量化为等位基因按血统相同的概率(ibd)或等位基因状态指标的相关性。我们关注汤普森(2013)在将一组等位基因的ibd视为相对于其他一些参考基因时:“ibd没有绝对测量值:ibd总是相对于某些参考群体。”换句话说,ibd意味着一个参考点,而不同等位基因在这一点的ibd状态通常被隐式假定为零。对等位状态关联的参考集的需求是由赖特(1951):“来自同一亚群的随机配子之间的相关性,相对于总数,由……给出”(重点加上),对于近亲繁殖赖特(1943):“相对于单位群,近交系数为零,相对于中间基团和相对于总数。”
我们特别感兴趣的等位基因依赖的功能是我们将在下面显示,它可以表示为种群内等位基因对相对于不同种群的等位基因配对的ibd概率。这一数量的估计值被广泛使用,这里我们注意到,例如McTavish和Hillis(2015)谁用了“成对”使用Weir和Cockerham的方法对所有成对人群进行测量。”我们建议,更具信息性的分析可能来自我们的特定人群估计(Weir and Hill 2002年;堰等。2005;布朗宁和堰2010). 其他作者(例如,秃顶和尼科尔斯1995;2004年博蒙特和巴尔丁;施莱弗牌手表等。2004;Gaggiotti和Foll 2010)还讨论了与特定人群合作的优势一组种群的值而不是单个值,或每对种群的值,我们对种群间等位基因频率相关性的认识扩展了它们的工作傅等。(2003)和贝叶斯处理傅等。(2005),歌曲等。(2006年),Karhunen和Ovaskainen(2012)和Günther和Coop(2013)在这里,我们考虑了在提供适用于人群和个人的明确力矩估计时的相关性。
通常的全局测量值可以被视为特定人群值的未加权平均值,因为它是一个平均值,所以它掩盖了可以表明过去选择影响的人群之间的差异(2004年博蒙特和巴尔丁;堰等。2005). 全球测量可以减少人口历史的信号,随着遗传标记数据变得更加丰富,人口之间的实际差异变得更加明显,这种减少变得更加明显。
作为Astle和Balding(2009)注意到“人口结构和[隐秘]相关性是单一混杂因素的不同方面:未观察到的谱系定义了研究对象之间(通常是遥远的)关系。”康等。(2010年):“研究样本中相关个体的存在导致样本结构,这一术语包括人口分层和隐性关联。”我们的目标是提供一种统一的方法来表征人口结构、个体关联和近亲繁殖,就基本参数和估计方法而言。通过计算匹配或相同类型的等位基因对的比例,我们可以为如果配对来自相同或不同的群体,对于近亲繁殖或亲缘关系,则配对来自目标个体或研究中的所有配对个体。人口结构的度量被视为这些人口中个体的同系物度量的平均值,如Karhunen和Ovaskainen(2012).
Ibd指的是成对等位基因的历史,以及对历史“基因抽样”的考虑(堰1996)表明ibd测量可以量化这些历史的进化复制品之间的等位基因频率的变异。来自单个群体或单个个体的数据没有关于这种方差的信息,因此不允许估计ibd概率。我们可以将多个基因座视为遗传取样过程的复制,也可以从多个群体中收集数据。一个例外是,当参考人群中的等位基因频率和ibd状态被假定为已知时,正如估计亲缘关系和近亲繁殖的标准方法所暗示的那样(例如,Ritland 1996年;Purcell公司等。2007;杨等。2011;王2014)或者在法医学中,如果频率来自数据库(例如,秃顶2003). 相反,如果估计方法使用来自个体样本的频率,则它们将为样本中的所有个体提供相对于这些度量的近亲繁殖或亲缘ibd度量的估计。这一点也是由于等。(2006年),他谈到“用随机个体之间按状态同一的平均概率来调整两个个体之间按状态同一的概率”,以解决ibd问题。不使用等位基因频率的现有关联度估计方法(例如,KING-健壮,Manichaikul公司等。2010)估计个体间的ibd(同系物)与个体内的ibd相对应(近亲繁殖)。
对于种群结构和相关性,我们建议使用个体或种群内部和之间的等位基因匹配比例,以相对于一组ibd值来表征个体或种群的ibd。我们使用等位基因匹配,与纯合子等价,与杂合子互补内(1973),而不是方差分量(韦尔和科克勒姆1984:以下简称WC84)。虽然我们的匹配比例可以转换为WC84使用的平方和,但我们相信它们可能具有更直观的吸引力。我们目前的处理方法也与WC84中的处理方法不同,因为我们使用了未加权的人口统计平均值,而不是更适合WC84独立人口模型的加权平均值。我们在讨论.
当前遗传研究的规模需要计算上可行的方法来估计所有对个体之间的相关性,TOPMed项目可能需要50亿对个体(http://www.nhlbiwgs.org). 任务的规模很可能排除最大似然法(例如,汤普森1975;Ritland 1996年;米利根2003)和贝叶斯方法(例如,Gaggiotti和Foll 2010)、和Karhunen和Ovaskainen(2012)回顾了选择基于似然和贝叶斯方法所需的等位基因频率分布的挑战。因此,力矩估计似乎仍然相关,将在此处介绍。
材料和方法
等位基因对依赖性
我们的讨论涉及两个二重性:一对等位基因之间的依赖性,以相关性或ibd的概率表示;以及通过个体或从中提取等位基因对的人群来识别等位基因。虽然我们通常对个体进行抽样并对基因型进行评分,但我们从等位基因描述符开始:对于感兴趣的位点,以及等位基因A类按个人和人群识别(参见表1),我们指定等位基因指示器值1,如果A类类型为u个,如果不属于类型,则值为0u个我们将假定二倍体中的等位基因是明确定义的,尽管我们之前已经有过(Hill and Weir 2004年)和其他人一样,讨论了他们没有遇到的情况(例如,霍辛格等。2002). 我们写下剂量等位基因的u个作为二倍体个体的总和x个对于个体携带的两个等位基因,剂量为对于SNP,我们写道X(X)作为参考等位基因的剂量。
符号
数量. | 符号. |
---|
阿勒 | 对于等位基因个人人口 |
等位基因指示器 | 对于等位基因属于类型u个 |
等位基因频率 | 的预期值为所有人 |
等位基因类型的实际频率u个在人口中我 |
等位基因类型的观察频率u个从人群中抽取样本我 |
Theta公司 | 是等位基因间ibd的概率k个个人j个来自人口我和等位基因个人来自人口 |
近交系数 | 是个体的两个等位基因的ibd概率j个在人口中我以下为: |
同轴系数 | Coancestry公司是从个体中提取的一对等位基因的ibd概率在人口中我以下为:是的平均值适用于所有配对是以下人群的平均值对于从人群中提取的任何两个不同的等位基因我,ibd概率为人口平均数是是不同人群等位基因ibd概率的平均值 |
相对近交 | 个体的相对近亲繁殖系数j个在人口中我是参考是或 |
亲属关系 | 个体的相对共生系数在人口中我是参考是或 |
特定人群 | 是从人群中提取的两个等位基因的概率吗我是ibd,相对于从一个群体中提取的等位基因与从另一群体中提取等位基因的概率。代表群体中两个个体的等位基因我 |
数量. | 符号. |
---|
阿勒 | 对于等位基因个人人口 |
等位基因指示器 | 对于等位基因属于类型u个 |
等位基因频率 | 的预期值为所有人 |
等位基因类型的实际频率u个在人口中我 |
等位基因类型的观察频率u个从人群中抽取样本我 |
Theta公司 | 是等位基因间ibd的概率k个个人j个来自人口我和等位基因个人来自人口 |
近交系数 | 是个体的两个等位基因的ibd概率j个在人口中我以下为: |
同轴系数 | Coancestry公司是从个体中提取的一对等位基因的ibd概率在人口中我以下为:是的平均值适用于所有配对是以下人群的平均值对于从人群中提取的任何两个不同的等位基因我,ibd概率为人口平均数是是不同人群等位基因ibd概率的平均值 |
相对近交 | 个体的相对近亲繁殖系数j个在人口中我是参考是或 |
亲属关系 | 个体的相对共生系数在人口中我是参考是或 |
特定人群 | 是从人群中提取的两个等位基因的概率吗我是ibd,相对于从一个群体中提取的等位基因是ibd到从另一个群体中提取的等位基因的概率。代表群体中两个个体的等位基因我 |
数量. | 符号. |
---|
阿勒 | 对于等位基因个人人口 |
等位基因指示器 | 对于等位基因属于类型u个 |
等位基因频率 | 的预期值为所有人 |
等位基因类型的实际频率u个在人口中我 |
等位基因类型的观察频率u个从人群中抽取样本我 |
Theta公司 | 是等位基因间ibd的概率k个个人j个来自人口我和等位基因个人来自人口 |
近交系数 | 是个体的两个等位基因的ibd概率j个在人口中我以下为: |
同轴系数 | Coancestry公司是从个体中提取的一对等位基因的ibd概率在人口中我以下为:是的平均值适用于所有配对是以下人群的平均值对于从人群中提取的任何两个不同的等位基因我,ibd概率为人口平均数是是不同人群等位基因ibd概率的平均值 |
相对近交 | 个体的相对近亲繁殖系数j个在人口中我是参考是或 |
亲属关系 | 个体的相对共生系数在人口中我是参考是或 |
特定人群 | 是从人群中提取的两个等位基因的概率吗我是ibd,相对于从一个群体中提取的等位基因与从另一群体中提取等位基因的概率。代表群体中两个个体的等位基因我 |
数量. | 符号. |
---|
阿勒 | 对于等位基因个人人口 |
等位基因指示器 | 对于等位基因属于类型u个 |
等位基因频率 | 的预期值为所有人 |
等位基因类型的实际频率u个在人口中我 |
观察到的等位基因型频率u个从人群中抽取样本我 |
Theta公司 | 是等位基因间ibd的概率k个个人j个来自人口我和等位基因个人来自人口 |
近交系数 | 是个体的两个等位基因的ibd概率j个在人口中我以下为: |
同轴系数 | Coancestry公司是从个体中提取的一对等位基因的ibd概率在人口中我以下为:是的平均值适用于所有配对是以下人群的平均值对于从人群中提取的任何两个不同的等位基因我,ibd概率为人口的平均值是是不同人群等位基因ibd概率的平均值 |
相对近交 | 个体的相对近亲繁殖系数j个在人口中我是参考是或 |
亲属关系 | 个体的相对共生系数在人口中我是参考是或 |
特定人群 | 是从人群中提取的两个等位基因的概率吗我是ibd,相对于从一个群体中提取的等位基因与从另一群体中提取等位基因的概率。代表群体中两个个体的等位基因我 |
我们规定如果期望值是该等位基因进化历史的过度复制,则随机等位基因属于类型的概率u个,无论哪个个体携带该等位基因或哪个群体包含该个体。我们治疗的本质在于对两种产品的期望x个u个或一对等位基因同时属于同一类型的概率u个.对于等位基因A类和带指示器和我们规定期望作为也是我们可以看到是感兴趣位点的任何等位基因。我们还可以从方程1中看到和是因此,数量θ是科克勒姆著作中等位基因对指标的相关性(例如,科克勒姆1969). 方程1中不要求θ例如,在避免亲属间交配的人群中,一个人携带的两个等位基因预期为正值,而负值。我们将个人和人群标识符添加到θ在里面表1. 继Malécot的工作之后(见审查Epperson 1999年),我们也可以用θ定义为等位基因的概率是ibd。那么情况就是θ不能为负数。这两个等位基因中的任何一个都有可能属于类型u个.其他等位基因具有概率θ是第一个的ibd,所以也是类型u个,它具有概率不是ibd到第一个,所以是类型u个有可能如果我们遵循汤普森(2013)将ibd等位基因视为参考人群中单个等位基因的后代,即等位基因概率指参考人群。我们区分期望值从实际等位基因频率在人群中,从频率在人口样本中,如中所列表1.
我们将在随后的大部分讨论中使用ibd概率,但有时会回到等位基因指标相关性。我们的估算程序基于方程式1,因此适用于两种解释。然而,我们首先来看一些关于ibd概率的预测。
预计ibd概率
个人:
对于单个二倍体个体j个,近亲繁殖系数是其两个等位基因为ibd的概率。血缘关系系数针对个人这里定义为每个个体的一个等位基因的四个ibd概率的平均值。因此,个人的血统j个与其本身是然而,一般来说,我们将遵循WC84,并为不同的个人保留同父异母一词。对于单倍体,不需要近亲繁殖系数,亲缘关系是等位基因在个体中的ibd概率j个在个体中有等位基因我们将有机会利用一个群体中(样本)的同源个体对的平均值。在表1,我们添加了上标以指示从中提取个体的种群。
如果是二倍体个体J是两者的祖先j个和如果有n个血统路径中的个体加入j个到通过J,包括j个和然后哪里是近亲繁殖系数J总和超过了所有祖先J和所有连接的路径j个到通过J(赖特1922). 联合会也是有父母的个体的近亲繁殖系数如果是祖先J在时间上比参考时间更早,那么它对个人的关联性没有贡献j个和
人口:
对于单个种群,平均共生系数是指一对不同的等位基因,在两个不同的个体中各有一个。对于配子随机结合的种群为所有人j个和和θ指的是人群中随机出现的一对不同的等位基因,与携带这些基因的个体无关。如果我们想区分这种基于等位基因的数量和基于基因型的数量如下所述,然后将其写为在表1,我们显示上标以表示人口,现在我们采用该约定来描述随机人口中ibd的增加我人口规模不变没有突变,的值t吨种群发生ibd概率后的离散代满足该结果由以下人员讨论赖特(1931),虽然不完全是这种形式显式显示。我们策划θ根据第一行的方程式2图1.
图1
漂移、突变和迁移对θ和β作为生成的函数。对于所有面板,.左栏(A、C、E)红色,在蓝色中,橙色。右栏(B、D、F)红色,蓝色,橙色。(A,B)仅漂移(无突变或迁移)。和β倾向于1,(C,D)漂移和突变θ和β正极限<1。在平衡状态下,(E,F)漂移、突变和迁移。θ阳性和<1,是积极的,但为负值。在平衡状态下,
对于成对个体,这里将成对群体的同源性定义为成对等位基因的平均ibd概率,每个群体中有一个。针对人群数量是所有这些等位基因对的平均值,每个群体中是否有随机交配并不重要。如果两个种群中的每一个都有随机交配人口规模不变然而,遗传漂变t吨不同的世代,因为他们从一个共同的祖先群体分化而来ibd概率是否提供了在没有突变和迁移的情况下,种群间ibd的概率目前t吨和以前一样,在共同的祖先群体中。为了避免必须指定祖先值我们将种群内的相对共生关系定义为对于群体1和群体2中各有一对等位基因,作为描述群体1和2中各等位基因ibd状态的参考,相对于此参考,两个群体之间的ibd为零。对于一项只有这两种人群的研究,我们写道和我们还写我们可以写但这对两个群体来说是零。 对于一组第页种群,我们利用个体之间、种群内、共同分布的种群平均数,以及人口-配对共生种群的平均数,我们现在有两个可能的人口内协委会参考集。相对于种群中所有成对个体我,个人的联姻是它的平均值为零。相对于所有的等位基因对,在两个不同的人群中各有一个,同源性是我们将所有成对个体的这些量的平均值写为“特定人群”F类装货单“平均人口得出通常的”人口平均数F类装货单,“现在写成要强调的是,这是相对于人口与人口之间的共生关系而言的人口内共生关系。回想一下,我们使用因为人口内的等位基因对表明我们指的是基因型,而如果我们只研究等位基因,我们写道和基于等位基因是这是此表达式已在前面给出(例如,Karhunen和Ovaskainen 2012). 对于随机人群,没有必要区分和 我们承认在使用上标时存在符号困难B类而不是T型失去了与西沃尔·赖特作品的直接相似性(例如,赖特1951年). 我们使用B类强调我们的参考等位基因集是之间成对的种群或个体,而T型会建议全部的所有配对,包括群体或个体内的配对,以及随后需要指定一个个体中来自同一等位基因的配对比例的群体大小。我们的公式更简单,因为引用是“between”而不是“total”
在WC84中,我们设置了为零,但我们不需要该限制来扩展雷诺等。(1983)那个对于一组种群,提供了在纯漂移模型下,自这些种群与祖先种群分离以来的时间度量。特定人口和人口平均数F类装货单值是为一组总体定义的,而当该组具有单个总体时,则不定义值。对于单一人群我,我们仍然有ibd的概率我们注意到秃顶(2003)将其称为
这一发展与θ被视为ibd概率的值可以用θ被认为是等位基因状态指标的相关性。可以建立过渡方程一对随机等位基因的概率,一个来自人群我一个来自人口都是类型u个。添加过多的等位基因类型会产生与ibd概率相同的相关性转换方程,因此方程4适用于相关性,并使我们回到Wright的原始定义(赖特1951年).
F类-统计信息:
数量是由赖特(1951)个体内的等位基因我在亚群体内S公司总人口的T型三个数量在种群遗传学中统称为F类-统计数据。赖希等。(2009)在两个、三个或四个群体中研究等位基因频率的功能。对于SNP参考等位基因,它们的两个群体功能涉及两个群体中等位基因频率的平方差,并被称为(f)-统计数据。随后,彼得(2016)已定义“F类-统计”,例如,哪里第页是人群中的实际等位基因频率我.在我们的注释中,省略W公司下标,
漂移、突变和迁移:
当存在突变和迁移时,获得了种群漂移的非平凡平衡,并且我们通过考虑两个随机交配的种群在每代发生无限等位基因突变时交换等位基因的情况,说明了我们的种群特异性方法的一些方面。类似的处理(Rousset 1996年)允许在一组固定的有限等位基因中实现对称突变率。对于任意数量的种群,在种群大小相等且所有种群对之间迁移率相等的情况下,ibd概率转移方程如下所示丸山(1970).在我们的两个人口规模不相等和移民率不相等的情况下,忽略了W公司下标,哪里突变率为μ、和人口收到分数从群体中每一代的等位基因这些方程的结果是或者那样和是积极的。然而,没有必要超过在图1,第二行,我们表明突变导致的平衡值为与1不同,在第三行中,这种迁移可能会导致以下情况在没有迁移的情况下,突变驱动归零,这样都是积极的。对于两个群体,始终为零。 我们用数值方法求出方程5的平衡点图2我们在的空间中显示该区域值,其中用于固定二者的平均值与合作隐藏符号中的任何差异。我们注意到,在这个模型中,移民并非来自“独特而共同的移民池”,正如F类-的模型秃顶(2003),博蒙特(2005)和Gaggiotti和Foll(2010年).
图2
的等高线图通过求解方程5的系统获得平衡。和分别固定为1000和0.01(实心水平和垂直黑线)。红线上方和右侧区域的平衡值为即,在该地区,群体1中的一对等位基因发生ibd的概率小于群体1中带有群体2中等位基因的等位基因。
实际与。预测θ以下为:
根据个体系谱的路径计算方法或种群的过渡方程计算出的ibd概率,可以被视为一对等位基因实际身份状态在进化复制上的期望值。我们之前讨论过预测值的实际一致性变化(希尔和威尔2011,2012),正如所做的速度和秃顶(2015).两个等位基因的实际ibd测量值的方差,其预测值为θ,是(科克勒姆和威尔1983),其中是两对等位基因中每一个的ibd联合概率。两个个体的实际凝血的变异系数对于具有预测凝血的个体来说>1θ<0.125,并且随着关系程度的降低而增加。这意味着,对于一对特定的种群或个体,估计值可能与系谱或转移方程中的预期值不匹配。因此,评估程序应在多次重复中进行。
估算
等位基因匹配:
我们在处理状态相同的等位基因对比例时发现了直观的吸引力(ibs)。不同等位基因对的匹配(等位基因共享)比例从个人提取j个在人口样本中我是在中使用符号表1。从方程式1来看,该匹配比例具有预期值哪里同样,成对等位基因的匹配比例来自不同的个体分别在人口中我是这是有期望的在表2我们显示了由基因型组成的数据所需的所有匹配比例个人从我第个,共个第页人口,以及这些比例的预期值。在种群内,用个体等位基因剂量而不是等位基因指标来表示匹配比例是很方便的。在种群之间,使用样本等位基因频率很方便。
通道对匹配比例
群体i个体j内两个不同等位基因的匹配 |
人口中个体内平均匹配我 |
个体内匹配的总体平均值 |
每个个体一个等位基因的匹配在人口中我 |
群体中个体间平均匹配我 |
人口内匹配的个体间平均人口数 |
群体内两个不同等位基因的匹配,忽略基因型我 |
群体内等位基因匹配的平均群体数,忽略基因型 |
个体的等位基因匹配j个在人口中我带有来自个体的等位基因在人口中 |
每个群体中一个等位基因的匹配 |
种群间配对的成对种群的平均值 |
群体i个体j内两个不同等位基因的匹配 |
人口中个体内平均匹配我 |
个体内匹配的总体平均值 |
匹配每个个体的一个等位基因在人口中我 |
群体中个体匹配之间的平均值我 |
人口内匹配的个体间平均人口数 |
群体内两个不同等位基因的匹配,忽略基因型我 |
群体内等位基因匹配的平均群体数,忽略基因型 |
个体的等位基因匹配j个在人口中我带有来自个体的等位基因在人口中 |
每个群体中一个等位基因的匹配 |
种群间配对的成对种群的平均值 |
群体i个体j内两个不同等位基因的匹配 |
人口中个体内平均匹配我 |
个体内匹配的总体平均值 |
每个个体中一个等位基因的匹配在人口中我 |
群体中个体间平均匹配我 |
人口内匹配的个体间平均人口数 |
群体内两个不同等位基因的匹配,忽略基因型我 |
群体内等位基因匹配的平均群体数,忽略基因型 |
个体的等位基因匹配j个在人口中我带有来自个体的等位基因在人口中 |
每个群体中一个等位基因的匹配 |
种群间配对的成对种群的平均值 |
群体i个体j内两个不同等位基因的匹配 |
人口中个体内平均匹配我 |
个体内匹配的总体平均值 |
匹配每个个体的一个等位基因在人口中我 |
群体中个体匹配之间的平均值我 |
人口内匹配的个体间平均人口数 |
群体内两个不同等位基因的匹配,忽略基因型我 |
群体内等位基因匹配的平均群体数,忽略基因型 |
个体的等位基因匹配j个在人口中我带有来自个体的等位基因在人口中 |
每个群体中一个等位基因的匹配 |
种群间配对的成对种群的平均值 |
个人:
如果只能从单个人群中获得数据,则可以仅估计个体内或个体间两个等位基因感染ibd的概率相对于这些数据定义的参考集中的等位基因对的ibd概率。我们将参考集取为样本中一个人的等位基因,与样本中另一个人的一个等位基因配对,对样本中所有不同的个体对进行平均。估计值如所示表3,对于SNPs,它们如方程6所示,而不指定群体:
近亲繁殖、亲缘关系和亲缘关系的估计
个人等位基因匹配j个人口总数我,相对于人群中的个体配对我. |
人口中个体内平均匹配我,相对于人群中的个体配对我特定人群的 |
个体内配对的群体平均数,相对于每个群体中的个体对配对。 |
与群体间等位基因匹配相关的个体内匹配的群体平均值。 |
个体间的等位基因匹配在人口中我相对于该群体中的个体之间的匹配。成对个体的平均值为零。 |
群体内平均个体匹配我,相对于群体间的等位基因匹配。特定人群的用于基因型数据。 |
群体内个体对匹配的群体平均值,相对于群体间的等位基因匹配。总体的用于基因型数据。 |
群体内不同等位基因匹配我忽略基因型,相对于群体间的等位基因匹配。特定人群的等位基因数据。 |
群体内等位基因匹配的群体平均值,相对于群体间等位基因的匹配。总体的等位基因数据。 |
每个群体中一个等位基因的匹配相对于所有人群之间的等位基因匹配。成对种群的平均值为零。 |
个人等位基因匹配j个人口总数我,相对于人群中的个体配对我. |
人口中个体内平均匹配我,相对于人群中的个体配对我特定人群的 |
个体内配对的群体平均数,相对于每个群体中的个体对配对。 |
与群体间等位基因匹配相关的个体内匹配的群体平均值。 |
个体间的等位基因匹配在人口中我相对于该群体中的个体之间的匹配。成对个体的平均值为零。 |
群体内平均个体匹配我,相对于群体间的等位基因匹配。特定人群的用于基因型数据。 |
群体内个体对匹配的群体平均值,相对于群体间的等位基因匹配。总体的用于基因型数据。 |
群体内不同等位基因匹配我忽略基因型,相对于群体间的等位基因匹配。特定人群的等位基因数据。 |
群体内等位基因匹配的群体平均值,相对于群体之间的等位基因匹配。总体的等位基因数据。 |
每个群体中一个等位基因的匹配相对于所有人群之间的等位基因匹配。成对种群的平均值为零。 |
个人等位基因匹配j个人口总数我,相对于人群中的个体配对我. |
人口中个体内平均匹配我,相对于人群中的个体配对我特定人群的 |
个体内配对的群体平均数,相对于每个群体中的个体对配对。 |
个体内匹配的群体平均值,相对于群体之间的等位基因匹配。 |
个体间的等位基因匹配在人口中我相对于该群体中的个体间匹配。成对个体的平均值为零。 |
群体内平均个体匹配我,相对于群体间的等位基因匹配。特定人群的用于基因型数据。 |
群体内个体对匹配的群体平均值,相对于群体间的等位基因匹配。总体的用于基因型数据。 |
群体内不同等位基因匹配我忽略基因型,相对于群体间的等位基因匹配。特定人群的等位基因数据。 |
群体内等位基因匹配的群体平均值,相对于群体间等位基因的匹配。总体的等位基因数据。 |
每个群体中一个等位基因的匹配相对于所有人群之间的等位基因匹配。成对种群的平均值为零。 |
个人等位基因匹配j个人口总数我,相对于人群中的个体配对我. |
人口中个体内平均匹配我,相对于人群中的个体配对我特定人群的 |
个体内匹配的群体平均值,相对于每个群体中的个体配对匹配。 |
与群体间等位基因匹配相关的个体内匹配的群体平均值。 |
个体间的等位基因匹配在人口中我相对于该群体中的个体间匹配。成对个体的平均值为零。 |
群体内平均个体匹配我,相对于群体间的等位基因匹配。特定人群的用于基因型数据。 |
群体内个体对匹配的群体平均值,相对于群体间的等位基因匹配。总体的用于基因型数据。 |
群体内不同等位基因匹配我忽略基因型,相对于群体间的等位基因匹配。特定人群等位基因数据。 |
群体内等位基因匹配的群体平均值,相对于群体间等位基因的匹配。总体的等位基因数据。 |
每个群体中一个等位基因的匹配相对于所有人群之间的等位基因匹配。成对种群的平均值为零。 |
其中,对于n个个人,回想一下是个人的参考剂量j个.将样本中个体的近亲交配系数平均,即可估计出种群内的近亲交系数对于抽样人口,而平均共生关系在结构上为零。 注意,我们将估计构建为表达式的比率,每个表达式的期望值与正如我们在WC84中所做的那样,我们假设两个表达式的比率的期望值近似于它们的期望值。这个值相消,剩下的是预期值,它们是ibd概率的“相对”函数。这种一阶泰勒级数对比率期望的近似已被证明对自1984年以来(例如,古戴等。1996),结果如所示图7下文表明,它对相关性估计也很稳健。能够取消M(M)术语意味着我们不必知道或估计等位基因频率的(平方)因此,我们避免了指定祖先种群或个体。我们的工作结果是通过估计ibd状况对人群或个人进行排名。
我们在方程6中显示的新估计量与标准估计量不同(例如,Ritland 1996年;杨等。2011;王等。2017). 对于双等位基因座,这些估计量是为所有人这些估计器使用抽样人群的样本等位基因频率,旨在估计什么时候和什么时候从这些估计值到我们在方程式6中提出的估计值没有简单的转换。 Ochoa和Storey(2016a,b条)具有等式6中的估计值。它们的表达略有不同,因为它们是针对样本中的所有等位基因对,包括个体内的等位基因,而我们的是针对不同个体中的对偶等位基因。Astle和Balding(2009)(方程式2.3)给出了类似的估计值,但实际上,它们设置了样本中所有成对个体的平均共生关系为零。
在一项研究中,我们估计了近亲繁殖和亲缘关系相对于所有配对个体的平均亲缘关系。杨等。(2010年)还讨论了与研究人群相关的估计,并说:“关系的估计总是相对于一个平均关系为零的任意基数。我们使用样本中的个体作为基数,使得所有个体对之间的平均关系为0,个体与他或她自己的平均关系为1。”虽然当我们使用来自单一人群的数据时,我们对两两关系的估计总和为零,但我们保留了未知值在他们的期望中。我们无法估计我们可能更愿意报告与等式11中描述的最小相关对相关的估计。
人口:
使用来自一组第页人口、匹配比例和估计值也显示在表2和表3。在每个表中,如果样本大小为1,则这些基于人口的条目会减少为基于个人的条目,无论样本大小如何,我们都可以估计近亲繁殖和同系物相对于成对等位基因的关系,这些等位基因来自研究中的每一对群体。在这种情况下,我们将替换特定人群在方程式6中,按人口平均数计算群体中个体的平均近交系数估计我现在是对特定人群的估计值,并对这些总体进行平均,得出以下估计值平均群体中成对个体的共生关系我给出了特定人群的估计将这些值与人口平均得出
根据基因型数据表3提供通常的关系虽然我们使用整个群体作为参考,但不允许从同一群体中提取等位基因以达到匹配比例这表明了我们注意到,如果有人对总体近亲繁殖系数感兴趣,可以通过不考虑子种群来更好地估计。注意,方程式8适用于数量以及特定人群量。 如果我们忽略基因型,只使用等位基因数据,那么我们就回到对群体特异性和群体平均值的估计具有和与相比人口平均值先前由以下公式给出哈德逊等。(1992)(方程式3)。 对于SNP,其中人群的参考等位基因的样本频率我是基于等位基因的人群特异性和人群平均值对大样本量的估计可以写成哪里和对于大量抽样人群,只有在那时,是常见的估计(例如,Hartl和Clark 1997年,方程式4.6)。对于所有人第页这是对对于这个案例单一人口和人口对人口的估计是方程式10中的每个估计值都反映了两个样本等位基因频率的差异。要么或可以是负数,如所示图2预测值,但是积极的。 注意,两两同源估计和人口层面的估计通过构造求和为零。虽然不可能找到每个θ当一个群体中的抽样个体是相关的,或当抽样群体具有相关的样本等位基因频率,或当只有一个抽样群体时,可以对其进行排序值,并且,我们希望这些值与预期值具有相同的排名θ.
在位点上组合:
单焦点分析没有提供有意义的结果,并且结合了对基因座的估计我在文献中经常被考虑。在等位基因权重的平行讨论中u个在一个轨迹上,里特兰(1996)考虑的权重选择最小化方差。
如果轨迹-我估计对于个体(方程式6和7)或群体(方程式9和10),写为则各位点的加权平均值为两个极端重量是和第一种可能被称为“未加权”,第二种可能被称作“加权”,巴蒂亚等。(2013)将第一个估计值称为“比率的平均值”,第二个估计值则称为“平均值的比率”。WC84提倡第二个估算值,并在该文件的附录中给出了理由巴蒂亚等。(2013).
未加权估计对所有等位基因频率都是无偏的,但当分母为单基因座的估计值可能非常小。罕见的变异可能对加权平均值影响不大,并且在模拟中可以看到估计值的方差小于未加权平均值的方差,但只有当每个位点都具有相同的方差时,估计值才是无偏的β值。WC84附录中对人口结构进行了更广泛的讨论Ritland(1996)近亲繁殖和亲缘关系。最近,Ochoa和Storey(2016年b)讨论了估算的权重,以及王等。(2017)在已知等位基因频率的背景下讨论权重。
无论权重方案如何,使用多个位点都允许我们在位点上使用自举(堰1996)为我们的估计生成经验抽样分布。我们在结果第节。我们之前讨论过采样属性(Weir and Hill 2002年;堰等。2005),并将在其他地方提供更多详细信息。我们在这里注意到,如果参数值在基因座上变化不太大,则是基因座数量的增加,而不是个体数量的增加,导致方差的最大减少。
私有等位基因:
目前基于序列的研究揭示了大量的低频变异,包括仅在一个人群中发现的变异。这些私有等位基因由Slatkin(1985)和Mathieson和McVean(2012)特别感兴趣。它们在1000基因组项目数据中非常常见(1000基因组项目联盟2010)。我们在中显示了估计值表4对于仅在一组第页人口。
个体等位基因的群体水平估计
数量. | 观察或估计. |
---|
私人等位基因频率 | 人口1为零 |
样本匹配比例 | |
|
|
|
|
|
β估计 | |
|
|
|
|
数量. | 观察或估计. |
---|
私有等位基因频率 | 人口1为零 |
样本匹配比例 | |
|
|
|
|
|
β估计 | |
|
|
|
|
数量. | 观察或估计. |
---|
私有等位基因频率 | 人口1为零 |
样本匹配比例 | |
|
|
|
|
|
β估计 | |
|
|
|
|
数量. | 观察或估计. |
---|
私有等位基因频率 | 人口1为零 |
样本匹配比例 | |
|
|
|
|
|
β估计 | |
|
|
|
|
估计对于一个私有等位基因,大约是其自身群体样本频率,但群体特定值其人口范围约为什么时候非常小,当这放大了“种群可以以罕见的变体显示空间结构,即使当Wright的注视指数的“低”Mathieson和McVean(2012).因此,具有许多低至中频私人等位基因的人群可能会出现负性阴性程度取决于抽样的人口数量。注意,这意味着必须允许为负,而特定人群的贝叶斯和最大似然估计经常被迫属于虽然这个假设可以放宽(Ritland 1996年).
数据可用性
作者表示,确认文章中提出的结论所需的所有数据均已在文章中完整呈现。
结果
人口结构
我们进行了一系列仿真,以评估我们的我们研究了1000个基因组单核苷酸多态性数据,以探索罕见变异在估计中的作用。一些模拟是用sim.genot.metapop。t吨在中可用高级统计师包装(古德特2005). 我们使用的迁移模型考虑了每对种群之间的迁移率矩阵,而突变模型考虑了一个位点上的多个等位基因。上面给出了两种群模型的符号。我们的估算方法特定人群的数值,以及允许等位基因频率在人群之间关联的数值,意味着我们正在估计不同于其他作者的参数(组合)(例如,Gaggiotti和Foll 2010).
漂移与突变
我们首先模拟了来自共同祖先群体的纯遗传漂变情况下的基因型数据。不同规模的人口(和)对50个二倍体个体进行了调查,每个个体在1000个基因座上进行基因分型,每个群体在三个时间点采集多达20个等位基因:几代人。结果报告于表5在所有情况下接近他们的期望,并且通过位点自举获得的95%置信区间包括期望值可靠的时间间隔获得自贝叶斯2.1(Foll和Gaggiotti 2008)包括预期值报告的九种情况中只有三种。这个贝叶斯坎估计倾向于高估当它是大的,当它是小的时候低估它。造成这种差异的一个可能原因是,贝叶斯can中使用的Dirichlet分布是平衡岛模型下等位基因频率分布的近似值(Gaggiotti和Foll 2010). 我们注意到,通常使用的Dirichlet分布的替代方法是截断正态分布(尼科尔森等。2002),可能更适合于模拟数据,但我们不知道此外,Dirichlet和截断正态分布只是等位基因频率真实分布的方便近似值[参见图S1和文件S2Karhunen和Ovaskainen(2012)].
预测和估计的特定人群没有迁移的两个种群的值
表5预测和估计特定人群没有迁移的两个种群的值
t吨. | N个. | . | . | . |
---|
50 | 100 | 0.221 | 0.222 (0.215, 0.229) | 0.332 (0.325, 0.340) |
50 | 1000 | 0.025 | 0.026 (0.024, 0.028) | 0.026 (0.025, 0.027) |
50 | 10,000 | 0.002 | 0.003 (0.001, 0.005) | 0.0003 (0.0001, 0.0005) |
500 | 100 | 0.891 | 0.887 (0.875, 0.899) | 0.918 (0.911, 0.925) |
500 | 1000 | 0.211 | 0.211 (0.204, 0.219) | 0.289 (0.283, 0.296) |
500 | 10,000 | 0.023 | 0.025 (0.021, 0.029) | 0.002 (0.001, 0.002) |
5000 | 100 | 0.962 | 0.958 (0.950, 0.965) | 0.958 (0.953, 0.964) |
5000 | 1000 | 0.693 | 0.698 (0.684, 0.713) | 0.683 (0.673, 0.694) |
5000 | 10,000 | 0.143 | 0.145 (0.138, 0.152) | 0.056 (0.053, 0.058) |
t吨. | N个. | . | . | . |
---|
50 | 100 | 0.221 | 0.222(0.215,0.229) | 0.332 (0.325, 0.340) |
50 | 1000 | 0.025 | 0.026 (0.024, 0.028) | 0.026 (0.025, 0.027) |
50 | 10,000 | 0.002 | 0.003 (0.001, 0.005) | 0.0003 (0.0001, 0.0005) |
500 | 100 | 0.891 | 0.887 (0.875, 0.899) | 0.918 (0.911, 0.925) |
500 | 1000 | 0.211 | 0.211 (0.204, 0.219) | 0.289 (0.283, 0.296) |
500 | 10,000 | 0.023 | 0.025 (0.021, 0.029) | 0.002(0.001,0.002) |
5000 | 100 | 0.962 | 0.958 (0.950, 0.965) | 0.958 (0.953, 0.964) |
5000 | 1000 | 0.693 | 0.698 (0.684, 0.713) | 0.683 (0.673, 0.694) |
5000 | 10,000 | 0.143 | 0.145 (0.138, 0.152) | 0.056 (0.053, 0.058) |
表5预测和估计特定人群没有迁移的两个种群的值
t吨. | N个. | . | . | . |
---|
50 | 100 | 0.221 | 0.222 (0.215, 0.229) | 0.332 (0.325, 0.340) |
50 | 1000 | 0.025 | 0.026 (0.024, 0.028) | 0.026 (0.025, 0.027) |
50 | 10,000 | 0.002 | 0.003 (0.001, 0.005) | 0.0003 (0.0001, 0.0005) |
500 | 100 | 0.891 | 0.887 (0.875, 0.899) | 0.918 (0.911, 0.925) |
500 | 1000 | 0.211 | 0.211 (0.204, 0.219) | 0.289 (0.283, 0.296) |
500 | 10,000 | 0.023 | 0.025 (0.021, 0.029) | 0.002 (0.001, 0.002) |
5000 | 100 | 0.962 | 0.958 (0.950, 0.965) | 0.958 (0.953, 0.964) |
5000 | 1000 | 0.693 | 0.698 (0.684, 0.713) | 0.683 (0.673, 0.694) |
5000 | 10,000 | 0.143 | 0.145 (0.138, 0.152) | 0.056 (0.053, 0.058) |
t吨. | N个. | . | . | . |
---|
50 | 100 | 0.221 | 0.222 (0.215, 0.229) | 0.332(0.325,0.340) |
50 | 1000 | 0.025 | 0.026 (0.024, 0.028) | 0.026 (0.025, 0.027) |
50 | 10,000 | 0.002 | 0.003 (0.001, 0.005) | 0.0003 (0.0001, 0.0005) |
500 | 100 | 0.891 | 0.887 (0.875, 0.899) | 0.918 (0.911, 0.925) |
500 | 1000 | 0.211 | 0.211 (0.204, 0.219) | 0.289 (0.283, 0.296) |
500 | 10,000 | 0.023 | 0.025 (0.021, 0.029) | 0.002 (0.001, 0.002) |
5000 | 100 | 0.962 | 0.958(0.950,0.965) | 0.958 (0.953, 0.964) |
5000 | 1000 | 0.693 | 0.698 (0.684, 0.713) | 0.683 (0.673, 0.694) |
5000 | 10,000 | 0.143 | 0.145 (0.138, 0.152) | 0.056 (0.053, 0.058) |
漂移伴随突变和迁移
模型1。相同的迁移率,不同的人口规模:
我们在方程5描述的模型下考虑了两个种群,其大小和迁移率突变率为400代之后,β具有预期值和在这种情况下,我们模拟了每个群体中的50个个体,每个位点有1000个位点和多达20个等位基因。从所得的等位基因数据中,我们通过位点自举获得了估计值和95%的置信区间。结果如所示表6预测值包含在置信区间中,并且对于请注意,我们无法估计来自两个群体的数据。
预测和估计特定人群两个迁移种群的值
模型. | . | . | . | . | . | . | . | . | . |
---|
1 | 100 | 1000 | 0.01 | 0.01 | 0.156 | 0.159 (0.148, 0.169) | −0.037 | −0.031 (−0.038, −0.023) | 0.059 |
2 | 100 | 1000 | 0.01 | 0.01 | 0.198 | 0.203 (0.196, 0.211) | 0.024 | 0.025 (0.022, 0.027) | 0 |
三 | 100 | 1000 | 0.01 | 0.01 | 0.277 | 0.268 (0.254, 0.282) | −0.061 | −0.059 (−0.067, −0.050) | 0.112 |
4 | 10,000 | 100 | 0.01 | 0 | −0.281 | −0.269 (−0.292, −0.248) | 0.461 | 0.448 (0.419, 0.477) | 0.090 |
模型. | . | . | . | . | . | . | . | . | . |
---|
1 | 100 | 1000 | 0.01 | 0.01 | 0.156 | 0.159 (0.148, 0.169) | −0.037 | −0.031 (−0.038, −0.023) | 0.059 |
2 | 100 | 1000 | 0.01 | 0.01 | 0.198 | 0.203 (0.196, 0.211) | 0.024 | 0.025 (0.022, 0.027) | 0 |
三 | 100 | 1000 | 0.01 | 0.01 | 0.277 | 0.268 (0.254, 0.282) | −0.061 | −0.059 (−0.067, −0.050) | 0.112 |
4 | 10,000 | 100 | 0.01 | 0 | −0.281 | −0.269 (−0.292, −0.248) | 0.461 | 0.448 (0.419, 0.477) | 0.090 |
表6预测和估计特定人群具有迁移的两个种群的值
模型. | . | . | . | . | . | . | . | . | . |
---|
1 | 100 | 1000 | 0.01 | 0.01 | 0.156 | 0.159 (0.148, 0.169) | −0.037 | −0.031 (−0.038, −0.023) | 0.059 |
2 | 100 | 1000 | 0.01 | 0.01 | 0.198 | 0.203 (0.196, 0.211) | 0.024 | 0.025 (0.022, 0.027) | 0 |
三 | 100 | 1000 | 0.01 | 0.01 | 0.277 | 0.268 (0.254, 0.282) | −0.061 | −0.059 (−0.067, −0.050) | 0.112 |
4 | 10,000 | 100 | 0.01 | 0 | −0.281 | −0.269 (−0.292, −0.248) | 0.461 | 0.448 (0.419, 0.477) | 0.090 |
模型. | . | . | . | . | . | . | . | . | . |
---|
1 | 100 | 1000 | 0.01 | 0.01 | 0.156 | 0.159(0.148,0.169) | −0.037 | −0.031 (−0.038, −0.023) | 0.059 |
2 | 100 | 1000 | 0.01 | 0.01 | 0.198 | 0.203 (0.196, 0.211) | 0.024 | 0.025 (0.022, 0.027) | 0 |
三 | 100 | 1000 | 0.01 | 0.01 | 0.277 | 0.268 (0.254, 0.282) | −0.061 | −0.059 (−0.067, −0.050) | 0.112 |
4 | 10,000 | 100 | 0.01 | 0 | −0.281 | −0.269 (−0.292, −0.248) | 0.461 | 0.448 (0.419, 0.477) | 0.090 |
模型2。大陆-岛屿模型:
在这种情况下,我们有一个无限的大陆提供一定的比例等位基因独立于种群1和种群2,但仍有大小这两个种群之间没有迁徙,所以表6表明预测值包含在其估计值的置信区间中。对于这种情况F类-型号合适,位于表6我们报道95%可信区间。略微高估和低估
模型3。移民-池岛模式:
在这个模型中,每个群体都有一个迁移池,从中可以提取出迁移等位基因。在两个种群的迁移等位基因中,如果配子池由来自每个岛屿的相同比例的等位基因组成,那么实际上一半的“迁移等位蛋白”将是常驻等位基因,而与岛屿的大小无关。在其他方面参数值相同的情况下,预测值和400代后的估计值如所示表6、和意见一致。
模型4。不同的人口规模,不同的迁移率:
我们回到方程5描述的两种群模型,但现在以及不同的迁移率和400代后的预测值见表6.
中的结果表5和表6表现出良好的行为低偏差估计。在图3我们给出了突变率为的模型4的10个不同时间点(独立重复)的估计值为了保持足够的多态性水平。同样,在整个模拟过程中,预期值和估计值一致。
图3
估计用于在不同时间对方程5系统所描述的两种群模型进行独立模拟。人口规模移民率突变率红色,蓝色,黑色。直线是期望值,点是估计值,条形代表通过自举法在基因座上获得的95%置信区间。
罕见等位基因:
对于第页具有总样本量的群体和一个等位基因的拷贝属于1号群体,该等位基因总数为和所以假设每个样本的样本大小相似。在图4我们展示作为1000基因组项目中位于第2染色体上的SNP的等位基因频率的函数。个人按区域(非洲、欧洲、南亚、东亚和美洲)分组。绘制的线对应于初始线性段对应于仅存在于一个大陆的等位基因。当等位基因计数>80时,开始偏离这条线,或当全球样本频率>时,开始离开这条线给定的采样染色体数
图4
作为等位基因频率的函数()用于位于第2染色体上的SNP。根据1000个基因组项目的数据,个体按区域(非洲、欧洲、南亚、东亚和美洲)分组。绘制的线对应于初始线性段对应于仅存在于一个大陆的等位基因。当等位基因计数>80时,即开始偏离这条线,或当世界范围内的频率>给定样本染色体数2426。
当一个新的等位基因出现时,它只会出现在一个群体中。我们预计大多数(如果不是全部)罕见等位基因是私有等位基因,因此()因为这些罕见的等位基因是它们自己的群体频率。什么时候?开始偏离等位基因频率,这意味着已经发生了一些散射。在迁移频繁的物种中,这将在低频率下发生,而久坐的物种应在亚群等位基因频率和以获得更大范围的现场频谱。
参考人群:
在巴克尔顿等。(2016)我们给了特定人群利用为法医目的收集的24个微卫星位点的公开数据,对一组446个群体进行估计。在那篇论文中,我们展示了参考群体的选择如何影响结果。在这里,我们用来自1000个基因组的数据来说明这一点,在22号染色体上使用1097199个SNP。对于来自非洲的样本以非洲为参考,以世界为参考集。非洲人口的平均差异往往比世界上任何两个人口的平均差距都大。东亚人口的收集情况正好相反:以东亚为参照集,以世界为参考集。东亚人口比世界上任何一对人口都更相似。
近亲繁殖和亲缘关系
为了检查我们对个体近亲繁殖和同源系数的估计值的有效性,我们模拟了九个同源系的数据:使用毫秒软件(哈德逊2002),我们从两个人口交换的岛屿模型中生成数据每一代移民。我们模拟了5000个独立的位点,读作单倍型(5000)或SNP(创始人的约80000个多态位点)。然后,我们从其中一个种群中选择了20只个体,让它们随机交配,不自交。我们没有为这20位创始人指定或考虑性别。为了产生足够数量的成对相关个体,我们从平均值为5的泊松分布中得出了每次交配的后代数量。这些后代也被允许在不自拍的情况下随机交配,并产生了根据泊松分布得出的平均三个大小的家庭。通过保存所有交配的记录,我们可以为所有135个个体(创始人、他们的后代和他们的外祖父母)生成基于血统的近亲繁殖和亲缘关系值。所有9045对个体的基于血缘关系的亲缘关系如表所示图5,尽管我们注意到(希尔和威尔2011)实际值与预期值或系谱值之间存在差异。
图5
135名个体和20名创始人的模拟数据的基于系谱的同源系数。红色代表低值,黄色代表高值,白色代表缺失数据(创始人的近交系数未知)。黑色水平线和垂直线在谱系中隔代。沿着主对角线的黄色方块对应于同胞。
左边的图图6比较coancestry估计用谱系中所有成对个体的谱系值,并通过构造亲缘关系,而系谱亲缘关系必然是非负的。右边的图显示了估算值的“修正”:我们取了最小值集左侧图中的值表示无关(相对于假定的无关)创始人。如果我们写作为最小相关个体对集合的平均值,然后是我们的修正值是
图6
估计亲缘关系和系谱亲缘关系的比较。左边是未修正的估计值(方程式6),右边是修正的估计数(方程式11)。
校正后的估计值明显接近谱系值。然而,我们不确定总的来说是否有必要进行这一纠正过程。无论是否应用数值仍然相对于研究样本中所有成对个体的数值。总的来说,我们不会发现任何有理由假定零亲缘关系或零近亲繁殖的个体,我们注意到以下评论:汤普森(2013)“在大多数人群中,个体内的IBD至少与个体间的IBD一样严重。” 估计值的分布图7A紧密聚集在九个值周围,对应于九个不同的谱系值对比结果如所示图7B,对于标准估计值(方程式7),计算为基因座的加权平均值(即,取单位点估计器分子和分母的位点和之比)。
图7
的比较β(A) 以及标准的联合化学(B)估计,当创始人来自一个群体时。
目前,全基因组关联研究(GWAS)倾向于将用于相关性估计的SNP限制为次要等位基因频率(MAF)高于某个阈值。例如国王手册(http://people.virginia.edu/wc9c/KING/manual.html)列出了一个参数minMAF,用于指定最小次要等位基因频率,以选择同质群体中的SNP进行关系推断。人们的想法是,频率越低,就会产生偏差值,但如果使用“平均值比率”估计,情况就不太可能如此。为了说明MAF滤波的效果,我们对模拟数据应用了四个不同的阈值,并显示了9个家系值中每个家系值的估计值的平均值和标准差表7估计值为修正值-即,相对于最小相关类的赋值零。有明确的证据表明,保留所有SNP在偏差和方差方面都有好处:所有过滤的估计值都有向下的偏差,且过滤器越强,向下的偏差越大。
过滤的效果L(左)共生估计均值上的SNP(和SD)
表7过滤到的效果L(左)共生估计均值上的SNP(和SD)
谱系值. | . | . | . | . |
---|
所有SNP. | 镁合金. | 镁合金. | 镁合金. |
---|
0 | 0.000 (0.50) | 0.000 (1.00) | 0.000 (1.99) | 0.000 (2.43) |
0.03125 | 0.031 (0.30) | 0.026 (0.30) | 0.010(0.89) | 0.003 (1.45) |
0.06750 | 0.061 (0.34) | 0.056 (0.35) | 0.041 (1.13) | 0.036 (1.79) |
0.09375 | 0.092 (0.27) | 0.087 (0.27) | 0.069 (0.72) | 0.061 (1.13) |
0.12500 | 0.124(0.41) | 0.120 (0.46) | 0.112 (1.90) | 0.109 (2.69) |
0.15625 | 0.156 (0.29) | 0.151 (0.29) | 0.133(0.65) | 0.122 (1.15) |
0.18750 | 0.184 (0.26) | 0.179 (0.27) | 0.157(1.07) | 0.144 (1.64) |
0.25000 | 0.249 (0.42) | 0.245 (0.45) | 0.241 (1.87) | 0.239 (2.62) |
0.31250 | 0.311 (0.20) | 0.307 (0.20) | 0.285 (0.77) | 0.271 (1.23) |
谱系值. | . | . | . | . |
---|
所有SNP. | 镁合金. | 镁合金. | 镁合金. |
---|
0 | 0.000 (0.50) | 0.000 (1.00) | 0.000 (1.99) | 0.000 (2.43) |
0.03125 | 0.031 (0.30) | 0.026 (0.30) | 0.010 (0.89) | 0.003 (1.45) |
0.06750 | 0.061(0.34) | 0.056 (0.35) | 0.041 (1.13) | 0.036 (1.79) |
0.09375 | 0.092 (0.27) | 0.087 (0.27) | 0.069 (0.72) | 0.061 (1.13) |
0.12500 | 0.124 (0.41) | 0.120 (0.46) | 0.112(1.90) | 0.109 (2.69) |
0.15625 | 0.156 (0.29) | 0.151 (0.29) | 0.133 (0.65) | 0.122 (1.15) |
0.18750 | 0.184 (0.26) | 0.179 (0.27) | 0.157 (1.07) | 0.144 (1.64) |
0.25000 | 0.249(0.42) | 0.245 (0.45) | 0.241 (1.87) | 0.239 (2.62) |
0.31250 | 0.311 (0.20) | 0.307 (0.20) | 0.285 (0.77) | 0.271 (1.23) |
表7过滤的效果L(左)共生估计均值上的SNP(和SD)
谱系值. | . | . | . | . |
---|
所有SNP. | 镁合金. | 镁合金. | 镁合金. |
---|
0 | 0.000 (0.50) | 0.000 (1.00) | 0.000 (1.99) | 0.000 (2.43) |
0.03125 | 0.031 (0.30) | 0.026 (0.30) | 0.010 (0.89) | 0.003 (1.45) |
0.06750 | 0.061(0.34) | 0.056 (0.35) | 0.041 (1.13) | 0.036 (1.79) |
0.09375 | 0.092 (0.27) | 0.087 (0.27) | 0.069 (0.72) | 0.061 (1.13) |
0.12500 | 0.124 (0.41) | 0.120 (0.46) | 0.112 (1.90) | 0.109(2.69) |
0.15625 | 0.156 (0.29) | 0.151 (0.29) | 0.133 (0.65) | 0.122 (1.15) |
0.18750 | 0.184 (0.26) | 0.179 (0.27) | 0.157 (1.07) | 0.144 (1.64) |
0.25000 | 0.249 (0.42) | 0.245(0.45) | 0.241 (1.87) | 0.239 (2.62) |
0.31250 | 0.311 (0.20) | 0.307 (0.20) | 0.285 (0.77) | 0.271 (1.23) |
谱系值. | . | . | . | . |
---|
所有SNP. | 镁合金. | 镁合金. | 镁合金. |
---|
0 | 0.000(0.50) | 0.000 (1.00) | 0.000 (1.99) | 0.000 (2.43) |
0.03125 | 0.031 (0.30) | 0.026 (0.30) | 0.010 (0.89) | 0.003 (1.45) |
0.06750 | 0.061 (0.34) | 0.056 (0.35) | 0.041 (1.13) | 0.036(1.79) |
0.09375 | 0.092 (0.27) | 0.087 (0.27) | 0.069 (0.72) | 0.061 (1.13) |
0.12500 | 0.124 (0.41) | 0.120 (0.46) | 0.112 (1.90) | 0.109 (2.69) |
0.15625 | 0.156 (0.29) | 0.151(0.29) | 0.133 (0.65) | 0.122 (1.15) |
0.18750 | 0.184 (0.26) | 0.179 (0.27) | 0.157 (1.07) | 0.144 (1.64) |
0.25000 | 0.249 (0.42) | 0.245 (0.45) | 0.241 (1.87) | 0.239(2.62) |
0.31250 | 0.311 (0.20) | 0.307 (0.20) | 0.285 (0.77) | 0.271 (1.23) |
我们继续比较我们提出的共生估计通过应用王(2014),在中列出表8,并使用相关的R包(皮尤等。2015). 此外,相关的提供最大似然估计量,由米利根(2003)和Wang和Santure(2009)。这里不计算它们,因为它们需要大量的计算时间,这可能会将它们排除在基因组数据之外。
相关性的其他估计
在图8我们根据九个系谱值显示了七个备选估计的同源估计的方框图。每个面板的实线对应于谱系值。虚线对应一个调整后的系谱值,通过从系谱值中减去平均系谱一致性,再除以1–平均系谱值来获得调整,以确保覆盖可能值的范围。在图6,我们使用最不相关个体的估计值来调整估计值,而这里我们调整了系谱值,使总平均值为零。
图8
根据九个系谱值显示的七个备选估计值的同源估计的箱线图。每个面板上的垂直实心黑线表示谱系同源,垂直虚线表示平均值调整的谱系同源(见正文)。估计数的定义见表6.对于所有经平均值调整的系谱共发生率显示出非常好的统计特性。
与系谱值相比,所有估计值都有负偏差。与调整后的谱系值相比β估计值显示出非常好的特性,没有偏差,方差非常小。其他估计值虽然也更接近这些调整值,但大多低估了,但有时也高估了(例如,王,林克利)调整后的系谱值。标准估计值(加权或未加权)始终低估了调整后的系谱值,但不相关的类别除外。
接下来,我们将说明如何恢复平均值来自各个缔约国。为此,我们使用上述谱系,但从两个群体中各选取10个人作为创始人(平均值在这两个群体之间).图9说明了我们的β估计值(方程式6)与标准估计值(公式7)进行比较,以确定创始人对的亲缘关系(但以整个谱系作为参考群体)。这个来自相同人群的创始人对的值(中的方框图A图9)紧密分布在0.016左右,而对于成对的个体,每个群体(箱线图B)中有一个紧密分布在周围标准估计量的相同两类(箱线图C和D)的分布更广,特别是对于来自同一群体的成对个体。
图9
共生估计的箱线图β(A和B)以及创始人来自两个群体时的标准估计值(C和D)。对表1所示谱系中所有个体的颈动脉瘤进行了估计图5,但只显示了创始人之间的联合关系。(A和C):当两个成员来自不同的群体时,来自相同群体的创始人对(B和D)对。
这个即,平均值对于创建者起源的两个种群,从各个同源系中恢复如下:每对同源系计算如下(表3;上标第页强调了估计值涵盖了血统中的所有配对)。我们正在寻找整体仅限于创始人。年来自同一人口的创始人的平均血统图9(箱线图A)对应于同一图(箱线图B)中每一人口中的一位创始人的平均同世系对应于减法从并除以允许消除和恢复对于我们的情况,这给了如预期。
讨论
统一的方法
虽然人们普遍认为家庭和进化相关性只是一个连续体的两端,但我们还不知道之前对人口结构数量的估计,例如或者基于这个共同框架的个体对协因。我们已经提出了同样适用于种群和个体的估计。虽然它们的统计特性尚待充分研究,但在这里介绍的少数几个模拟中,它们的表现如何令人放心。
虽然个体特异性近亲繁殖系数和个体对特异性共系系数矩估计值在关联研究中经常使用,但我们还没有看到群体特异性近交系数的广泛采用进化研究中的矩估计。我们在这里已经从理论和经验上表明,这些值在不同人群中可能存在显著差异。这可能只是反映了种群规模和迁移率的差异,但特定位点的不同值也可能提供自然选择的特征:参见巴尔丁和尼科尔斯(1995),博蒙特和巴尔丁(2004),Foll和Gaggiotti(2008)和堰等。(2005)例如。针对特定人群参数的贝叶斯分析文献越来越多(例如,Karhunen和Ovaskainen 2012;Günther and Coop 2013年)尽管这些可能不适合全基因组变异数据的分析。
人们还普遍认为,血统认同是一个相对概念,而不是一个绝对概念。这种理解并没有导致人们明显认识到,近亲繁殖和亲属关系的标准估计值对于预期值或系谱值并非无偏。用样本值替换人群等位基因频率会导致常规估计中的偏差,无论样本大小当研究中的样本等位基因频率用于估计近亲繁殖或同源系系数时,估计值受所有研究个体的近亲繁殖和同源系值的影响。我们将在包含方程式13的章节中回到这一点
我们还强调,所有等位基因变体,无论其频率如何,都需要包括在人口结构和近亲繁殖或亲缘关系的估计中。估计值当然取决于等位基因频率,限制使用的频率范围可能会揭示出感兴趣的特征,但潜在的ibd参数并不取决于频率(见方程1和ibd解释)。根据等位基因的频率排除某些等位基因将导致对参数的偏差估计,如表7.
以前的估计
Weir和Cockerham对以下为:
这个WC84的估计已被广泛采用,并且它对于本文所述的模型(来自具有等效历史和大小的一系列独立总体的数据)表现良好。在当前表示法中,WC84假定适用于所有人群我以及所有对于任何数量的抽样群体、任何样本大小和每个位点的任何数量的等位基因,该估计都是无偏的。该分析是对人群的加权分析:平均等位基因频率对于一项具有样本量权重的研究,对于从人群中取样的等位基因我虽然我们的β估计并没有明确提到等位基因频率,而是隐含地使用了样本频率,即人口的未加权平均数。
人口权重已由讨论图基(1957)和罗伯逊(1962)这些作者关注的是偏差和方差,他们在群体内部和群体之间使用方差分量的语言。对于等位基因u个,这些组件如下所示和分别由WC84提供。Tukey说“在实践中,我们通过一些涉及直觉的方案选择两个二次函数,找出它们的平均值是如何用方差分量线性表示的,然后形成原始二次函数的两个线性组合,其平均值是方差分量。这些线性组合就是我们的估计灵活性是可能的。”WC84的估算,威尔和希尔(2002)和巴蒂亚等。(2013)尽管线性组合的比率被用来删除等位基因频率参数,但它们都具有这种结构。Tukey接着说,重量(在当前符号中)“给出了惯常的分析,这些分析将观察结果视为重要的,并且列[即人口]不重要。”此外,“选择……将列视为重要列。当列方差分量与方差内分量相比较大时,这种[未加权]方法是合适的。”罗伯逊(1962)还指出了小种群间方差分量的样本大小权重和大值的等权重。巴蒂亚等。(2013)关注不平等因此,他们使用的同等权重与土耳其的声明一致。他们的工作提供了不同与样本大小加权平均值相对的值。对于不平等以及不相等的样本大小,威尔和希尔(2002)他说:“通常的矩估计值(使用样本大小的权重)是一个复杂的函数的]。”在我们当前的不平等模型中和非零我们同意未加权分析(总体权重为1)是合适的,这也是我们在本文中使用的方法。我们注意到,Tukey在选择以权重表示的矩估计量时的“灵活性”,并不是在最大似然法中出现的。如果样本等位基因频率被视为近似正态分布,那么REML方法会给出适当且独特的估计。
当当前模型不平等时,使用WC84估计值会产生什么后果和非零更合适吗?我们可以证明Weir和Cockerham估计的预期值是此表达式使用三个样本大小的函数:和这两个加权平均数是和 数量问是对于相同的样本大小,或,对于相等的值和在这些情况下我们发现WC84估计器性能良好,除非和/或值有很大不同。尽管如此,我们还是强调正在评估中。
Nei估计以下为:
虽然我们已经根据匹配比例进行了措辞估计,但我们注意到它们是“杂合子”的补充我们的方法使用平均群体配对等位基因匹配,而大多数以前的治疗,来自内(1973)然后,使用全杂合性哪里是人群的平均样本等位基因频率:对于大样本,和奈斯在我们的符号中,数量及其期望是减少到和作为第页变大。否则取决于数字第页人口总数。这一期望被1所限制,与巴蒂亚等。(2013).Nei和Chesser(1983)和Nei(1987)修改了Nei早期的方法,以消除人口数量的影响。绑定于当定义为由提供雅格布森等。(2013). Jost(2008)指出不能很好地衡量群体之间的分化,而分化反映了等位基因频率的集合或其样本值我们认为θ作为进化历史的指示器,而不是等位基因频率的指示器,我们将其解释为一对等位基因按血统相同的概率。Jost介绍或作为群体间分化的衡量标准。对于没有突变的两种群漂移场景,D类,不像对时间没有简单的依赖性,因此不能作为进化距离的度量。
标准共生估计:
方程式7中的表达式提供了无偏估计和当等位基因频率已知时。然而,当使用研究样本等位基因频率时,对于一个基因座,这些表达的期望值为哪里是所有内部单个联合企业的平均值是个人的平均血统j个所有其他个人,以及这些期望也适用于每个基因座的平均基因座比率,以及当每个基因座具有相同的注意与预期值的差异如所示表2. 对于大量个体的研究,差异会减少:对于低平均会籍,他们会进一步减少目标个体与其他研究个体的关系。等效表达式如下所示Ochoa和Storey(2016年b).偏差的程度取决于样本中的个体数量,以及目标个体与所有其他研究个体的平均同源性有多大差异来自所有研究个体对的平均血统。然而,标准估计值对如图所示图10,显示之前讨论的谱系(图5)对于来自一个群体的创始人,左栏中未加权或加权标准连锁估计数(方程式7)与系谱连锁估计数之间的关系,以及右栏中方程式13给出的未加权或权重标准连锁估计值与其期望值之间的关系(B和D)。估计的标准婚约与系谱婚约不匹配(图10,A和C),与良好的匹配相反(参见图6),这导致标准共生估计的过度分散图7B但是,标准稠度与等式13给出的预期值非常匹配,特别是加权标准稠度(图10D).
图10
使用中所示的系谱,将标准系谱估计值(方程式7)与系谱系谱(A和C)或与方程式13(B和D)中的预期值进行比较图5以及来自单一群体创始人的基因型。(A和B):未加权标准连锁店;(C和D):加权标准联合体。
方程式7的标准估计值显示为杨等。(2011)我们感谢P.Visscher(个人交流)指出,GRM的设计目的不是为了亲属关系估计,而是为了估计关联映射中的遗传方差。
人口历史
我们早些时候评论说可以作为种群间遗传距离的度量,因为对于遗传漂变模型,它取决于取样种群从祖先种群发散的时间。我们认为有必要进一步探讨特定人群的作用进化遗传学研究中的估计,考虑到普遍未被认可的负预期值在具有相关等位基因频率的人群中的流行情况图1,以及估计值与中建议的场地频谱的关系图4.
结论
在一项研究中,我们提出了个体或群体中的等位基因对相对于所有个体或群体的等位蛋白对的ibd概率而言是ibd概率的矩估计。通过将参考等位基因集确定为当前研究中的等位基因,我们允许对人口结构或相关性及其估计值进行负值测量。例如,在一项研究中,等位基因在某些群体中的ibd概率可能小于所有群体对之间的ibd几率。在一项研究中,一些配对个体的相关性将低于所有配对个体的平均相关性。我们的估计是根据同一类型(ibs)的群体或个体内部和之间的等位基因对的比例进行的。
对于一组人群,我们提倡使用特定人群数值,因为这些数值更准确地反映了人口历史。对于一组个体,我们的估计结果似乎至少与之前给出的结果一样好。我们注意到,对于人口和个人,我们的估计具有相同的逻辑基础和代数表达式。我们的矩量法的主要新颖之处在于,在表征种群结构时,允许等位基因频率在种群之间相关,在表征个体对相关性时,允许所有个体之间相关。
致谢
我们从与比尔·希尔、彼得·维舍尔、洛克·延戈·丁布和奥斯卡·加吉奥蒂的讨论中受益匪浅。我们还感谢审稿人和副主编Graham Coop所作的有益评论,并感谢高级编辑Lauren McIntyre的鼓励。这项工作得到了美国国立卫生研究院(NIH)资助的GM 075091、GM 099568、HL 120393和合同HHSN268201300005C以及瑞士国家科学基金会资助的31003A_138180和IZK0Z3_157867的部分支持。
引用的文献
1000基因组项目联盟,Abecasis,G.R.,D.Altshuler,A.Auton,L.D.Brooks,R.M.Durbin等。, 2010 人群规模测序的人类基因组变异图。《自然》467:1061-1073(勘误表:《自然》473:544)。
阿斯特
W公司
,秃顶
D J公司
,
2009
遗传关联研究中的群体结构和隐性关联。
统计科学。
24
以下为:451
–471
.秃顶
D J公司
,
2003
遗传相关系数的似然推理。
西奥。大众。生物。
63
以下为:221
–230
.秃顶
D J公司
,尼科尔斯
注册会计师
,
1995
一种量化多等位基因座群体间分化的方法及其对身份和亲子关系调查的意义。
Genetica(遗传学)
96
以下为:三
–12
.博蒙特
机械制造商协会
,
2005
适应和物种形成:什么可以告诉我们?
经济趋势。埃沃。
20
以下为:435
–440
.博蒙特
机械制造商协会
,秃顶
D J公司
,
2004
通过基因组扫描确定种群之间的适应性遗传差异。
摩尔生态。
13
以下为:969
–980
.巴蒂亚
G公司
,帕特森
N个
,桑卡拉拉曼
S公司
,价格
A L公司
,
2013
估算和解释罕见变异的影响。
基因组研究。
23
以下为:1514
–1521
.布朗宁
S R公司
,堰
B和S
,
2010
具有局部单倍型簇的种群结构。
遗传学
185
以下为:1337
–1344
.巴克尔顿
J S公司
,柯兰
J M公司
,古戴
J
,泰勒
D类
,蒂里
A类
等,
2016
特定人群法医STR标记的价值:一项全球调查。
法医学。国际遗传学。
23
以下为:91
–100
.科克勒姆
C C公司
,
1969
基因频率的变异。
进化
23
以下为:72
–84
.科克勒姆
C C公司
,堰
B和S
,
1983
实际近亲繁殖的方差。
西奥。大众。生物。
23
以下为:85
–109
.Epperson公司
英国
,
1999
古斯塔夫·马莱科特,1911-1998年:人口遗传学创始人。
遗传学
152
以下为:477
–484
.福尔
M(M)
,加焦蒂
O(运行)
,
2008
一种基因组扫描方法,用于识别适用于显性和共显性标记的选定位点:贝叶斯观点。
遗传学
180
以下为:977
–993
.傅
R(右)
,盖尔芬德
A、E
,霍辛格
英国
,
2003
具有迁移、突变和漂移的遗传模型的精确矩计算。
西奥。大众。生物。
63
以下为:231
–243
.傅
R(右)
,戴伊
D K公司
,霍辛格
英国
,
2005
种群相关时遗传结构分析的贝叶斯模型。
生物信息学。
21
以下为:1516
–1529
.加焦蒂
O E公司
,福尔
M(M)
,
2010
使用F类-模型。
摩尔生态。资源。
10
以下为:821
–830
.古戴
J
,
2005
高级统计师,R用于计算和测试分层F-统计量的包。
摩尔生态。笔记
5
以下为:184
–186
.古戴
J
,雷蒙德
M(M)
,德梅厄斯
T型
,罗塞特
F类
,
1996
检测二倍体群体的分化。
遗传学
144
以下为:1933
–1940
.Günther公司
T型
,笼子
G公司
,
2013
从等位基因频率中稳健地识别局部适应。
遗传学
195
以下为:205
–220
.哈特尔
D L公司
,克拉克
A G公司
,
1997
群体遗传学原理
第3版。Sinauer Associates公司
,马萨诸塞州桑德兰
.希尔
W G公司
,堰
B和S
,
2004
利用隐性标记数据对种群多样性和遗传距离进行矩估计。
摩尔生态。
13
以下为:895
–908
(勘误表:摩尔生态13:3617)。希尔
W G公司
,堰
B和S
,
2011
孟德尔抽样和连锁导致的实际关系变化。
遗传学。物件。
93
以下为:47
–74
.希尔
W G公司
,堰
B和S
,
2012
近交个体后代之间实际关系的变化。
遗传学。物件。
94
以下为:267
–274
.霍辛格
英国
,刘易斯
采购订单
,戴伊
D K公司
,
2002
从显性标记推断种群结构的贝叶斯方法。
摩尔生态。
11
以下为:1157
–1164
.哈德逊
R R(右)
,
2002
在Wright-Fisher中性模型下生成样本。
生物信息学
18
以下为:337
–338
.哈德逊
R R(右)
,斯拉特金
M(M)
,麦迪逊
W P公司
,
1992
根据DNA序列数据估计基因流水平。
遗传学
132
以下为:583
–589
.雅格布森
M(M)
,边缘
M月D日
,罗森博格
不适用
,
2013
之间的关系以及最常见等位基因的频率。
遗传学
193
以下为:515
–528
.乔斯特
L(左)
,
2008
G(ST)及其亲属不测量分化。
摩尔生态。
17
以下为:4015
–4026
.康
H月
,南部
J H公司
,服务
瑞典
,扎特伦
不适用
,香港
S Y系列
等,
2010
用于解释全基因组关联研究中样本结构的方差分量模型。
自然基因。
42
以下为:348
–354
.卡胡宁
M(M)
,奥瓦斯卡宁
O(运行)
,
2012
用混合F模型估计人口水平的共生系数。
遗传学
192
以下为:609
–617
.锂
C C公司
,周
德国
,查克拉瓦蒂
A类
,
1993
由于偶然性和相关性,DNA指纹的相似性。
嗯。到此为止。
43
以下为:45
–52
.林奇
M(M)
,
1988
通过DNA指纹法评估相关性。
分子生物学。埃沃。
5
以下为:584
–599
.林奇
M(M)
,里特兰
K(K)
,
1999
用分子标记估计成对相关性。
遗传学
152
以下为:1753
–1766
.Manichaikul公司
A类
,迈查勒基吉
J C公司
,富有
S S系列
,戴利
K(K)
,萨尔
M(M)
等,
2010
全基因组关联研究中的稳健关系推断。
生物信息学
26
以下为:2867
–2873
.丸山
T型
,
1970
细分人群中的有效等位基因数。
西奥。大众。生物。
1
以下为:273
–306
.马西森
我
,麦克韦
G公司
,
2012
空间结构人群中罕见和常见变异的差异混淆。
自然基因。
44
以下为:243
–248
.麦克塔维什
E J公司
,希利斯
D月
,
2015
SNP确定方案和人口统计学如何影响人口历史推断?
BMC基因组学
16
以下为:266
–278
.米利根
B G公司
,
2003
相关性的最大似然估计。
遗传学
163
以下为:1153
–1167
.内
M(M)
,
1973
细分群体的基因多样性分析。
程序。国家。阿卡德。科学。美国
70
以下为:3321
–3323
.内
M(M)
,
1987
分子进化遗传学
.哥伦比亚大学出版社
,纽约
.内
M(M)
,切瑟
R M(R M)
,
1983
固定指数和基因多样性的估计。
安。嗯。遗传学。
47
以下为:253
–259
.尼科尔森
G公司
,史密斯
A伏
,约翰逊
F类
,古斯塔夫松
O(运行)
,史蒂芬森
K(K)
等,
2002
从单核苷酸多态性数据评估群体分化和分离。
J.罗伊。Stat.Soc.B.统计方法
64
以下为:695
–715
.Ochoa,A.和J.Storey,2016a 任意人口结构的亲属关系I:广义定义。生物Rxiv DOI:10.1101/083915
Ochoa,A.和J.Storey,2016年b 任意人口结构的亲属关系II:矩估计方法。生物Rxiv DOI:10.1101/083923
彼得
B月
,
2016
混合物、人口结构和F类-统计数据。
遗传学
202
以下为:1485
–1501
.皮尤
J
,缪尔
菲律宾
,王
J
,弗雷泽
温度R
,
2015
相关:用于分析共显性分子标记的成对相关性的R包。
摩尔生态。资源。
15
以下为:557
–561
.Purcell公司
S公司
,尼尔
B类
,托德·布朗
K(K)
,托马斯
L(左)
,费雷拉
澳门特别行政区
等,
2007
PLINK:一套用于全基因组关联和基于人群的连锁分析的工具。
Am.J.Hum.遗传学。
81
以下为:559
–575
.奎勒
数据中心
,晚安
K F公司
,
1989
使用分子标记估计亲缘关系。
进化
43
以下为:258
–275
.赖希
D类
,桑加拉吉
K(K)
,帕特森
N个
,价格
A L公司
,辛格
L(左)
,
2009
重建印度人口历史。
性质
461
以下为:489
–494
.雷诺
J
,堰
B和S
,科克勒姆
C C公司
,
1983
同源系数的估计:短期遗传距离的基础。
遗传学
105
以下为:767
–779
.里特兰
K(K)
,
1996
成对相关系数和个体近交系数的估计。
遗传学。物件。
67
以下为:175
–185
.罗伯逊
A类
,
1962
非平衡单分类中方差分量估计中的加权。
生物计量学
18
以下为:三
–17
.罗塞特
F类
,
1996
逐步突变过程种群细分测度的平衡值。
遗传学
142
以下为:1357
–1362
.施莱弗牌手表
M月D日
,肯尼迪
通用汽车公司
,帕拉
E J公司
,劳森
H A公司
,桑帕
V(V)
等,
2004
使用8525个常染色体单核苷酸多态性研究四个群体中群体亚结构的基因组分布。
嗯,基因组学
41
以下为:274
–286
.斯拉特金
M(M)
,
1985
稀有等位基因作为指示物或基因流。
进化
39
以下为:53
–65
.歌曲
S公司
,戴伊
D K公司
,霍辛格
英国
,
2006
迁移、突变和漂移人群之间的差异:遗传推断的含义。
进化
60
以下为:1
–12
.速度
D类
,秃顶
D J公司
,
2015
后基因组时代的相关性:它仍然有用吗?
Nat.Rev.基因。
16
以下为:33
–44
.汤普森
欧洲航空公司
,
1975
成对关系的估计。
安。嗯。遗传学。
39
以下为:173
–188
.汤普森
欧洲航空公司
,
2013
血统鉴定:减数分裂、基因组间和种群间的变异。
遗传学
194
以下为:301
–326
.Tukey公司
J W公司
,
1957
方差分量的方差:二。不平衡的单一分类。
安。数学。斯达。
28
以下为:43
–56
.王
B类
,斯维尔德洛夫
S公司
,汤普森
E类
,
2017
根据SNP基因型有效估计已实现的亲属关系。
遗传学
205
以下为:1063
–1078
.王
J
,
2002
使用分子标记的成对相关性估计。
遗传学
160
以下为:1203
–1215
.王
J
,
2014
基于标记的亲缘关系和近亲繁殖系数估计:对当前方法的评估。
J.进化。生物。
27
以下为:518
–530
.王
J
,桑图雷
A W公司
,
2009
多配偶制下多位点基因型数据的亲子关系和同胞关系推断。
遗传学
181
以下为:1579
–1594
.堰
B和S
,
1996
遗传数据分析II
.西努埃尔
,马萨诸塞州桑德兰
.堰
B和S
,科克勒姆
C C公司
,
1984
估算F类-用于人口结构分析的统计数据。
进化
38
以下为:1358
–1370
.堰
B和S
,希尔
W克
,
2002
估算F-统计量。
每年。修订版Genet。
36
以下为:721
–750
.堰
B和S
,卡顿牌手表
左后
,安德森
A、D
,尼尔森
D月
,希尔
W G公司
,
2005
人类人口结构的测量显示出基因组区域之间的异质性。
基因组研究。
15
以下为:1468
–1476
.赖特
S公司
,
1922
近交系数和亲缘关系。
美国国家。
56
以下为:330
–338
.赖特
S公司
,
1931
孟德尔种群的进化。
遗传学
16
以下为:97
–158
.赖特
S公司
,
1943
通过距离隔离。
遗传学
28
以下为:114
–138
.赖特
S公司
,
1951
种群的遗传结构。
安·尤根。
15
以下为:323
–354
.杨
J
,本雅明
B类
,麦克沃伊
B P
,戈登
S公司
,亨德斯
阿克
等,
2010
常见的单核苷酸多态性解释了人类身高遗传率的很大一部分。
自然基因。
42
以下为:565
–569
.杨
J
,李
南H
,戈达德
中东
,维斯切
百万英镑
,
2011
GCTA:全基因组复杂性状分析工具。
Am.J.Hum.遗传学。
88
以下为:76
–82
.于
J
,普雷苏瓦尔
G公司
,布里格斯
宽高
,Bi公司
I V型
,山崎
M(M)
等,
2006
一种用于关联映射的统一混合模型方法,用于解释多层次的关联性。
自然基因。
38
以下为:203
–208
.
©遗传学2017