跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2014年6月;197(2):573-89。
doi:10.1534/genetics.114.164350。 Epub 2014年4月2日。

fastSTRUCTURE:大型SNP数据集中种群结构的变分推断

附属公司

fastSTRUCTURE:大型SNP数据集中种群结构的变分推断

阿尼尔·拉吉等。 遗传学. 2014年6月.

摘要

从遗传数据估计种群结构的工具现在被广泛应用于种群遗传学中。然而,在大型现代数据集中推断人口结构带来了严重的计算挑战。在这里,我们使用变分贝叶斯框架开发了有效的算法来近似推断STRUCTURE程序下的模型。变分方法将计算相关后验分布的问题视为一个优化问题,允许我们在优化理论的最新进展基础上开发快速推理工具。此外,我们提出了有用的启发式分数来识别数据集中表示的人口数量,并在检测数据中的弱势人口结构之前,提出了一种新的层次结构。我们在模拟数据上测试变分算法,并使用CEPH-Human Genome Diversity Panel的基因型数据进行说明。变分算法比STRUCTURE快近两个数量级,并且达到了与ADMIXTURE相当的精度。此外,我们的结果表明,用于选择模型复杂度的启发式分数为数据中表示的人口数量提供了一个合理的值范围,当结构很弱时,对检测结构的偏差最小。我们的算法fastSTRUCTURE在网上免费提供http://pritchardlab.stanford.edu/structure.html。

关键词:人口结构;变分推理。

PubMed免责声明

数字

图1
图1
不同算法的准确性与种群结构的可解性有关。(A) 模拟数据集中三个人口的人口模型。边缘权重量化了来自祖先种群的漂移量。(B和C)可分辨性是一个标量,人口模型中特定人群的漂移乘以该标量,可分辨性值越高,结构越强。(B) 比较给定数据的最佳模型复杂度,平均50次重复,由ADMIXTURE推断(Kc(c)v(v)),具有简单优先权的fastSTRUCTURE(Kc(c)v(v),K,KC类)和fastSTRUCTURE,具有后勤优先权(Kc(c)v(v))(C)比较各算法在最佳值K在每个复制中。
图2
图2
不同算法的准确度是真实人口数量的函数。人口统计模型是一个星形谱系,其人口经历了等量的漂移。子图A和C对应于强结构(F类=0.04),B和D为弱结构(F类= 0.01). (A和B)将不同算法使用不同指标估计的最佳模型复杂度(50次重复的平均值)与数据中表示的真实人口数进行比较。值得注意的是,当种群结构较弱时,当种群数量过大时,ADMIXTURE和fastSTRUCTURE都无法检测到结构。(C和D)比较每个算法在每个复制的最佳模型复杂度下估计的混合比例的准确性。
图3
图3
不同算法的准确性与模型复杂性的关系(K)在两个模拟数据集上,其中一个数据集的祖先很容易解析(A;第页=1)和一个祖先很难解决的:(B;第页=0.5)实线对应于使用收敛准则|Δ计算的参数估计值ℰ| < 10−8,而虚线对应的是一个较弱的标准|Δℰ| < 10−6(左)真实和推断混合比例之间的平均混合散度;搁置基因型条目的(中间)平均二项式偏差。注意,对于的值K预测误差的任何变化都大于最佳值,都在预测误差估计值的标准误差范围内,这表明我们应该选择模型复杂度的最小值,高于该值,预测误差的减少在统计上是不显著的。(右)由STRUCTURE和fastSTRUCTURE计算的数据的边际似然近似值。
图4
图4
在两个模拟数据集上可视化由不同算法估计的祖先比例,其中一个具有强结构(顶部,第页=1)和一个弱结构(底部,第页= 0.5). (左和中)按模型复杂性估计的祖先K=3和K分别为5。插图说明了真正的祖先和每个算法推断的祖先。每种颜色代表一个种群,每一个个体由一条垂直线表示,该垂直线被分割成各色段,各色段的长度代表混合比例K人口。(右)当模型复杂时,模型组件的平均祖先贡献K= 5.
图5
图5
不同算法在不同位点和样本数的模拟数据集上的运行时间;运行时间的平方根(以分钟为单位)被绘制为问题大小的平方根的函数(定义为N个×L(左)×K). 与图3类似,虚线对应的收敛标准比实线弱。
图6
图6
通过ADMIXTURE和fastSTRUCTURE(带简单先验)在HGDP数据上推断的祖先比例K=7(李等。2008). 值得注意的是,ADMIXTURE将中美洲和南美洲人口分为两组,而fastSTRUCTURE将撒哈拉以南非洲人口分为这两组的可能性分配为更高的近似边际可能性。
图7
图7
HGDP数据上外加剂和fastSTRUCTURE的模型选择(具有简单的优先权)。的最佳值K,由使用偏差残差的ADMIXTURE和使用偏差的fastSTRUCTURE确定,KC类、和LLBO以虚线显示。
图8
图8
在最佳选择K由每个算法的相关度量确定。值得注意的是K=KK=KC类它们非常相似,在后一种情况下,估计卡拉什和卡里塔尼亚纳是另外两个独立的群体,与其余种群几乎没有共同祖先。

中的注释

类似文章

引用人

工具书类

    1. Alexander D.H.,Novembre J.,Lange K.,2009年。基于模型的无关个体祖先快速估计。基因组研究19(9):1655–1664。-项目管理咨询公司-公共医学
    1. Beal,M.J.,2003近似贝叶斯推理的变分算法。伦敦大学学院盖茨比计算神经科学部博士论文。
    1. Blei D.M.、Ng A.Y.、Jordan M.I.,2003年。潜在的dirichlet分配。J.马赫。学习。决议3:993–1022。
    1. Carbonetto P.,Stephens M.,2012年。回归中贝叶斯变量选择的可缩放变分推理及其在遗传关联研究中的准确性。贝叶斯分析。7(1): 73–108.
    1. Catchen J.、Bassham S.、Wilson T.、Currey M.、O'Brien C.等人,2013年。使用限制性位点相关的DNA测序确定俄勒冈州三棘棘棘鱼的种群结构和最近的殖民化历史。摩尔生态。22: 2864–2883.-项目管理咨询公司-公共医学

出版物类型