fastSTRUCTURE: variational inference of population structure in large SNP data sets

doi:10.1534/genetics.114.164350

.2014年6月；197（2）：573-89。

doi:10.1534/genetics.114.164350。 Epub 2014年4月2日。

fastSTRUCTURE:大型SNP数据集中种群结构的变分推断

阿尼尔·拉吉¹, 马修·斯蒂芬², 乔纳森·普里查德^三

附属公司

¹加州斯坦福大学遗传学系，邮编94305rajanil@stanford.edu。
²伊利诺伊州芝加哥市芝加哥大学统计与人类遗传学系，邮编：60637。
^三斯坦福大学遗传学系，加利福尼亚州斯坦福94305斯坦福大学霍华德休斯医学研究所生物学系，加利福尼亚州斯坦福94305。

PMID： 24700103
预防性维修识别码：项目经理4063916
内政部： 10.1534/遗传学114.164350

fastSTRUCTURE:大型SNP数据集中种群结构的变分推断

阿尼尔·拉吉等。遗传学. 2014年6月.

.2014年6月；197(2):573-89.

doi:10.1534/genetics.114.164350。 Epub 2014年4月2日。

作者

阿尼尔·拉吉¹, 马修·斯蒂芬², 乔纳森·普里查德^三

附属公司

¹加州斯坦福大学遗传学系，邮编94305rajanil@stanford.edu。
²伊利诺伊州芝加哥市芝加哥大学统计与人类遗传学系，邮编：60637。
^三斯坦福大学遗传学系，加利福尼亚州斯坦福94305，斯坦福大学霍华德·休斯医学院生物学系，加利福尼亚94305。

PMID： 24700103
预防性维修识别码：项目经理4063916
内政部： 10.1534/遗传学114.164350

摘要

从遗传数据估计种群结构的工具现在被广泛应用于种群遗传学中。然而，在大型现代数据集中推断人口结构带来了严重的计算挑战。在这里，我们使用变分贝叶斯框架开发了有效的算法来近似推断STRUCTURE程序下的模型。变分方法将计算相关后验分布的问题视为一个优化问题，允许我们在优化理论的最新进展基础上开发快速推理工具。此外，我们提出了有用的启发式分数来识别数据集中表示的人口数量，并在检测数据中的弱势人口结构之前，提出了一种新的层次结构。我们在模拟数据上测试变分算法，并使用CEPH-Human Genome Diversity Panel的基因型数据进行说明。变分算法比STRUCTURE快近两个数量级，并且达到了与ADMIXTURE相当的精度。此外，我们的结果表明，用于选择模型复杂度的启发式分数为数据中表示的人口数量提供了一个合理的值范围，当结构很弱时，对检测结构的偏差最小。我们的算法fastSTRUCTURE在网上免费提供http://pritchardlab.stanford.edu/structure.html。

关键词：人口结构；变分推理。

PubMed免责声明

数字

图1
不同算法的准确性与种群结构的可解性有关。（A）模拟数据集中三个人口的人口模型。边缘权重量化了来自祖先种群的漂移量。（B和C）可分辨性是一个标量，人口模型中特定人群的漂移乘以该标量，可分辨性值越高，结构越强。（B）比较给定数据的最佳模型复杂度，平均50次重复，由ADMIXTURE推断 $(K_{c（c） v（v）}^{*})$ ，具有简单优先权的fastSTRUCTURE $(K_{c（c） v（v）}^{*}, K_{ℰ}^{*}, K_{\emptyset^{C类}}^{*})$ 和fastSTRUCTURE，具有后勤优先权 $(K_{c（c） v（v）}^{*})$ （C）比较各算法在最佳值K在每个复制中。

图2
不同算法的准确度是真实人口数量的函数。人口统计模型是一个星形谱系，其人口经历了等量的漂移。子图A和C对应于强结构(F类=0.04），B和D为弱结构(F类= 0.01). （A和B）将不同算法使用不同指标估计的最佳模型复杂度（50次重复的平均值）与数据中表示的真实人口数进行比较。值得注意的是，当种群结构较弱时，当种群数量过大时，ADMIXTURE和fastSTRUCTURE都无法检测到结构。（C和D）比较每个算法在每个复制的最佳模型复杂度下估计的混合比例的准确性。

图3
不同算法的准确性与模型复杂性的关系(K)在两个模拟数据集上，其中一个数据集的祖先很容易解析（A；第页=1）和一个祖先很难解决的：（B；第页=0.5）实线对应于使用收敛准则|Δ计算的参数估计值ℰ| < 10⁻⁸，而虚线对应的是一个较弱的标准|Δℰ| < 10⁻⁶（左）真实和推断混合比例之间的平均混合散度；搁置基因型条目的（中间）平均二项式偏差。注意，对于的值K预测误差的任何变化都大于最佳值，都在预测误差估计值的标准误差范围内，这表明我们应该选择模型复杂度的最小值，高于该值，预测误差的减少在统计上是不显著的。（右）由STRUCTURE和fastSTRUCTURE计算的数据的边际似然近似值。

图4
在两个模拟数据集上可视化由不同算法估计的祖先比例，其中一个具有强结构（顶部，第页=1）和一个弱结构（底部，第页= 0.5). （左和中）按模型复杂性估计的祖先K=3和K分别为5。插图说明了真正的祖先和每个算法推断的祖先。每种颜色代表一个种群，每一个个体由一条垂直线表示，该垂直线被分割成各色段，各色段的长度代表混合比例K人口。（右）当模型复杂时，模型组件的平均祖先贡献K= 5.

图5
不同算法在不同位点和样本数的模拟数据集上的运行时间；运行时间的平方根（以分钟为单位）被绘制为问题大小的平方根的函数（定义为N个×*L（左）*×K). 与图3类似，虚线对应的收敛标准比实线弱。

图6
通过ADMIXTURE和fastSTRUCTURE（带简单先验）在HGDP数据上推断的祖先比例K=7（李等。2008). 值得注意的是，ADMIXTURE将中美洲和南美洲人口分为两组，而fastSTRUCTURE将撒哈拉以南非洲人口分为这两组的可能性分配为更高的近似边际可能性。

图7
HGDP数据上外加剂和fastSTRUCTURE的模型选择（具有简单的优先权）。的最佳值K，由使用偏差残差的ADMIXTURE和使用偏差的fastSTRUCTURE确定， $K_{\emptyset^{C类}}$ 、和LLBO以虚线显示。

图8
在最佳选择K由每个算法的相关度量确定。值得注意的是 $K = K_{ℰ}^{*}$ 和 $K = K_{\emptyset^{C类}}^{*}$ 它们非常相似，在后一种情况下，估计卡拉什和卡里塔尼亚纳是另外两个独立的群体，与其余种群几乎没有共同祖先。

请参阅PMC中的此图像和版权信息

中的注释

公共结构的变化：有价值模型的新算法。
诺文布雷·J。诺文布雷·J。遗传学。2014年7月；197(3):809-11. doi:10.1534/genetics.114.166264。遗传学。2014 PMID：25024035 免费PMC文章。没有可用的摘要。

类似文章

测序研究中分层和局部混合的从头推断。
张勇。张勇。 BMC生物信息学。2013;14补充5（补充5）：S17。doi:10.1186/1471-2105-14-S5-S17。Epub 2013年4月10日。 BMC生物信息学。2013 PMID：23734678 免费PMC文章。
一个具有基因型×环境相互作用的变分贝叶斯基因组预测模型。
Montesinos-López OA、Montesinos-López A、Crossa J、Montecinos-Löpez JC、Luna-Vázquez FJ、Salinas-Ruiz J、Herrera-Morales JR、Buenrostro-Mariscal R。 Montesinos-López OA等人。 G3（贝塞斯达）。2017年6月7日；7(6):1833-1853. doi:10.1534/g3.117.041202。 G3（贝塞斯达）。2017 PMID：28391241 免费PMC文章。
POPSTR：基于单核苷酸多态性和拷贝数变异的容许种群结构推断。
Ahn J、Conkright B、Boca SM、Madhavan S。 Ahn J等人。计算机生物学杂志。2018年4月；25(4):417-429. doi:10.1089/cmb.2017.0127。Epub 2018年1月2日。计算机生物学杂志。2018 PMID：29293371 免费PMC文章。
比较从未链接分子标记推断遗传群体结构的算法。
佩纳·马拉维拉a、布鲁诺C、费尔南德斯E、巴尔扎里尼M。 Peña-Malavera a等人。统计应用基因分子生物学。2014年8月；13(4):391-402. doi:10.1515/sagmb-2013-0006。统计应用基因分子生物学。2014 PMID：24964261 审查。
用序列和SNP数据推断人口规模变化：人类瓶颈的教训。
Gattepaille LM、Jakobsson M、Blum MG。 Gattepaille LM等人。遗传（爱丁堡）。2013年5月；110(5):409-19. doi:10.1038/hdy.2012.120。Epub 2013年2月20日。遗传（爱丁堡）。2013 PMID：23423148 免费PMC文章。审查。

查看所有类似文章

引用人

鸟类发声节奏的基因组基础。
Sebastianelli M、Lukhele SM、Secomandi S、de Souza SG、Haase B、Moysi M、Nikiforou C、Hutfluss A、Mountcastle J、Balacco J、Pelan S、Chow W、Fedrigo O、Downs CT、Monadjem A、Dingemanse NJ、Jarvis ED、Brelsford A、vonHoldt BM、Kirschel ANG。 Sebastianelli M等人。国家公社。2024年4月23日；15(1):3095. doi:10.1038/s41467-024-47305-5。国家公社。2024 PMID：38653976
水稻多样性小组的全基因组关联研究揭示了埃及条件下耐缺水性的新QTL。
Ghazy MI、El Naem SA、Hefeina AG、Sallam A、Eltaher S。 Ghazy MI等人。大米（NY）。2024年4月23日；17(1):29. doi:10.1186/s12284-024-00703-1。大米（NY）。2024 PMID：38649523
全基因组关联研究揭示了药物型大麻农艺性状和形态性状的遗传见解。
de Ronne M、Lapierre E、Torkamaneh D。 de Ronne M等人。科学报告，2024年4月22日；14(1):9162. doi:10.1038/s41598-024-58931-w。科学报告2024。 PMID：38644388 免费PMC文章。
适应性渗入揭示了壁虎性选择综合征的遗传基础。
Feiner N、Yang W、Bunikis I、While GM、Uller T。 Feiner N等人。《科学促进》2024年4月5日；10（14）：eadk9315。doi:10.1126/sciadv.adk9315。Epub 2024年4月3日。科学进展2024。 PMID：38569035 免费PMC文章。
端粒长度对前列腺癌侵袭性、基因组不稳定性和健康差异的影响。
Huang R、Bornman MSR、Stricker PD、Simoni Brum I、Mutambirwa SBA、Jaratlerdsiri W、Hayes VM。 Huang R等人。科学报告，2024年4月2日；14(1):7706. doi:10.1038/s41598-024-57566-1。科学报告2024。 PMID：38565642 免费PMC文章。

查看所有“被引用”文章

工具书类

1. Alexander D.H.，Novembre J.，Lange K.，2009年。基于模型的无关个体祖先快速估计。基因组研究19（9）：1655–1664。-项目管理咨询公司-公共医学
1. Beal，M.J.，2003近似贝叶斯推理的变分算法。伦敦大学学院盖茨比计算神经科学部博士论文。
1. Blei D.M.、Ng A.Y.、Jordan M.I.，2003年。潜在的dirichlet分配。J.马赫。学习。决议3:993–1022。
1. Carbonetto P.，Stephens M.，2012年。回归中贝叶斯变量选择的可缩放变分推理及其在遗传关联研究中的准确性。贝叶斯分析。7(1): 73–108.
1. Catchen J.、Bassham S.、Wilson T.、Currey M.、O'Brien C.等人，2013年。使用限制性位点相关的DNA测序确定俄勒冈州三棘棘棘鱼的种群结构和最近的殖民化历史。摩尔生态。22: 2864–2883.-项目管理咨询公司-公共医学

出版物类型

行动
行动

赠款和资金

LinkOut-更多资源

全文源
其他文献来源
- 镜片-专利引文
- scite智能引文

[1] Alexander D.H.，Novembre J.，Lange K.，2009年。基于模型的无关个体祖先快速估计。基因组研究19（9）：1655–1664。-项目管理咨询公司-公共医学

[2] Alexander D.H.，Novembre J.，Lange K.，2009年。基于模型的无关个体祖先快速估计。基因组研究19（9）：1655–1664。-项目管理咨询公司-公共医学

[3] Beal，M.J.，2003近似贝叶斯推理的变分算法。伦敦大学学院盖茨比计算神经科学部博士论文。

[4] Beal，M.J.，2003近似贝叶斯推理的变分算法。伦敦大学学院盖茨比计算神经科学部博士论文。

[5] Blei D.M.、Ng A.Y.、Jordan M.I.，2003年。潜在的dirichlet分配。J.马赫。学习。决议3:993–1022。

[6] Blei D.M.、Ng A.Y.、Jordan M.I.，2003年。潜在的dirichlet分配。J.马赫。学习。决议3:993–1022。

[7] Carbonetto P.，Stephens M.，2012年。回归中贝叶斯变量选择的可缩放变分推理及其在遗传关联研究中的准确性。贝叶斯分析。7(1): 73–108.

[8] Carbonetto P.，Stephens M.，2012年。回归中贝叶斯变量选择的可缩放变分推理及其在遗传关联研究中的准确性。贝叶斯分析。7(1): 73–108.

[9] Catchen J.、Bassham S.、Wilson T.、Currey M.、O'Brien C.等人，2013年。使用限制性位点相关的DNA测序确定俄勒冈州三棘棘棘鱼的种群结构和最近的殖民化历史。摩尔生态。22: 2864–2883.-项目管理咨询公司-公共医学

[10] Catchen J.、Bassham S.、Wilson T.、Currey M.、O'Brien C.等人，2013年。使用限制性位点相关的DNA测序确定俄勒冈州三棘棘棘鱼的种群结构和最近的殖民化历史。摩尔生态。22: 2864–2883.-项目管理咨询公司-公共医学

将引文保存到文件

电子邮件引文

添加到集合

添加到我的书目

您保存的搜索

为外部引文管理软件创建文件

你的RSS订阅源

fastSTRUCTURE:大型SNP数据集中种群结构的变分推断

附属公司

fastSTRUCTURE:大型SNP数据集中种群结构的变分推断

作者

附属公司

摘要

数字

中的注释

类似文章

引用人

工具书类

出版物类型

MeSH术语

赠款和资金

LinkOut-更多资源

全文源

其他文献来源

摘要

数字

中的注释

类似文章

引用人

工具书类

出版物类型

MeSH术语

相关信息

赠款和资金

LinkOut-更多资源

全文源

其他文献来源