跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2016年1月7日;98(1):165-84.
doi:10.1016/j.ajhg.2015.12.001。

美国拉丁裔/拉丁裔人群的遗传多样性和关联研究:在拉丁裔社区健康研究中的应用

附属公司

美国拉丁裔/拉丁裔人群的遗传多样性和关联研究:在拉丁裔社区健康研究中的应用

马修·科诺莫斯等。 美国人类遗传学杂志. .

摘要

美国西班牙裔/拉丁裔个人在遗传血统、文化和环境暴露方面存在差异。在这里,我们对拉丁裔社区健康研究(HCHS/SOL)的全基因组关联研究(GWAS)中的这种多样性进行了表征和控制。我们同时估计了对家族相关性稳健的人口结构主成分(PC)和对人口结构、混合和Hardy-Weinberg离差稳健的成对亲属关系系数(KC)。个人电脑显示出六个自我识别背景群体(古巴人、多米尼加人、波多黎各人、墨西哥人、中美洲和南美洲人)内部和之间的显著遗传分化。为了控制群体间的差异,我们开发了一种多维聚类方法,定义了一个“遗传分析群体”变量,该变量保留了自我认同背景的许多属性,同时在群体内实现了更大的遗传同质性,包括具有非特异性自我认同的参与者。在22个生物医学性状的GWAS中,我们使用了一个线性混合模型(LMM),其中包括两两经验KC,以说明家族相关性,PC用于祖先,遗传分析组用于其他群体相关效应。即使我们拟合了20个PCs,将遗传分析组作为协变量也会导致22个性状中的8个出现显著的性状变异。此外,遗传分析组在22个性状的20个性状中具有显著的剩余方差异质性,并且在LMM中建模这种异方差性降低了19个性状的基因组膨胀。此外,使用基因分析组而非自我识别背景组拟合LMM,可以获得更高的检测先前报告关联性的能力。我们希望本文所采用的方法在其他多民族、混合和相关的研究中也会有用。

PubMed免责声明

数字

图1
图1
超椭球体捕获每个自我识别背景组内的大多数遗传变异为了说明遗传分析组的定义,这里我们仅使用PC1–3,尽管完整定义使用PC1-5。这些个人电脑来自除东亚血统高的人以外的所有个人PCA。3D超椭球体包含最高密度的点(由MCD定义),用于自我识别的墨西哥、中美洲和波多黎各背景组(为了视觉清晰,省略了古巴、多米尼加和南美背景组)。
图2
图2
自体染色体和X染色体的大陆祖先比例(A)对一组无关HCHS/SOL个体的常染色体大陆祖先比例的估计按自我识别背景进行分组,并显示每组无关个体的数量。每个竖线代表一个个体,三个彩色代码段代表三个祖先部分。(B) 箱线图显示了常染色体(来自A)和X染色体在每个自我识别背景组中的大陆血统比例估计值的分布。使用相同的个体(不包括15名X染色体异常的个体)计算X染色体估计值和常染色体估计值。
图3
图3
HCHS/SOL参与者的个人电脑使用除东亚血统较高的异常值外的所有个体进行计算。颜色编码是通过自我识别的背景。“其他”包括自我认同具有多重或其他背景或价值观缺失的受试者。(A) PC 1和2的散点图。每个点代表一个人。代表一个大陆祖先比例较高的地区被标记。三角形的三个顶点代表了三大洲每一大洲的高比例祖先,这是通过投影与研究样本进行基因分型的对照样本来确定的(数据未显示)。(B) 前12个PC的平行坐标图。12条等长的平行垂直线对应于前12个PCs。每个人由一组连接其PC值的线段表示。横坐标标签中给出了每个PC的方差百分比。
图4
图4
HCHS/SOL参与者PC的3D图主成分分析包括除具有高东亚血统的异常值外的所有研究参与者。(A) 个人电脑1–3,通过自我识别的背景进行颜色编码。(B) PC 3–5,颜色编码如(A)所示。(C) 个人电脑3-5,带有祖父母原籍国的颜色编码,适用于自认为具有南美背景的个人。(D–F)PC 1、2和3的颜色编码分别基于非洲(D)、美洲(E)和欧洲(F)大陆祖先比例的外加剂估计值。
图5
图5
根据参与者的报告,按祖父母原籍国计算的个人电脑是由四位祖父母来自同一国家的无关个人计算的。用于PCA的SNP集与用于排除东亚血统高的个体的整体PCA的相同。(A) 中美洲、哥伦比亚或委内瑞拉祖父母的PCA。排除了37名非洲血统比例较高的离群值(见受试者和方法)。(B) 显示(A)中个人祖父母出身国家地理位置的地图。(C) 来自特定南美国家的祖父母个人PCA。排除了两个异常值。(D) 显示(C)中个人祖父母出身国家地理位置的地图。(A)和(C)中显示了最清楚地分隔国家的两台PC。其他PC的成对图如图S6和S7所示。
图6
图6
具有和不具有特定自我识别背景组的个体之间显示遗传相似性的个人电脑对所有个体进行相同的个人电脑计算,但具有高东亚血统的异常者除外。自我认同为六个特定背景组之一的个体为棕色,“其他”组的个体为红色。(B) 前12台PC的平行坐标图,包括透明颜色和随机打印顺序。横坐标标签中给出了每个PC的方差百分比。
图7
图7
墨西哥遗传分析组的遗传同质性高于墨西哥自我识别背景组(A)五维PC空间中个体与墨西哥超椭球体中心之间马氏距离的分布。四个箱线图包括以下个人:(1)墨西哥自我认同背景组和墨西哥遗传分析组,(2)墨西哥自我确认背景组和另一个(非墨西哥)遗传分析组(3)另一个组(非墨西哥组)特定的自我认同背景组和墨西哥基因分析组,以及(4)“其他”(即多个、其他或缺失值)自我认同背景小组和墨西哥遗传分析组。红线表示墨西哥超椭球体边界到其中心的距离,这是定义遗传分析组的标准之一。(B和C)墨西哥自我认同背景或墨西哥遗传分析组个体的平行坐标图(PC来自所有个体的PCA,东亚血统高的异常个体除外)。两个图的PC缩放比例相同。小组(B)只显示了墨西哥自我认同背景组中的个人,并区分了那些同样属于墨西哥遗传分析组的人和那些不属于墨西哥遗传研究组的人。小组(C)只显示了墨西哥基因分析小组中的个人,并将那些同样属于墨西哥自我认同背景组的人与那些不属于墨西哥自我确认背景组的人们区分开来。面板(B)显示,属于自我识别的墨西哥背景组但不属于墨西哥基因分析组(红色)的个体往往是一个或多个PC组合的异常值,而面板(C)显示属于自我识别的非墨西哥背景组和墨西哥基因分析组的个体不是异常值。
图8
图8
基因通货膨胀因子和综合GWAS中遗传分析组间异方差性之间的关系这些图中的每个点来自22个生物医学性状中的1个的GWAS(见表S1)。(A) 异方差程度的度量(各组剩余方差的CV)与基因组膨胀的度量λ气相色谱两者都是根据LMM分析中六个遗传分析组的数据汇总计算的,假设具有同方差。(B) λ气相色谱比较了假设同方差的混合LMM分析和模拟六个遗传分析组之间异质方差的混合LMM分析。(关于用性状名称标记的绘制数据,见表S5。)所有λ气相色谱通过有效的次要等位基因计数N筛选出的常染色体SNP计算值效率>120,如主题和方法所述。所有模型均包括年龄、性别、中心、样本重量、遗传分析组和其他特定的固定效应,加上家庭、街区组的随机效应,以及因相关性而产生的多基因效应。同一样本集用于每个性状的同方差和异方差模型。λ中使用了1898000个基因型SNP和12030000个插补SNP的中位数气相色谱计算。
图9
图9
LMM回归中的剩余方差分量,样本集中在遗传分析组中。对于22个生物医学性状中的每一个,用LMM估计“集中”的剩余方差成分,LMM包括性别、年龄、中心、抽样重量、遗传分析组和PC1–5的固定效应,以及块组的随机效应,家庭,以及由于亲缘关系而产生的多基因效应。在某些情况下,还包括了特异性固定效应协变量。运行第二个LMM,允许背景组的异质剩余方差。在每个面板中,灰色框显示了对假设同方差的模型的剩余方差分量的估计。彩色方框显示异方差模型中按组估计的剩余方差分量,与同方差模型中的剩余方差成分相关。每个框的范围显示95%置信区间。对于每个性状,也给出了相似比检验的p值,该检验采用无异质性的无效假设。
图10
图10
使用不同种族组定义的模型比较Wald检验统计中SNP与先前公布的性状关联的影响。对于12个生物医学性状,我们进行关联测试,以评估利用遗传分析组、自我识别背景组、,或没有组变量。每个性状的SNP编号和引文见表S7。所有模型均包括性别、中心、年龄、抽样体重、PC1–5和特异性协变量的调整。随机效应包括街区群体、家庭和遗传相关性。模型还包括基因分析组(“gengrp”,最多12747名受试者)、自我报告背景组(“background”,最多12359名受试人)或无组变量(“no group”,最多12984名受试对象)作为协变量。对于使用组变量(“gengrp”和“background”)的模型,该组拟合了异质剩余方差。(A) 例如,对于log(BMI),针对“无组”和“背景”模型的104个先前发布的SNP效应的测试统计数据都是根据“gengrp”模型的测试统计进行绘制的。每个模型的测试统计数据除以λ气相色谱从该模型提供基因组控制。实线显示“其他”(即“背景”或“无组”)测试统计数据对“gengrp”测试统计数据的线性回归(通过原点),线周围的灰色带显示95%的置信区间。灰色细线为x=y。图上的文本给出了拟合的坡度及其SE。斜率小于1表示在“gengrp”模型中检测点击的可能性高于“other”模型。(B) 12个不同性状的检验统计的线性回归斜率(如A所示)。标签“background~gengrp”是指背景组模型中的测试统计量与遗传分析组模型中测试统计量的回归。类似地,“no-group~gengrp”指的是将来自非组模型的测试统计数据回归到遗传分析-组模型的统计数据上。每个点代表一个特征和一个模型比较的斜率,其误差条代表95%的置信区间。每个模型比较的彩色方框显示了所有12个性状斜率的平均值及其95%置信区间(数值见表S7)。红色点的斜率都小于1.0(平均值0.964),这表明背景组模型检测先前检测到的GWAS点击的能力低于遗传分析组模型。蓝色点分散在斜率1.0的上方和下方(平均值0.998),表明非组和遗传分析组模型之间的功率没有一致差异。

类似文章

引用人

工具书类

    1. Rodriguez C.J.、Allison M.、Daviglus M.L.、Isasi C.R.、Keller C.、Leira E.C.、Palaniappan L.、Piña I.L.、Ramirez S.M.、Rodrigue z B.、Sims M.、美国心脏协会流行病学和预防理事会。美国心脏协会临床心脏病学理事会。美国心脏协会心血管和中风护理委员会美国西班牙裔/拉丁裔心血管疾病和中风状况:美国心脏协会的科学咨询。循环。2014;130:593–625.-项目管理咨询公司-公共医学
    1. Manichaikul A.、Palmas W.、Rodriguez C.J.、Peralta C.A.、Divers J.、Guo X.、Chen W.M.、Wong Q.、Williams K.、Kerr K.F.美国拉美裔人口结构:动脉粥样硬化的多种族研究。公共科学图书馆-遗传学。2012;8:e1002640。-项目管理咨询公司-公共医学
    1. Gravel S.、Zakharia F.、Moreno-Estrada A.、Byrnes J.K.、Muzzio M.、Rodriguez-Flores J.L.、Kenny E.E.、Gignoux C.R.、Maples B.K.、Guiblet W.,1000基因组项目,从全基因组和全基因组数据重建美洲原住民迁徙。公共科学图书馆-遗传学。2013;9:e1004023。-项目管理咨询公司-公共医学
    1. Bryc K.、Velez C.、Karafet T.、Moreno-Estrada A.、Reynolds A.、Auton A.、Hammer M.、Bustamante C.D.、Ostrer H.Colloquium论文:拉美裔/拉丁裔人群的全基因组群体结构模式和混合。程序。国家。阿卡德。科学。美国2010年;107(补充2):8954–8961。-项目管理咨询公司-公共医学
    1. Moreno-Estrada A.、Gignoux C.R.、Fernández-López J.C.、Zakharia F.、Sikora M.、Contreras A.V.、AcuñA-Alonzo V.、Sandoval K.、Eng C.、Romero-Hidalgo S.人类遗传学。墨西哥的遗传学重演了美洲原住民的亚结构,并影响了生物医学特征。科学。2014;344:1280–1285.-项目管理咨询公司-公共医学

出版物类型