跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
2008年3月;178(3):1709-23。
doi:10.1534/genetics.107.080101。

模型生物关联映射中种群结构的有效控制

附属公司

模型生物关联映射中种群结构的有效控制

Hyun Min Kang(玄敏康)等。 遗传学 2008年3月

摘要

近交系小鼠等模式生物的全基因组关联图谱是一种很有前途的方法,可用于识别与人类疾病相关的风险因素。然而,近交模式生物的遗传关联研究面临着菌株间复杂的群体结构问题。这导致虚假阳性率过高,无法使用基因组控制或结构关联等人类关联研究中应用的标准方法进行纠正。最近的研究表明,混合模型成功地纠正了玉米和拟南芥面板数据集关联映射中的遗传相关性。然而,目前可用的混合模型方法存在计算效率低下的问题。在这篇文章中,我们提出了一种新的方法,高效混合模型关联(EMMA),它修正了模型生物关联映射中的种群结构和遗传相关性。我们的方法利用了优化问题的特殊性,将混合模型应用于关联映射,从而大大提高了计算速度和结果的可靠性。除了拟南芥和玉米数据集外,我们还将EMMA应用于近交系小鼠菌株的电子全基因组关联图绘制,其中涉及数十万个SNP。我们还进行了广泛的模拟研究,以估计EMMA在各种SNP效应、不同程度的种群结构和不同数量的每个菌株多次测量下的统计能力。尽管由于可用近交系数量有限,近交系小鼠关联映射的能力有限,但我们能够识别出显著相关的SNP,这些SNP属于已知QTL或通过先前研究确定的基因,同时避免了假阳性的膨胀。我们的EMMA方法的R包实现和Web服务器是公开的。

PubMed免责声明

数字

F<sc>图</sc>1-
F类鬣蜥1.—
(a) 直接比较P(P)-ASREML和EMMA之间的值,使用基于相似性的亲属关系矩阵从553个玉米面板数据的SNP和开花期表型计算得出P(P)-值几乎相同,这意味着这两种方法在准确性方面几乎相同。ASREML中的一个SNP在方差分量估计过程中未能收敛,而在EMMA中成功。(b) 累计分布P(P)-不同模型中的值。在假设SNP没有联系并且几乎没有真正的SNP关联的情况下,观察到P(P)-预计值将接近累计值P(P)-值。与预期的大偏差意味着统计检验可能会导致虚假关联。简单,简单-测试;SA,结构化关联;MM,一个F类-使用指定亲属关系矩阵的混合模型进行测试。
图1-
F类1.—
(a) 直接比较P(P)-ASREML和EMMA之间的值,使用基于相似性的亲属关系矩阵从553个玉米面板数据的SNP和开花期表型计算得出P(P)-值几乎相同,这意味着这两种方法在准确性方面几乎相同。ASREML中的一个SNP在方差分量估计过程中未能收敛,而在EMMA中成功。(b) 累计分布P(P)-不同模型之间的值。在假设SNP没有联系并且几乎没有真正的SNP关联的情况下,观察到P(P)-预计值将接近累计值P(P)-值。与预期的大偏差意味着统计检验可能会导致虚假关联。简单,简单-测试;SA,结构化关联;MM,一个F类-使用指定亲属关系矩阵的混合模型进行测试。
图2-
F类鬣蜥2.—
观察到的全基因组累积分布P(P)-(a)13416个拟南芥SNP和95个不同模型菌株的开花期表型之间的值,以及(b)106040个小鼠HapMap SNP以及三种表型、体重(38个菌株374次测量)、肝脏重量(34个菌株304次测量)和糖精偏好(24个菌株280次测量)之间的值。S或Simple,简单-测试;SA,结构化关联;MM,一个F类-使用单倍型相似性亲属关系矩阵的混合模型进行测试;SA+MM,使用STRUCTURE输出作为附加固定效果的统一混合模型。
图2-
F类鬣蜥2.—
观察到的全基因组累积分布P(P)-(a)13416个拟南芥SNP和95个不同模型菌株的开花期表型之间的值,以及(b)106040个小鼠HapMap SNP以及三种表型、体重(38个菌株374次测量)、肝脏重量(34个菌株304次测量)和糖精偏好(24个菌株280次测量)之间的值。S或Simple,简单-测试;SA,结构化关联;MM,一个F类-使用单倍型相似性亲属关系矩阵的混合模型进行测试;SA+MM,使用STRUCTURE输出作为附加固定效果的统一混合模型。
图</sc>3-
F类鬣蜥3.—
使用简单的全基因组扫描方法,研究初始体重、肝脏重量和糖精偏好的相关性-测试和F类-根据单倍型相似性推断出的亲属关系,用混合模型进行测试。
图</sc>3-
F类鬣蜥3.—
使用简单的全基因组扫描方法,研究初始体重、肝脏重量和糖精偏好的相关性-测试和F类-根据单倍型相似性推断出的亲属关系,用混合模型进行测试。
图</sc>3-
F类鬣蜥3.—
使用简单的全基因组扫描方法,研究初始体重、肝脏重量和糖精偏好的相关性-测试和F类-根据单倍型相似性推断出的亲属关系,用混合模型进行测试。
图</sc>3-
F类鬣蜥3.—
使用简单的全基因组扫描方法,研究初始体重、肝脏重量和糖精偏好的相关性-测试和F类-根据单倍型相似性推断出的亲属关系,用混合模型进行测试。
图</sc>3-
F类鬣蜥3.—
使用简单的全基因组扫描方法,研究初始体重、肝脏重量和糖精偏好的相关性-测试和F类-根据单倍型相似性推断出的亲属关系,用混合模型进行测试。
图4-
F类鬣蜥4.—
通过随机选择全基因组SNP中的因果SNP,比较EMMA方法在三种不同近交系小鼠表型和拟南芥和玉米开花时间上的统计能力。(a) 逐点幂表示在标称值下识别因果SNP的能力P(P)-值为0.05。(b) 区域性权力假设一个基因组区域中有50个假设的标签SNPs。tagSNP之间有20 kb,基因组区域覆盖高达1 Mb。(c) 全基因组力量是指使用P(P)-阈值10−5,这与使用原始表型的基于排列的全基因组显著性阈值相比是保守的。假设次要等位基因频率(MAF)为0.3,计算SNP效应解释的表型变异。
图4-
F类鬣蜥4.—
通过随机选择全基因组SNP中的因果SNP,比较EMMA方法在三种不同近交系小鼠表型和拟南芥和玉米开花时间上的统计能力。(a) 逐点幂表示在标称值下识别因果SNP的能力P(P)-值为0.05。(b) 地区权力假设基因组区域中有50个假想tagSNP。tagSNP之间有20 kb,基因组区域覆盖高达1 Mb。(c) 全基因组力量是指使用P(P)-阈值10−5,这与使用原始表型的基于排列的全基因组显著性阈值相比是保守的。假设次要等位基因频率(MAF)为0.3,计算SNP效应解释的表型变异。
图4-
F类4.—
通过随机选择全基因组SNP中的因果SNP,比较EMMA方法在三种不同近交系小鼠表型和拟南芥和玉米开花时间上的统计能力。(a) 逐点幂表示在标称值下识别因果SNP的能力P(P)-值为0.05。(b) 地区权力假设基因组区域中有50个假想tagSNP。tagSNP之间有20 kb,基因组区域覆盖高达1 Mb。(c) 全基因组权力是指利用P(P)-阈值10−5,这与使用原始表型的基于排列的全基因组显著性阈值相比是保守的。假设次要等位基因频率(MAF)为0.3,计算SNP效应解释的表型变异。
图5-
F类鬣蜥5.—
EMMA方法应用于近交小鼠的全基因组能力的比较,以模拟具有各种SNP效应、遗传背景效应和多次测量次数的表型。显著性阈值为P(P)= 10−5是每个应变的多次测量次数,以及公式图像是未添加SNP效应时,由遗传背景解释的总体表型方差中的方差部分。(a) 使用公式图像变化β和(b)与a相同,使用每个菌株的平均表型值,而不是单个测量值。(c) 每个应变有10次多次测量,β和公式图像(d) β=σ,变化公式图像种群结构的影响通过改变两个方差分量的比率而改变,并且用(a)10个测量值和(b)每个菌株的单个测量值来模拟多次测量的次数。
图5-
F类5.—
EMMA方法应用于近交小鼠的全基因组能力的比较,以模拟具有各种SNP效应、遗传背景效应和多次测量次数的表型。显著性阈值为P(P)= 10−5是每个应变的多次测量次数,以及公式图像是未添加SNP效应时,由遗传背景解释的总体表型方差中的方差部分。(a) 与公式图像变化β和(b)与a相同,使用每个菌株的平均表型值,而不是单个测量值。(c) 每个应变有10次多次测量,β和公式图像(d) β=σ,变化公式图像种群结构的影响通过改变两个方差分量的比率而改变,并且用(a)10个测量值和(b)每个菌株的单个测量值模拟多次测量的次数。
图5-
F类鬣蜥5.—
EMMA方法应用于近交小鼠的全基因组能力的比较,以模拟具有各种SNP效应、遗传背景效应和多次测量次数的表型。显著性阈值为P(P)= 10−5是每个应变的多次测量次数,以及公式图像是未添加SNP效应时,由遗传背景解释的总体表型方差中的方差部分。(a) 使用公式图像变化β和(b)与a相同,使用每个菌株的平均表型值,而不是单个测量值。(c) 每个应变有10次多次测量,β和公式图像(d) β=σ,变化公式图像种群结构的影响通过改变两个方差分量的比率而改变,并且用(a)10个测量值和(b)每个菌株的单个测量值模拟多次测量的次数。
图5-
F类鬣蜥5.—
EMMA方法应用于近交小鼠的全基因组能力的比较,以模拟具有各种SNP效应、遗传背景效应和多次测量次数的表型。显著性阈值为P(P)= 10−5是每个应变的多次测量次数,以及公式图像是未添加SNP效应时,由遗传背景解释的总体表型方差中的方差部分。(a) 使用公式图像变化β和(b)与a相同,使用每个菌株的平均表型值,而不是单个测量值。(c) 每个应变有10次多次测量,β和公式图像(d) β=σ,变化公式图像种群结构的影响通过改变两个方差分量的比率而改变,并且用(a)10个测量值和(b)每个菌株的单个测量值模拟多次测量的次数。

类似文章

引用人

工具书类

    1. Annuciado,R.V.P.,M.Nishimura,M.Mori,A.Ishikawa,S.Tanaka等人,2001年。SM/J和A/J小鼠杂交中体重的数量性状位点。实验动画。50 319–324.-公共医学
    1. Aranzana,M.J.,S.Kim,K.Zhao,E.Bakker,M.Horton等人,2005年。拟南芥的全基因组关联图谱确定了先前已知的开花时间和病原体抗性基因。公共科学图书馆-遗传学。1 e60。-项目管理咨询公司-公共医学
    1. Arbelbide,M.、J.Yu和R.Bernado,2006年。自花授粉作物表型、系谱和标记数据的混合模型QTL定位的威力。西奥。申请。遗传学。112 876–884.-公共医学
    1. Belknap,J.K.,1998年。利用重组近交系小鼠进行QTL检测和定位时,菌株内样本大小的影响。行为。遗传学。28 29–38.-公共医学
    1. Bhattacharya,T.、M.Daniels、D.Heckerman、B.Foley、N.Frahm等人,2007年。HIV多态性和HLA等位基因关联评估中的创始人效应。科学315 1583–1586。-公共医学

出版物类型