跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

该站点是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2007年8月;176(4):2451-63.
doi:10.1534/genetics.107.074732。 Epub 2007年7月1日。

通过变异聚类快速检测基因和基因组中的阳性选择

附属公司

通过变异聚类快速检测基因和基因组中的阳性选择

安德烈亚斯·瓦格纳. 遗传学. 2007年8月.

摘要

基因和基因组的正向选择可以指出物种之间和物种内种族之间差异的进化基础。阳性选择的检测也有助于识别功能重要的蛋白质区域,从而指导蛋白质工程。许多现有的阳性选择测试过于保守,容易受到人口统计历史造成的伪影的影响,或者计算量很大。我在这里提出了一个简单快速的测试,它是对现有测试的补充,可以克服其中的一些问题。它依赖于零假设,即中性进化的DNA区域应显示核苷酸替代的泊松分布。该测试以变异簇的形式检测出与预期的显著偏差,即编码区中氨基酸变化的高度局部化基团。在对数千只人类黑猩猩的基因直系图进行测试时,我发现这种变异簇通常不是由宽松的选择引起的。它们出现在蛋白质三级结构的明确结构域中,并显示出大量的氨基酸取代而不是沉默取代。我还发现了多个新的人类-黑猩猩直系同源基因,这些基因受到积极选择,其中包括与生殖功能、免疫防御和神经系统有关的基因。

PubMed免责声明

数字

图1-
F类鬣蜥1.—
许多基因具有高度显著的变异簇。(a) 变体集群示意图。水平线代表基因的蛋白质编码区。线条上方的横线表示编码区中的氨基酸变化。线下方的横线表示无提示的核苷酸变化。虚线表示一个高度显著的变异簇,在一个短区域内积累了过多的氨基酸变化,仅凭偶然就能看到。(b) 显著性柱状图P(P)u个(注意对数标度)氨基酸取代间距与均匀分布的偏差。(c) 显著性柱状图P(P)第页2896个人类-黑猩猩基因对的氨基酸替代间隔与泊松分布的偏差,这些基因对可以在人类基因的全长上对齐。为了便于查看,b和c中的水平轴仅延伸至P(P)< 10−15。但是,有三个值P(P)第页小于10−15,在b中的直方图上没有显示。另外,因为P(P)u个涉及到计算成本高昂的随机化方法,P(P)u个仅估计值大于10−5.值小于10−5设为零,不出现在c中的直方图上。有15个基因P(P)u个< 10−5(d)对数的散点图10(P(P)u个)和–log10(P(P)第页). 实线表示–log10(P(P)u个)=–log10(P(P)第页),并且虚线是线性回归线。P(P)第页P(P)u个高度相关(斯皮尔曼= 0.51;n个= 2896;P(P)< 10−17),但–log10(P(P)第页)>–对数10(P(P)u个)对于大多数基因来说。
图2-
F类鬣蜥2.—
高度显著的变异簇在一个小区域内包含多个替代。水平轴显示了重要性P(P)第页2896个人类-黑猩猩基因对的泊松分布偏差。注意对数刻度。(a) 纵轴显示了在最显著的变异簇中观察到的氨基酸变化数量。(b) 纵轴显示了这个簇跨越的蛋白质编码区长度的部分。作为P(P)第页增加,越来越多的氨基酸变化集中在越来越小的区域。
图</sc>3-
F类鬣蜥3.—
变体簇包含的替换更改比静默更改多得多。(a) 水平轴显示P(P)第页在对数标度上,纵轴显示氨基酸的比例在最显著的变异簇内(实心圈)和蛋白质编码区的其余部分(开放圈)发生了变化。请注意纵轴上的对数刻度,这表明一个簇内氨基酸变化的比例比基因其余部分高几个数量级。(b) 基因对根据P(P)第页,如水平轴所示。空心圆和实心圆分别表示在n个共检测2896对基因。晶须表示平均值的一个标准误差。虽然氨基酸的数量随着聚类显著性的增加而急剧增加,但同义词的数量没有变化。(c) 空心圆表示平均比率N个/中最显著变化簇的无声更改替换数量n个共检测2896对基因。实心圆圈表示相同的平均比率,但表示基因对作为一个整体。晶须表示平均值的一个标准误差。水平线表示比率N个/=3:1,这略大于中性进化预期的比率(见正文),使分析趋于保守。标有星号(*)的平均值明显大于3:1的比率(10−3<P(P)第页< 10−2:n个= 62,P(P)= 1.06 × 10−3; 10−4<P(P)第页< 10−3:n个= 28,P(P)= 3 × 10−6; 10−5<P(P)第页< 10−4:n个= 12,P(P)= 4.6 × 10−2;P(P)第页< 10−5:n个= 23,P(P)= 1.65 × 10−3;t吨-单一平均值测试)。
图4-
F类鬣蜥4.—
蛋白质三级结构中氨基酸的聚集变化。(a) 横轴显示–log10(P(P)三维),仅针对该变异簇中的氨基酸进行计算;纵轴显示–log10(P(P)第页).P(P)三维表明蛋白质中发生的氨基酸变化在多大程度上显著聚集在蛋白质的三级结构中(斯皮尔曼= 0.67,P(P)< 10−18). (b) 氨基酸和编码人类β2-嵌合体基因的沉默变异。水平线代表蛋白质编码区(468个氨基酸)。线上方的红色条表示编码区域中的氨基酸变化。线下方的黑色条表示无提示的核苷酸变化。虚线表示最显著的变化集群。这个簇中的氨基酸变化(从左到右)用字母表示(从上到下)。(c) 蓝色蛋白质的三级结构,红色显示氨基酸变化(来自PDB文件1XA6;c阿纳加拉杰 . 2004). 这三个蛋白质域用白色字母表示。请注意,所有氨基酸变化都发生在SH2结构域中。(d) SH2域以白色方框显示,放大了。请注意,尽管氨基酸变化可能高度聚集,但受影响氨基酸的侧链不一定立即接触。(e) HHR23B编码区的氨基酸变异(399个氨基酸),与精子发生有关。(f) 核磁共振三级结构(蓝色,PDB文件1UEL;R HHR23B编码的蛋白质的N末端泛素样结构域(91个氨基酸)与蛋白质S5A(灰色)复合,参与蛋白质降解。最显著变异簇中的氨基酸变化用红色标记。

类似文章

引用人

工具书类

    1. Akey,J.M.,M.A.Eberle,M.J.Rieder,C.S.Carlson,M.D.Shriver等人,2004年。种群历史和自然选择形成了132个基因的遗传变异模式。普洛斯生物。2: 1591–1599.-项目管理咨询公司-公共医学
    1. Altschul,S.F.,T.L.Madden,A.A.Schaffer,J.H.Zhang等人,1997年。Gapped Blast和Psi-Blast:新一代蛋白质数据库搜索程序。核酸研究25:3389–3402。-项目管理咨询公司-公共医学
    1. Andolfatto,P.,2005年。果蝇非编码DNA的适应性进化。自然437:1149-1152。-公共医学
    1. Bamshad,M.和S.P.Wooding,2003年。人类基因组中自然选择的特征。Nat.Rev.基因。4: 99–111.-公共医学
    1. Bustamante,C.D.、A.Fledel-Alon、S.Williamson、R.Nielsen、M.T.Hubisz等人,2005年。人类基因组中蛋白质编码基因的自然选择。自然437:1153-1157。-公共医学