跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院程序。2004年10月26日;101(43): 15398–15403.
2004年10月18日在线发布。 数字对象标识:10.1073/编号.0404380101
预防性维修识别码:项目编号523449
PMID:15492219

编码与复杂与孟德尔病相关的单核苷酸多态性:分子效应差异的进化证据

摘要

迄今为止所研究的大多数孟德尔病都是由导致编码蛋白中单个氨基酸发生变化的突变引起的。越来越多的复杂疾病也与改变氨基酸的单核苷酸多态性(编码SNPs,cSNP)有关,这表明孟德尔病和复杂疾病在分子水平上可能有相似之处。在这里,我们使用两种不同的进化分析来比较孟德尔和复杂疾病相关cSNP。首先,我们通过使用相关蛋白质序列比对得出的氨基酸替换分数和隐马尔可夫模型的统计数据,估计蛋白质中特定氨基酸替换将影响蛋白质功能的可能性。在第二种方法中,我们使用标准的Ka/Ks比率来进行基因水平的比较,而不是单个氨基酸水平的比较。我们发现孟德尔病cSNPs有很强的发生在蛋白质中高度保守的氨基酸位置的趋势,这表明它们通常对蛋白质的功能有严重影响。也许令人惊讶的是,复杂疾病cSNP的氨基酸替代分数分布与孟德尔疾病cSNPs的分布存在显著差异,并且与“正常”人类变异的分布没有区别。此外,人类和小鼠直系亲属的Ka/Ks比率分布表明,平均而言,复杂疾病相关基因的正选择压力更大(或负选择压力更小)。这些发现表明,当使用孟德尔病作为复杂疾病的模型时,至少在蛋白质功能的分子效应方面应该谨慎。

在过去几十年里,利用遗传学来确定人类疾病的分子病因,取得了迅速进展。大多数这些疾病都是罕见的、具有高度渗透性的特征,被发现在家族中遵循孟德尔遗传规则,因此通常被称为“孟德尔疾病”。绘制孟德尔特征的连锁方法已经建立,并已导致数百种疾病的分子病因的确定。孟德尔病最常见的病因是单核苷酸多态性(SNP),导致该基因编码的蛋白质(编码SNP或cSNP)中的单个氨基酸发生变化。

另一方面,复杂性状是由遗传和环境因素引起的,因此不遵循简单的孟德尔遗传规则。寻找复杂性状的分子成因已成为人们日益关注的焦点。随着人类单倍型图谱项目的资助,人类疾病的关联研究正在迅速取得进展。数量性状位点(QTL)图谱,尤其是小鼠的QTL图谱,现在也开始取得成果(1). 许多研究人员认为,构成复杂性状的大多数SNP可能存在于基因组的调控元件中(2,). 然而,到目前为止,大多数与复杂性状相关的SNP都发现于外显子中(4). 也有越来越多的证据表明,复杂特征和孟德尔特征之间的界线变得模糊(5)对孟德尔病已知病因的了解可能会为寻找复杂疾病更难以捉摸的病因提供信息(6).

进化分析以前已经应用于人类疾病的研究。它在分子水平上特别有用:有大量关于不同生物体相关基因的数据,以及这些序列差异,如物种内的多态性,由于进化过程中选择压力和中性漂移的基本力量相同(尽管在不同的时间尺度和遗传背景的不同变化幅度上)。许多不同的研究表明,孟德尔病相关的cSNP往往发生在保守的位置,即使是在亲缘关系很远的蛋白质中(79); 这些保守位置可能在物种之间和物种内部都处于负选择状态。

最近,出现了几篇论文,试图总结日益增多的复杂性状的分子病因,尤其是人类疾病(1,4,6,10). 这些信息使我们能够在分子水平上对疾病与孟德尔病的复杂程度进行一些早期概括。

材料和方法

数据集。与孟德尔病相关的cSNP组取自人类基因突变数据库(HGMD),发布日期为2003年3月11日(11). 从健康个体中取样的cSNP集合是根据国家生物技术信息中心数据库dbSNP构建的(12),发布日期2003年5月20日,它提供了到管理的RefSeq的映射(13)蛋白质序列。为了确保我们使用了最高质量的数据,只考虑了出现在“reviewed”(以“NP”开头的登录号)序列中的cSNP。构建人类复杂疾病相关错义SNP列表(表1),我们从参考文献中提取了所有人类cSNP。1,4、和6.来自参考。10,我们只考虑了同样具有统计意义的重复关联。

表1。

与人类复杂疾病相关的非同义SNP
基因Protein GenBank登录号。蛋白质中的位置变体1变量2格兰瑟姆subPSEC公司Ka/Ks人-鼠元分析参考。
添加1 NP_001110.2号 460G公司W公司-184-5.54不适用10
美国存托凭证2NP_000015.1号27E类-29-2.700.11210
美国存托凭证3 NP_000016.1号 64W公司R(右)-101-1.130.17910
AGT公司NP_000020.1型268M(M)T型-81-0.060.33810
AGT公司NP_000020.1号207T型M(M)-81-2.410.33810
空气污染指数*NP_000029.1号1307K(K)-102-2.190.0786
APOE公司* NP_000032.1号 130C类R(右)-180-2.270.2921,4,6,10
APOE公司* NP_000032.1号 176R(右)C类-180不适用0.2926
BCHE公司 NP_000046.1号 567T型-58-0.080.12410
巴西航空公司2*NP_000050.1号372H(H)N个-68-0.840.3991,6
卡15* NP_071445.1号 702R(右)W公司-101-2.800.1741,4
卡15* NP_071445.1号 908G公司R(右)-125-3.660.1741,4
中央控制室2核电厂_000638.164V(V)-29-0.21不适用10
COMT公司 NP_000745.1号 158V(V)M(M)-21-0.400.12410
慢性阻塞性肺病 NP_000111.1号 113Y(Y)H(H)-83-3.200.15410
CTLA4型* NP_005205.2号 17T型-58-0.220.2586,10
第1页第1页 NP_000490.1号 462V(V)-29-1.150.18110
DRD3号机组*NP_000787.19S公司G公司-56-0.550.09510
五楼*NP_000121.1号534R(右)-43-1.480.2346,10
FCGR2A型NP_067674.1号165R(右)H(H)-29-0.36不适用10
GCGR公司 NP_000151.1号 40G公司S公司-56-0.460.17210
高频电子设备* 核电厂_000401.1 63H(H)D类-81-3.140.2086
IL4R(IL4R) NP_000409.1号 75V(V)-29-0.080.39710
INSR公司NP_000199.1号1012V(V)M(M)-21-0.760.03110
ITGB3型NP_000203.1号59L(左)P(P)-98-2.230.07710
最低断裂负荷2 NP_000233.1号 54G公司D类-94-4.640.36710
MEVF公司 NP_000234.1号 148E类-29不适用不适用6
MEVF公司* NP_000234.1号 369P(P)S公司-74-0.61不适用6
MS4A1型 NP_068769.2号 237E类G公司-98-2.96不适用10
MTHFR公司*NP_005948.1号222V(V)-64-3.600.0786,10
MTHFR公司NP_005948.1号429E类-107不适用0.0786
编号3 NP_000594.2号 298D类E类-45-1.550.04910
PON1型 NP_000437.3号 192R(右)-43-0.490.15410
PPARG公司NP_005028.3号10P(P)-27不适用不适用6,10
PRNP项目* NP_000302.1号 129M(M)V(V)-21-1.040.0776,10
SERPINA3系列NP_001076.1号15T型-58-1.350.35910
TP53型NP_000537.2号72R(右)P(P)-103-0.260.19210

基因名称旁边的星号表示文献中特别支持的关联。第3列显示了GenBank登录记录在第2列中的顺序位置,因此可能与文献中最常用的编号不一致。这种差异通常是因为GenBank序列代表信号肽裂解前的前蛋白。例如,ApoE具有长度为18的信号肽,因此C112R(ApoE3→ApoE4)出现在此处的位置130。第7列中的NA表示该位置不是由给定系列的PANTHER 4.1 HMM建模的,因此我们不导出subPSEC分数。这通常是因为该家族中的许多序列没有在该位置对齐氨基酸,尽管当家族序列对齐不良时也会发生这种情况。

替代位置特定进化保护(subPSEC)得分。根据PANTHER 4.1版数据库中隐藏马尔可夫模型(HMM)的比对计算SubPSEC得分(14),使用参考文献中描述的方法。9,稍作修改如下。根据PANTHER亚家族对蛋白质进行评分,如果该亚家族的HMM评分优于任何HMM家族,则使用亚家族HMM概率。此外,如果一个位置在亚科中完全保守,如果PANTHER家谱中相邻亚科的序列也保守相同的氨基酸,则将其添加到亚科中(此过程允许在分数中反映更长进化时间的保守)。复杂疾病集中的37个cSNP中总共有33个(表1)HGMD中14792个cSNP中的12519个和dbSNP中15684个cSNPs中的10586个位于与PANTHER HMM对齐的位置,可以进行评分。

随机(中性)模型分布。为随机cSNP生成模拟数据(图1以下),为每个LocusLink的最长策划的人类RefSeq蛋白序列生成蛋白质HMM比对(13)基因。对于每个蛋白质序列,将对齐区域转换为相应的mRNA序列,然后在mRNA序列中进行每一个可能的单核苷酸替换。每个导致氨基酸改变的单核苷酸取代的mRNA密码子都被用来计算亚PSEC评分。该程序共获得47085084分(其中377100分是随机抽样的)。然后根据先验的根据JSNP数据库中的数据估计SNP的转移/转换概率(15).

保存图片、插图等的外部文件。对象名称为zpq044046319001.jpg

不同cSNP组的位置特异性氨基酸替代分数的累积分布。孟德尔病(红色)、中性变异(黄色)和“正常”人类变异(绿色)的分布。复杂疾病的得分分布在黑色方块中。向图的左侧移动(分数较小)表示替换越来越激进。

孟德尔疾病相关基因和复杂疾病相关基因的随机(中性)模型分数分布(图2以下)与上述随机变化数据类似地进行计算。然而,作为对图1分布需要反映这样一个事实,即不同的基因具有不同数量的疾病相关cSNP。因此,我们分别为每个基因创建了随机分布(根据上述转换/颠倒概率加权)。集合的总体随机分布(孟德尔或复杂疾病相关)只是集合中每个基因的随机分布之和,根据该基因中cSNP的数量进行加权。例如卡15必须在复杂疾病的总体随机分布中计算两次,因为该基因中有两个cSNP与复杂疾病相关(表1).

保存图片、插图等的外部文件。对象名为zpq044046319002.jpg

孟德尔病与复杂疾病相关基因的亚PSEC评分的累积随机(中性)分布几乎相同。这是中所示比较的控件图1证明这些基因集在亚PSEC评分方面没有偏见,并且这些基因集之间的差异图1是由于特定位置的保护。

Ka/Ks比率。人鼠Ka/Ks比值是从2004年7月23日发布的HomoloGene数据库的Build 36中获得的(16). 对于HGMD基因,我们进行了爆炸在人类RefSeq蛋白质数据库中搜索找到相应的蛋白质(仅检索条目,登录号以“NP”开头)。我们定义了95%的百分比标识截断,并要求对齐长度至少为查询和命中序列的95%。如果有多个命中序列符合标准,则选择Ka/Ks比率最高的命中序列。对于所有数据集,仅当人类和小鼠序列都经过RefSeq条目审查时,才使用同源基因Ka/Ks比率。符合这些标准的不同基因组的分数为:RefSeq(所有基因)10536/21494,dbSNP(编码多态性基因)中至少有一个cSNP的4139/6902个RefSeq,HGMD(孟德尔)730/950,复杂疾病基因26/32(表1)保守复杂疾病基因为10/12(表1,星号)。

结果

较长进化时间尺度的氨基酸水平分析。并非蛋白质中的所有位置对功能都同等重要。Dayhoff公司(17)很早就认识到,来自不同生物体的蛋白质序列属于相关序列的“家族”,某些位置往往是“保守的”,即它们在各种相关蛋白质中具有相同或化学相似的氨基酸。这些保守位点的替换通常对蛋白质的功能有严重影响。我们使用来自PANTHER蛋白质分类数据库的蛋白质家族HMM来计算位置特异性进化保护的定量度量(9). 取代分数(subPSEC)是cSNP产生的两种变异氨基酸的概率比的负对数。数值范围从0到-10左右,其中0表示非常保守的变化(不太可能影响蛋白质功能),更多的负分数越来越激进。

孟德尔病、已知人类变异和选择性中性变异模型的基准。不同生物病例的替代得分比较引人注目(图1). 作为基准,我们生成了三种不同类别cSNP的替代分数分布:()“孟德尔病”(cSNP与孟德尔病相关)(ii(ii))“正常变异”(从可能健康的个体中随机取样的cSNP),以及()“随机模型”或“中性模型”(随机变化情况下的模拟数据;参见材料和方法详细信息)。分布如图所示图1。这些基准分布彼此都极为不同:Mann–WhitneyU型测试计算aP(P)值<10-17对于所有三个成对比较(表2,最后两列)。

表2。

曼·惠特尼U型测试(单尾)P(P)不同cSNP得分分布的两两比较值
复杂疾病孟德尔病中性变化
孟德尔病2.1 × 10-11
中性变化5.0 × 10-6<1 × 10-17
正常变化6.5 × 10-2<1 × 10-17<1 × 10-17

这个P(P)value是两个分布从相同的基本分布中提取的概率。

与中性变异和正常变异的病例相比,孟德尔病cSNP强烈倾向于较小的替代分数。这种偏见是极端的:大多数孟德尔病相关cSNP发生在蛋白质的高度保守区域(亚PSEC<-3),表明它们极有可能对蛋白质功能产生严重影响。

相比之下,与随机变异相比,从健康个体中取样的cSNP集(正常变异)强烈倾向于较无害的替代分数。这一发现与自然选择的预期效果一致:健康个体中出现的有害替代明显少于完全随机变异的预期。与复杂疾病相关的cSNP的比较。使用复杂疾病元分析的可用数据(1,4,6,10),我们收集了一系列错义SNP,这些SNP有强有力的证据表明与人类疾病有因果关系(表1). 复杂疾病相关错义SNP的进化保守性得分分布如所示图1(黑色方块)。表2(第一列)列出了复杂疾病分数分布与任何基准来自同一分布的概率。尽管观察值较少(37个cSNP,33个具有亚PSEC评分),但复杂疾病cSNP的评分分布与孟德尔病的评分分布在统计学上有很大差异(P(P)< 10-10). 然而,复杂疾病相关cSNP的分布与从可能健康的个体中取样的cSNP分布没有区别。换句话说,就蛋白质家族中的保守位置而言,复杂疾病cSNP看起来与任何两个健康个体之间观察到的变异相似,与导致大多数孟德尔疾病的突变非常不同。与中性模型相比,复杂疾病SNP也显著向低分数方向转变(P(P)<0.00001),这表明在较长的进化时间尺度上负选择的影响。

至少有两个潜在的偏见来源可能会使我们的研究结果的解释复杂化。首先,中所示的分布图1被不同的基因集所取代,孟德尔和复杂疾病cSNP在亚PSEC评分中观察到的差异可能实际上是由于这些基因集中的偏见。换句话说,偏差可能在基因涉及不同特征而非个体的位置在编码蛋白中。为了控制基因集中的可能偏差而不是进化保守模式,我们分别计算了孟德尔疾病相关基因和复杂疾病相关基因的随机(中性)模型得分分布,并对每个基因中的cSNP数量进行加权(参见材料和方法详细信息)。这些分布几乎相同(图2). 因此,孟德尔和复杂疾病相关cSNP中亚PSEC评分分布的差异不是由于每组基因水平的偏差,而是由于单个氨基酸水平的偏差。

第二,有可能一些报告的复杂疾病关联被列入表1事实上,它们与疾病无关(例如,它们可能不正确,或者与另一个实际致病的SNP有关)。最近的一篇论文重新分析了这些报道中的一些关联(18)还有一些,即PON1通信ADD1、和INSR公司元分析未复制。因此,我们构建了一组最保守的复杂疾病相关cSNP(以星号标记表1)这只包括refs中的关联。46DRD3号机组通过元分析复制的关联(18). 尽管这组中只有12个cSNPP(P)值为7.4×10-5这些分数是偶然从与孟德尔疾病基准相同的分布中得出的。可以说,即使是这个集合也不够严格。图3显示了P(P)当我们丢弃最“有害”的,即更多负的亚PSEC评分(○)和集合中剩下的最小有害(•)cSNP时,该值增加。即使在最坏的情况下(•)P(P)如果高置信度集中的12个cSNP中只有7个实际上与疾病相关,则该值保持在0.05以下。

保存图片、插图等的外部文件。对象名为zpq044046319003.jpg

不可靠的复杂疾病关联的影响。即使在我们保守的复杂疾病相关基因集合中(见正文),也可能存在一些不正确的关联,这将影响P(P)孟德尔和复杂疾病相关cSNP亚PSEC评分分布的比较值。在两种极端情况下,删除潜在不可靠数据点的效果如下所示:删除危害最小的cSNP(•)和删除危害最大的cSNP(○)。虚线显示P(P)= 0.05.

更短进化时间尺度的基因水平分析。亚PSEC评分测量个体氨基酸水平的进化选择压力。它是对位置特异性约束(负选择)的敏感度量,因为在整个蛋白质家族中保守的位置可能对基本蛋白质功能(如折叠、稳定性或活性位点)是必要的。我们的上述分析表明,复杂疾病cSNP往往发生在蛋白质中不保守的位置相对较长的进化时期。然而,如果一个家庭的一些成员最近进化出不同或额外的功能,子PSEC分数分布不一定能够区分功能性和中性变化。我们可以通过比较人类基因和同源小鼠基因来测试最近的正选择压力。这里,我们可以使用正选择(或放松约束)的标准度量:非同义替代率与同义替代比率(Ka/Ks)的比值。与亚PSEC相反,Ka/Ks是计算基因的整个蛋白质编码序列(或者更恰当地说,是可以与直系同源序列对齐的所有位置)的平均值,而不是单个密码子。如果Ka/Ks>1,则认为这是正向选择的证据。

图4,我们绘制了复杂疾病基因、孟德尔疾病基因、所有基因[此处定义为RefSeq数据库中有审查过的蛋白质序列的基因]的人类和小鼠同源基因的Ka/Ks比率分布(13)]和所有编码多态性基因(至少有一个已知的、可能常见的人类变种的基因,定义为上述所有基因的子集,这些基因在dbSNP中至少具有一个cSNP(12)).P(P)这些分布的两两比较值如下所示表3与已知编码SNP的子集相比,所有基因的分布略微但显著地向更小的Ka/Ks比率转移。这种转变是意料之中的,因为平均而言,蛋白质序列没有共同点内部-物种变异也可能相对较小-物种变异,导致Ka/Ks比值较小。

保存图片、插图等的外部文件。对象名称为zpq044046319004.jpg

不同基因组的鼠-人同源基因Ka/Ks比率的累积分布。与两个背景组相比,显示了具有至少一个孟德尔(红色)或复杂(黑色)疾病相关cSNP的基因的分布:在HomoloGene数据库中具有正交数据的所有基因(绿色)(16)以及dbSNP中至少有一个cSNP的所有基因子集(黄色)。

表3。

曼·希特尼U型测试(单尾)P(P)不同Ka/Ks分布的成对比较值
复杂疾病孟德尔病所有基因
孟德尔病1.6 × 10-3
所有基因1.5 × 10-47.5 × 10-7
编码多态性基因3.9 × 10-31.79 × 10-1<1 × 10-17

有趣的是,就Ka/Ks比率而言,孟德尔病相关基因似乎是从与所有编码多态性基因相同的分布中随机抽取的(P(P)=0.179),而复杂的疾病相关基因显著向更大的Ka/Ks比率转移(P(P)=0.0016(与孟德尔病基因相比)。即使对于更保守的一组复杂疾病,cSNP(在表1),的P(P)价值仍然重要(P(P)< 0.03). 没有一个复杂的疾病相关基因的Ka/Ks>1,因此不能通过该测试推断它们处于阳性选择状态。然而,这个测试被认为是非常保守的(事实上,即使在所有基因的集合中,如材料和方法,Ka/Ks>1)没有一个例子。Ka/Ks比率的变化表明,在相对较短的鼠-人进化时间尺度上,复杂疾病相关基因往往比大多数基因承受更大的正选择压力或更少的负选择压力。

讨论

我们对已知的氨基酸替换(cSNP)进行了统计进化分析,这些氨基酸替换是复杂病和孟德尔病的基础,也是由“正常”人类变异产生的cSNP,以及中性变异模型。我们之所以关注cSNP,主要是因为与人类疾病相关的大多数已知遗传变异发生在基因组的蛋白质编码区。虽然蛋白质编码序列的进化分析模型相对成熟,但类似的分析原则上可以应用于基因组的其他区域,例如基因调控模块。

我们对cSNP的研究结果表明,孟德尔病、正常变异和中性变异病例的进化保守性(subPSEC)分数分布反映了生物学期望。更多的负分数表明,根据进化相关蛋白质中该位点的变异性判断,替代更可能破坏蛋白质功能。与孟德尔病相关的cSNP的得分分布比中性变异的分布更偏向于负值,而中性变异的分配反过来又比“正常”人类变异的分布偏向于更多负值。我们表明,与孟德尔病相关的cSNP发生在保守位置的频率明显高于中性模型预测的频率,这与Miller和Kumar的预测一致(7). 然而,虽然Miller和Kumar发现正态变异与中性模型无法区分,但我们的结果表明,包含正态变异的cSNP发生在保守位置的频率明显低于中性模型。这一结果证明了保守位点的氨基酸替代平均为负选择。我们的结论是基于成千上万的观察结果,而不是针对少数几个基因,这在比较不同的数据集时提供了更高的灵敏度。

我们表明,尽管只有37个已知cSNP与复杂疾病有令人信服的关联,但这不太可能(P(P)< 10-10)复杂疾病相关cSNP的相应subPSEC分数与孟德尔病相关cSNPs的分布相同。虽然孟德尔病相关的cSNP可能发生在蛋白质中高度保守的位置,但复杂疾病cSNP则不会。这一结果强烈表明,平均而言,cSNP在复杂疾病中的分子效应将比与大多数孟德尔病cSNP相关的严重功能变化更为微妙。对这一结果有许多可能的解释。一种可能性是,平均而言,目前已知分子关联的复杂疾病的“严重”表型不如孟德尔疾病。许多孟德尔病的临床严重程度与相关分子变化的“严重程度”密切相关(6,19,20)以及进化保护措施(7). 复杂的疾病在分子水平上可能与临床上较轻的孟德尔疾病有更多的相似性。

第二种可能性是,许多报告的复杂疾病相关的cSNP实际上是功能中性的,但要么与实际的致病性SNP(可能是调节性SNP)有不正确的关联,要么密切相关。因为它们更容易解释,编码区的SNP更容易被假设为具有功能效应。然而,即使我们删除了所有与复杂疾病有潜在可疑关联的cSNP,其余12个SNP的亚PSEC评分分布也不太可能与孟德尔病的分布相同(P(P)< 0.0001). 复杂和孟德尔病相关cSNP的亚PSEC评分分布之间的差异非常明显,因此保持了统计显著性(P(P)<0.05),即使这些剩余的12个cSNP中的许多实际上仍然与疾病无关。

第三种可能性如下。很明显,孟德尔病通常是由于蛋白质中一个长期保守的位置发生突变而导致的;通常,这些是“基本”蛋白质功能所需的位置,如折叠、稳定性或活性位点。另一方面,复杂疾病通常可能是由于在进化时间更短的时期内处于功能约束(负选择)下的蛋白质位置发生的分子变化引起的,甚至可能是在正选择下发生的,例如,在蛋白质功能调节中起作用的位置。与这一假设相一致,我们表明,与复杂疾病相关的基因事实上比随机选择的人类基因和孟德尔疾病相关基因更倾向于更大的鼠-人Ka/Ks比率(一种相对近期选择压力的测量)。这一观察表明,至少在某些情况下,阳性选择(或放宽限制)的证据可能有助于识别可能与复杂疾病相关的遗传变异。

值得注意的是,我们报告了复杂疾病和孟德尔疾病的分子病因之间的统计差异,这可能不一定适用于任何特定的复杂疾病关联。在这里进行的分析中,有证据表明,许多复杂的疾病可能至少部分由严重影响基础蛋白功能的cSNP引起。例如,MTHFR公司C677T与神经管缺陷相关,导致丙氨酸向缬氨酸的非同义变化。这种变化发生在蛋白质家族中高度保守的位置,而MTHFR公司A1298C变体出现在大多数家族成员中被删除的位置。该观察结果与A1298C关联仅与C677T等位基因结合的事实一致(21). 另一个例子是与系统性红斑狼疮相关的MBL2 G54D变异体(22),发生在包括甘露糖结合凝集素和肺表面活性物质相关蛋白的蛋白质家族中高度保守的位置。

最后,我们注意到subPSEC进化评分方法对于得出我们的结论很重要。当格兰瑟姆得分时(23)用于测量整体物理化学相似性,而非亚PSEC分数(9),复杂和孟德尔病相关错义SNP的分数分布不同,但具有边际统计意义(P(P)=0.0055,由曼·惠特尼U型对37组假定的复杂疾病相关cSNP进行测试;P(P)=0.125(在中的保守子集上)表1).

致谢

我们感谢Betty Lazareva-Ulitsky建议改进进化保守性得分,并帮助实施统计测试。我们感谢约翰·斯宁斯基(John Sninsky)、塞缪尔·布罗德(Samuel Broder)、迈克尔·坎贝尔(Michael Campbell),尤其是本手稿的匿名审稿人,他们提出了有益的意见和建议。

笔记

作者贡献:P.D.T.设计研究;P.D.T.和A.K.进行了研究;P.D.T.分析数据;由P.D.T.撰写论文。

本文直接(第二轨道)提交给PNAS办公室。

缩写:SNP,单核苷酸多态性;cSNP,编码SNP;人类基因突变数据库;subPSEC,替代位置特异性进化守恒;HMM,隐马尔可夫模型。

工具书类

1Korstanje,R.和Paigen,B.(2002年)自然遗传学。 31,235-236. [公共医学][谷歌学者]
2金·M·C·和威尔逊·A·C·(1975)科学类 188,107-116. [公共医学][谷歌学者]
三。Mackay,T.F.(2001)Nat.Rev.基因。 2,11-20. [公共医学][谷歌学者]
4Glazier,A.M.、Nadeau,J.H.和Aitman,T.J.(2002)科学类 298,2345-2349. [公共医学][谷歌学者]
5Badano,J.L.和Katsanis,N.(2002年)Nat.Rev.基因。 ,779-789. [公共医学][谷歌学者]
6Botstein,D.&Risch,N.(2003)自然遗传学。 33,228-237. [公共医学][谷歌学者]
7Miller,M.P.和Kumar,S.(2001)嗯,分子遗传学。 10,2319-2328. [公共医学][谷歌学者]
8Ng,P.C.和Henikoff,S.(2002)基因组研究。 12,436-446.[PMC免费文章][公共医学][谷歌学者]
9Thomas,P.D.、Campbell,M.C.、Kejariwal,A.、Mi,H.、Karlak,B.、Daverman,R.、Diemer,K.、Muruganujan,A.和Narechania,A.(2003)基因组研究。 13,2129-2141.[PMC免费文章][公共医学][谷歌学者]
10JN Hirschorn、K Lohmueller、K Byrne、E&Hirschorne、K(2002)基因。医学。 4,45-61. [公共医学][谷歌学者]
11Cooper,D.N.、Ball,E.V.和Krawczak,M.(1998)核酸研究。 26,285-287.[PMC免费文章][公共医学][谷歌学者]
12.Sherry,S.T.、Ward,M.H.、Kholodov,M.、Baker,J.、Phan,L.、Smigielski,E.M.和Sirotkin,K.(2001)核酸研究。 29,308-311.[PMC免费文章][公共医学][谷歌学者]
13Pruitt,K.D.和Maglott,D.R.(2001)核酸研究。 29,137-140.[PMC免费文章][公共医学][谷歌学者]
14Thomas,P.D.、Kejariwal,A.、Campbell,M.C.、Mi,H.、Diemer,K.、Guo,N.、Ladunga,I.、Ulitsky Lazareva,B.、Muruganujan,A.、Rabkin,S.、。,等。(2003)核酸研究。 31,334-341.[PMC免费文章][公共医学][谷歌学者]
15Hirakawa,M.、Tanaka,T.、Hashimoto,Y.、Kuroda,M.,Takagi,T.和Nakamura,Y.(2002)核酸研究。 30,158-162.[PMC免费文章][公共医学][谷歌学者]
16Wheeler,D.L.,Church,D.M.,Edgar,R.,Federhen,S.,Helmberg,W.,Madden,T.L.,Pontius,J.U.,Schuler,G.D.,Schriml,L.M.,Sequeira,E。,. (2004)核酸研究。 32,35-40.[PMC免费文章][公共医学][谷歌学者]
17Dayhoff,M.O.,Barker,W.C.&McLaughlin,P.J.(1974)原始生活 5,311-330. [公共医学][谷歌学者]
18Lohmueller,K.E.、Pearce,C.L.、Pike,M.、Lander,E.J.和Hirschorn,J.N.(2003)自然遗传学。 33,177-182. [公共医学][谷歌学者]
19Krawczak,M.、Ball,E.V.和Cooper,D.N.(1998)Am.J.Hum.遗传学。 63,474-488.[PMC免费文章][公共医学][谷歌学者]
20Stephens,J.C.、Schneider,J.A.、Tanguay,D.A.、Choi,J.、Acharya,T.、Stanley,S.E.、Jiang,R.、Messer,C.J.、Chew,A.、Han,J.-H.、。,. (2001)科学类 293,489-493. [公共医学][谷歌学者]
21蒙萨尔。M.V.、Salzano、F.M、Rupert、J.L.、Hutz、M.H.Hill、K.、Hurtado、A.M.、Hochachka、P.W.和Devine,D.V.(2003)安。嗯。遗传学。 67,367-371. [公共医学][谷歌学者]
22Sullivan,K.E.,Wooten,C.,Goldman,D.&Petri,M.(1996)大黄性关节炎。 39,2046-2051. [公共医学][谷歌学者]
23Grantham,R.(1974)科学类 185,862-864. [公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院