核酸研究。2010年7月1日;38(Web服务器问题):W35–W40。
多重调和:从序列比对中检测功能特异性
荷兰阿姆斯特丹1081HV De Boelelaan 1081A阿姆斯特丹VU大学综合生物信息学中心(IBIVU)
作者希望大家知道,在他们看来,前两位作者应被视为联合第一作者。
2010年1月30日收到;2010年4月28日修订;2010年5月4日接受。
摘要
许多蛋白质家族包含具有功能特化的亚家族,例如结合不同的配体或参与不同的蛋白质-蛋白质相互作用。少量氨基酸通常决定功能特异性。这些残基的鉴定有助于理解蛋白质的功能,并有助于找到实验分析的目标。在这里,我们提出了multi-Harmony,一种交互式网络服务器,用于从多序列比对开始检测蛋白质中的亚型特异性位点。将我们的序列和谐(SH)和多救济(mR)方法结合在一个网络服务器中,可以同时分析和比较特异性残基;此外,这两种方法都得到了显著的改进和扩展。SH已扩展到处理两个以上的子组。mR已经从采样实现改为确定性实现,使其更加一致和用户友好。对于这两种方法Z轴-报告分数。multi-Harmony web服务器生成一个动态输出页面,其中包括与Jalview和Jmol小程序的交互连接,从而允许对结果进行交互分析。Multi-Harmony位于网址:http://www.ibi.vu.nl/程序/shmrww.
简介
许多蛋白质家族包含表现出功能专门化的亚家族,通常涉及配体结合或蛋白质-蛋白质相互作用的差异(1). 因此,越来越多的方法和/或网络应用程序已经可用,它们提供了蛋白质家族中特异性决定残基的功能分析(2–10). 这些方法通常需要使用预先确定的组或系统发育树作为输入的多序列比对(MSA)。SDPpred公司(三)使用相互信息来识别“在特异性组内保存良好但在这些组之间不同”的位置。推进器-II(11)是一种基于用户定义子族的隐马尔可夫分布之间差异的累积相对熵的方法。
其他方法只需要MSA,并使用组间分析等自动将序列分组为子组(6)或系统发育(2,12). Xdet公司(13)使用从对齐中导出的分类,并基于“树行列式”残差的相互行为分析。它也可以通过提供外部(功能)分类来使用和监督。蛋白质键(14)实现组合熵优化以识别特异性决定残基和子族。Georgi的最新方法等。(10)只需要序列并进行子组发现,同时识别功能残基。
鉴定蛋白质中决定特异性的残基是一项艰巨的任务(15)在确定这些地点时,方法的成功率各不相同,但往往适中。因此,Chakrabarti和Panchenko结合了三种不同的方法(15)采用集合方法,并在三维环境中研究预测的位置。
我们在此提出了一种新的交互式web服务器,用于检测蛋白质中的亚型特异性位点。它结合了经验证的序列和谐(SH)的改进版本(5,16)和多重减压(mR)(8)在单个服务器中的方法,多和声.SH以香农熵为基础,确定各组间氨基酸组成的差异程度。mR基于特征加权算法RELIEF识别残差(17). 我们将SH推广到处理多个子组,重新实现了mR,并比较了它们相对于四种方法的性能:SDPpred(三),蛋白质键(14),推进器-II(11)和Xdet(13).
在本文中,我们将指导用户完成多和声web应用程序。我们将为Smad蛋白家族的五个子家族寻找亚型特异性位点。发现的亚类型特异性位点是解释功能差异的最佳候选位点。该方法的其他相关应用包括蛋白质-蛋白质相互作用(18)配体特异性和两者的组合(19).
方法
算法
下面,我们简要概述了序列和谐和多浮雕算法。有关SH和mR算法的更多详细信息,请参阅我们早期的工作(5,8,16)以及web服务器上的在线文档。
多重减压
mR的工作原理是在成对的组上迭代RELIEF,并返回每个位置正权重的平均值,或者如果没有获得该位置的正权重,则返回负权重的平均值(8). 给定两组序列,RELIEF通过加权向量的总和为特征(对齐列)分配权重,加权向量是给定序列与其相对组的最近邻序列之间的位向量差,即“最近未命中”,并从该位向量差中减去同一组中与其最近的邻居的“最近命中”。
mR的采样策略已从随机变为穷尽确定性实现。对序列进行全面对比全部的现在比较“最近命中”和“最近未命中”(参见8)。因此,用户不再需要微调迭代次数,或者在不同的运行中得到不同的结果。此外,mR web输出现在报告支持值。中的玩具示例还显示了相应的mR权重。
玩具示例
显示了假设路线的示例值。如果各组之间的残留物完全不同(或组内完全保守(位置2),SH得分为零。在后一种情况下,mR重量为1。当位置在一个子家族中具有不同的残基时,出现负mR权重,但在子家族之间表现出守恒性(位置5和6)。
统计显著性
现在的输出包括一个以经验形式表示的显著性度量Z轴-SH和mR值得分。这些值是通过排列组标签并重新运行而产生的
(=100)次。出于效率原因,对于mR,随机值基于成对组的子抽样。Z轴-分数衡量观察到的SH或mR值与该数据集相应“随机”分数平均值的标准偏差(SD)。完全保守的对齐列在随机分数上的SD为零,从而产生未定义的Z轴-得分。
Web服务器
用户输入
需要提供其中一种主要格式(FASTA、ClustalW、斯德哥尔摩、SELEX或GCG MSF)的MSA,以及路线内子族组的定义。组可以在序列标签中定义,也可以作为单独的输入提供。此外,可以提供两个可选输入:(i)参考序列,用于比较包含相同参考序列的不同比对的结果;(ii)参考结构,通过PDB ID、文件上传或针对PDB蛋白质序列数据库的实时“PDB BLAST”。提供了示例输入和输出以及重新生成示例输出的可能性。
处理
服务器脚本是用Javascript、PHP和(Bio)Perl编写的。主要SH和mR脚本是用Python编写的。如果提供了参考序列和/或PDB结构,则对齐中的位置将映射到参考序列和(或)PDB结构中的相应位置。”PDB BLAST使用NCBI BLAST(20)使用本地安装的非冗余PDB蛋白质序列数据库(来自NCBI的pdbaa)。
验证
SH和mR方法依赖于不需要“培训”的排名方案,只有应用于得分值的截止值才能确定所选站点的数量。先前已经对SH进行了验证,并与其他最先进的特异性检测方法进行了比较(5)对于mR(8). mR也进行了基准测试,是五种方法中表现最好的三种方法之一(15).
我们这里包括了SH和mR在7个数据集上的验证结果,详见和另一项基准研究的15个数据集(15)(排除了五个重叠家族,即Gprotein、LacI、Smad、RasRal和Rab56)。我们遵循卡普拉和辛格描述的验证协议(21).显示了总结不同方法获得的等级分布的方框图,以及SH和mR的平均精度/召回(PR)曲线,以及汇总了每个数据集PR曲线下的面积。为了进行比较,还显示了蛋白质键、PROUST-II、SDPpred和Xdet的结果。ProteinKeys在默认设置和对齐过滤关闭的情况下运行。PROUST-II预测显示默认最小值“AA Prob”为0.2,排名为Z轴-得分。Xdet在无监督和有监督的情况下运行,在这种情况下,组以二进制矩阵的形式提供,定义序列对组的隶属度。
SH和mR方法的验证结果。蛋白质键、PROUST-II、SDPpred v.2和Xdet用于比较。通过不同方法获得的结果在所有数据集上平均,这些数据集按阳性数加权。(A类)方框图显示阳性位点等级的分布(最小值、下四分位数、中位数、上四分位数和最大值)。越低越好。(B类)精度/召回率(PR)曲线显示了不同覆盖率(召回率)下方法的相对性能。越高越好。
表2。
数据集 | 类的数量 | 平均(SD)班级规模 | 最大、最小班级规模 | 站点数量 | 现场信息 | PDB参考 | “True”站点 |
---|
全球采购控制报告 | 77 | 26.8 (34) | 189, 3 | 214 | 配体 | 1千兆 | T94、T97、E113、G114、A117、T118、G121、L125、C167、L172、F203、V204、M207、F208、H211、Y268、A269、A272、A292、F293、K296 |
GPCR-190型 | 39 | 4.9 (3.8) | 21, 2 | 如“GPCR” |
拉西 | 15 | 3.6 (2.5) | 12, 2 | 339 | 配体和DNA | 1个 | T5、L6、S16、Y17、Q18、R22、N25、Q26、H29、Q54、A57、S61、L73、A75、P76、I79、N125、P127、D149、S191、S193、W220、N246、Q248、Y273、D274、T276、F293 |
Ras/Ral公司 | 2 | 44.5 (24.5) | 69, 20 | 218 | 蛋白质 | 第51页 | I24、Q25、D30、E31、D33、I36、E37、Q43、L53、M67、Q70、D92 |
Rab5/Rab6 | 2 | 5.0 (1) | 4, 6 | 163 | 蛋白质 | 1R2季度 | K42、G43、Q44、H46、E47、F48、Q49、E50、S51、H83、A86、M88、Y90、G92、A93、Q94、E117、L118、Q119、R120、Q121、A122、S123、P124、N125、I126、V127、K183 |
AQP/GLP公司 | 2 | 30.0 (18) | 48, 12 | 430 | 蛋白质 | 1FX8层 | L21、W48、V52、A65、H66、L67、V71、T137、Y138、P139、N140、P141、L159、I163、I187、G195、P196、L197、G199、F200、A201、M202 |
斯马德 | 2 | 10.0 (2) | 12, 8 | 211 | 蛋白质 | 1千赫 | L263、Q264、T267、Q284、Q294、P295、L297、T298、S308、E309、A323、V325、M327、I341、F346、P360、Q364、R365、Y366、W368、N381、R427、T430、S460、V461、R462、C463、M466 |
表3。
在22个数据集中,SH和mR作为PR曲线下面积(AUC)与黄金标准特异性位点进行特异性位点检测的验证,7个数据集定义如下查克拉巴蒂和潘琴科获得的15套(15)
数据集 | 立方厘米9 | cd00美元 | cd00美元 | cd00美元 | cd00美元 | cd00美元 | cd00美元 | cd00美元 | 中国- | 全球采购控制报告 | 全球采购控制报告 | 消费税 | 印尼盾/ | 拉西 | 中密度脂蛋白/ | AQP公司/ | 核 | 拉布 | ras(拉斯维加斯)/ | 蓖麻毒素 | 丝氨酸 | 斯马德 | Aver公司 |
---|
| | 120 | 264 | 333 | 363 | 365 | 423 | 985 | myc公司 | 190 | | | IMDH公司 | | 乳酸脱氢酶 | 天然气处理厂 | 循环。一 | 5/6 | 拉尔 | | | | Wt’d(重量) |
---|
#积极因素 | 7 | 三 | 三 | 12 | 6 | 10 | 4 | 三 | 11 | 21 | 21 | 9 | 14 | 28 | 1 | 23 | 2 | 28 | 12 | 21 | 2 | 29 | |
先生 | 0.161 | 0.058 | 0.006 | 0.301 | 0.010 | 0.055 | 0.204 | 0.329 | 0.037 | 0.246 | 0.347 | 0.156 | 0.050 | 0.266 | 0.063 | 0.213 | 0.417 | 0.540 | 0.666 | 0.186 | 0.078 | 0.719 | 0.310 |
mR Z![保存图片、插图等的外部文件。对象名称为gkq415i20.jpg](/pmc/articles/PMC2896201/bin/gkq415i20.jpg) | 0.161 | 0.058 | 0.006 | 0.301 | 0.010 | 0.055 | 0.204 | 0.329 | 0.037 | 0.252 | 0.347 | 0.156 | 0.050 | 0.282 | 0.063 | 0.216 | 0.417 | 0.539 | 0.666 | 0.186 | 0.078 | 0.721 | 0.312 |
上海。 | 0.074 | 0.054 | 0.003 | 0.287 | 0.008 | 0.119 | 0.080 | 0.198 | 0.067 | 0.486 | 0.489 | 0.242 | 0.048 | 0.124 | 0.125 | 0.249 | 0.413 | 0.602 | 0.540 | 0.194 | 0.261 | 0.713 | 0.330 |
上海Z![保存图片、插图等的外部文件。对象名称为gkq415i21.jpg](/pmc/articles/PMC2896201/bin/gkq415i21.jpg) | 0.074 | 0.054 | 0.003 | 0.287 | 0.008 | 0.119 | 0.080 | 0.198 | 0.067 | 0.517 | 0.489 | 0.242 | 0.048 | 0.207 | 0.125 | 0.268 | 0.413 | 0.602 | 0.540 | 0.194 | 0.261 | 0.703 | 0.342 |
蛋白质键 | 0.049 | 0.008 | 0.087 | 0.203 | 0.010 | 0.010 | 0.002 | 0.034 | 0.027 | 0.377 | 0.505 | 0.483 | 0.065 | 0.301 | 0.005 | 0.119 | 0.011 | 0.364 | 0.092 | 0.276 | 0.006 | 0.748 | 0.287 |
推进器-II | 0.349 | 0.079 | 0.012 | 0.055 | 0.011 | 0.016 | 0.049 | 0.058 | 0.122 | 0.308 | b条 | 0.446 | 0.089 | 0.111 | 0.015 | 0.187 | 0.305 | 0.455 | 0.378 | 0.256 | 0.750 | 0.723 | 0.258 |
SDPpred v.2版 | 0.122 | 0.126 | 0.017 | 0.376 | 0.012 | 0.126 | 0.234 | 0.509 | 0.162 | 0.508 | 0.508 | 0.615 | 0.196 | 0.146 | 0.250 | 0.242 | 0.413 | 0.416 | 0.357 | 0.201 | 0.542 | 0.522 | 0.333 |
Xdet公司 | 0.352 | 0.106 | 0.080 | 0.366 | 0.011 | 0.103 | 0.196 | 0.387 | 0.086 | 0.125 | b条 | 0.117 | 0.100 | 0.190 | 0.033 | 0.169 | 0.054 | 0.350 | 0.398 | 0.173 | 0.105 | 0.688 | 0.234 |
Xdet供应c(c) | 0.209 | 0.106 | 0.019 | 0.346 | 0.012 | 0.189 | 0.171 | 0.534 | 0.101 | 0.275 | b条 | 0.402 | 0.129 | 0.207 | 0.250 | 0.208 | 0.292 | 0.346 | 0.545 | 0.193 | 0.750 | 0.677 | 0.279 |
平均 | 0.172 | 0.072 | 0.026 | 0.280 | 0.010 | 0.088 | 0.136 | 0.286 | 0.078 | 0.344 | 0.448 | 0.318 | 0.086 | 0.204 | 0.103 | 0.208 | 0.304 | 0.468 | 0.465 | 0.206 | 0.314 | 0.691 | 0.298 |
PR图B显示SH优于其他方法,召回率高达20%。除此之外,其性能与其他最先进的方法相当。因此,当人们对少量高度显著的特异性决定位点感兴趣时,SH似乎是一个不错的选择。
结果和讨论
上传MSA和子系列分组后,multi Harmony服务器返回高度动态的结果页面,如所示每个对齐位置的结果显示在交互式表格中(A) ●●●●。用户可以在任何数字字段(例如SH分数或Z轴-score),可以根据阈值筛选和突出显示站点。
我们包括Jalview(22)和Jmol小程序(23)与以前只提供静态输出表的SH和mR服务器相比,它们利用Javascript–Java接口增强了交互性。序列组、SH得分和mR权重在Jalview比对中进行了注释。此外,用户可以交互地将注释轨迹添加到Jalview对齐中,以标记通过提供的表过滤器阈值的位置。这样的轨迹如所示B.如果提供了PDB结构,则可以在PDB结构(Jmol)上显示结果。整个结构可以根据SH得分或mR权重进行着色。通过过滤器的残留物也可以动态高亮显示,从而在3D环境中提供这些残留物的视图(C) ●●●●。最后,用户可以下载分析程序的明文输出。
我们说明了受体调节的SMAD蛋白(R-SMAD)的多和谐性(). SMAD是转录因子,通过介导转化生长因子β(TGF-β)信号传导,在发育(细胞生长和分化)和疾病(如癌症)中发挥关键作用(24). SMAD可以分为两大类()SMAD1、SMAD5和SMAD8被激活以响应骨形态发生蛋白信号,而SMAD2和SMAD3被激活以回应TGF-β或激活素信号。大多数与SMAD的相互作用通过Mad同源2(MH2)结构域发生,该结构域负责结合的特异性(25). 输入比对由来自五个R-Smad组的MH2结构域的33个同源脊椎动物序列组成。
输出表可以根据SH或mR值进行过滤。在亚型特异性的情况下,我们感兴趣的是寻找亚家族特有的残基。SH分数范围为0到1,mR权重范围为
1到1。A较低SH(和谐)表示更特定的残留物,而更高的mR重量表示更特定于组的残留品。因此,SH得分越低或mR权重越高越好。
如果我们使用严格的mR权重阈值来过滤输出表中的残留物
返回0.9、42(共211个)位置。其中包括28个已知功能站点中的24个(,参见5)另外八个残基(I277、T289、R337、L350、A371、E389、Q400和R410)的mR权重为1,这意味着这些位置可以在SMAD排列中的至少两个组之间进行最佳区分。例如,位置I277(位置16)是SMAD8组中的保守缬氨酸,而在其他SMAD中是异亮氨酸。
我们还可以根据SH得分和/或SH和mR筛选输出表Z轴-得分。这个Z轴-score提供了筛选SH结果的直观方法:aZ轴-得分−3表示SH得分比100个随机分组的平均得分低三个SD。因为SH得分应该是降低比“随机”平均值负Z-分数是最有趣的。然而,一个非常消极的Z轴-SH得分高也可以获得分数。例如,当对齐列仅显示两个残基时,就会发生这种情况:一个残基在一个小的亚群中保守,另一个在所有其他亚群中,如位置1和位置16英寸这确实经常与mR重量为1的情况相吻合。
通常,通过更改Z轴-分数,可以调整预期的错误发现率。A典型Z轴-分数阈值将小于−3,或者更严格地说,小于−6。事实上Z轴-小于−12的分数阈值返回经验证的功能位置(SMAD的ARG365,另请参阅A) 以及可能在组之间不同但在组内保守的位置。说明了Z轴-SH的表现得分。如果Z轴-分数被用作过滤器(小于-9),将SH分数分为两组,然后根据SH分数排名,SH的表现提高了约4%。对于mR,这种过滤在这些数据集上没有明显的优势。最佳阈值取决于数据集,尤其是随着子组数量的增加而显著增加。因此,我们设定了一个适度的Z轴-默认分数阈值为−3。
结论
这个多和谐服务器结合了增强的序列和谐和多救济方法来研究蛋白质中的特异性决定残基。将多组处理添加到SH中可以提高其可用性。与之前的(采样)实现相比,mR的新确定性实现返回可重复的结果。此外,SH和mR的经验显著性估计提高了结果的可靠性。multi Harmony服务器提供表格输出作为交互式环境,以使用Jalview在多重比对上下文中分析所选残基,并使用Jmol在其3D上下文中分析所选残基。
基金
ENFIN,一个由欧盟委员会在其FP6计划中资助的卓越网络,主题领域为“生命科学、基因组学和生物技术促进健康”(LSHG-CT-2005-518254)。牛津大学出版社部分免除了本文的开放存取费用,其余费用由ENFIN支付。
利益冲突声明。未声明。
参考文献
1Whistock JC,Lesk AM。从蛋白质序列和结构预测蛋白质功能。Q.生物物理学评论。2003;36:307–340.[公共医学][谷歌学者] 2del Sol A,Pazos F,Valencia A.预测功能重要残基的自动方法。分子生物学杂志。2003;326:1289–1302.[公共医学][谷歌学者] 三。Kalinina OV,Mironov AA,Gelfand MS,Rakhmaninova AB。通过比较分析蛋白质家族中的直向同源基团,自动选择决定蛋白质功能特异性的位置。蛋白质科学。2004;13:443–456. [PMC免费文章][公共医学][谷歌学者] 4Donald JE,Shakhnovich EI。预测两大真核转录因子家族中的特异性决定残基。核酸研究。2005;33:4455–4465. [PMC免费文章][公共医学][谷歌学者] 5Pirovano W,Feenstra KA,Heringa J.通过序列协调进行序列比较,确定亚型特异性功能位点。核酸研究。2006;34:6540–6548. [PMC免费文章][公共医学][谷歌学者] 6Wallace IM,希金斯DG。监督序列组的多元分析,以确定特异性决定残基。BMC生物信息学。2007;8:135. [PMC免费文章][公共医学][谷歌学者] 7Sankaraman S,Sjölander K.INTREPID-INformation-蛋白质功能位点识别的理论树遍历。生物信息学。2008;10:2445–2452. [PMC免费文章][公共医学][谷歌学者] 8Ye K,Feenstra KA,Heringa J,IJzerman AP,Marchiori E.Multi-RELIEF:一种使用机器学习方法识别多序列比对中特异性决定残基的方法,用于特征加权。生物信息学。2008;24:18–25.[公共医学][谷歌学者] 9Kalinia O,Gelfand M,Russell R.结合特异性测定和保守残基改进功能位点预测。BMC生物信息学。2009;10:174. [PMC免费文章][公共医学][谷歌学者] 10Georgi B,Schultz J,Schliep A.部分监督蛋白质亚类发现,同时注释功能残基。BMC结构。生物。2009;9:68. [PMC免费文章][公共医学][谷歌学者] 11Hannenhalli SS、Russell RB。从蛋白质序列比对分析和预测功能亚型。分子生物学杂志。2000;303:61–76.[公共医学][谷歌学者] 12Pei J、Cai W、Kinch LN、Grishin NV。利用对数似然比预测蛋白质序列的功能特异性决定因素。生物信息学。2006;22:164–171.[公共医学][谷歌学者] 13Pazos F,Rausell A,Valencia A.功能残基的系统发育无关检测。生物信息学。2006;22:1440–1448.[公共医学][谷歌学者] 14Reva B,Antipin Y,Sander C.组合熵优化揭示的蛋白质功能决定因素。基因组生物学。2007;8:R232。 [PMC免费文章][公共医学][谷歌学者] 15Chakrabarti S,Panchenko AR。预测特异性决定因素的集合方法:基准和验证。BMC生物信息学。2009;10:207. [PMC免费文章][公共医学][谷歌学者] 16Feenstra KA,Pirovano W,Krab K,Heringa J.序列和谐:从比对中检测功能特异性。核酸研究。2007;35:W495–W498。 [PMC免费文章][公共医学][谷歌学者] 17Kononenko I.评估属性:RELIEF的分析和扩展。收录人:Bergadano F,De Raedt L,编辑。欧洲机器学习会议。第784卷。美国新泽西州塞考克斯市纽约市:斯普林格·弗拉格;1994年,第171-182页。LNCS公司。[谷歌学者] 18Feenstra KA,Bastianelli G,Heringa J.从功能特异性预测蛋白质相互作用。收录人:Hansmann UHE、Meinke JH、Mohanty S、Nadler W、Zimmermann O,编辑。从计算生物物理学到系统生物学(CBSB08)约翰·冯·诺依曼计算机研究所,朱利希(德国),NIC系列第40卷;2008年,第89–92页。[谷歌学者] 19Rausell A,Juan D,Pazos F,Valencia A。蛋白质相互作用和配体结合:从蛋白质亚家族到功能特异性。程序。美国国家科学院。科学。美国。2010;107:1995–2000. [PMC免费文章][公共医学][谷歌学者] 20.Altschul SF、Madden TL、Schaffer AA、Zhang J、ZhangZ、Miller W、Lipman DJ。Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. [PMC免费文章][公共医学][谷歌学者] 21Capra JA,Mona Singh M.确定蛋白质功能特异性的残基的表征和预测。生物信息学。2008;24:1473–1480. [PMC免费文章][公共医学][谷歌学者] 22Waterhouse AM、Procter JB、Martin DMA、Clamp M、Barton GJ。Jalview版本2—多序列比对编辑器和分析工作台。生物信息学。2009;20:426–427. [PMC免费文章][公共医学][谷歌学者] 23Herráez A.计算机中的生物分子:Jmol去救援。生物化学。分子生物学。教育部。2006;34:255–261.[公共医学][谷歌学者] 24Attisano L,Wrana JL。TGF的信号转导-β超家族。科学。2002;296:1646–1647.[公共医学][谷歌学者] 25Feng XH,Derynk R.TGF的特异性和多功能性-β通过Smad发送信号。每年。Rev.单元格。开发生物。2005;21:659–693.[公共医学][谷歌学者]