ConSurfDB与ConSurf
来自Proteopedia
|
两个ConSurf服务器
ConSurfDB公司 : 2021年12月:ConSurfDB尚未更新 蛋白质数据库 自2019年11月4日起。 要查找更多最新更新,请在ConSurfDB主页上单击“更多”。 具有中每个链的预先计算结果 PDB公司 . 变形杆菌属 进化保护 资源显示ConSurfDB的结果。 结果通常掩盖了与蛋白质功能相关的一些保守性,因为分析通常包括具有多种功能的蛋白质(参见 ConSurfDB经常模糊某些功能站点 ).
ConSurf公司 : 您提交感兴趣的蛋白质并等待分析完成。 允许您从带有复选框的列表中选择分析中使用的序列。 高度灵活,具有许多可配置参数和多个序列数据库选项。 您可以上传自己的多序列比对或系统发育树,用于分析。
检测ConSurf-DB的MSA中蛋白质的功能
2021年12月:ConSurfDB尚未更新 蛋白质数据库 自2019年11月4日起。 要查找更多最新更新,请在ConSurfDB主页上单击“更多”。
去 consurfdb.tau.ac.il公司 (数据库,不同于ConSurf服务器)。 输入 PDB代码 (PDB ID)用于感兴趣的蛋白质。 选择兴趣链。 如果您不确定,请查看中的结构 第一眼 ]. 单击按钮 应用 . 向下滚动并单击 同源、排列和系统发育 . 注意MSA中的序列数(进行“计算”的“点击数”)。 单击点击次数以查看序列列表。
例子
限制ConSurf分析单一功能蛋白质
程序
去 consurf.tau.ac.il公司 ,ConSurf服务器(不同于ConSurf-DB)。 填写表格。对于首次运行,所有选项都可以保留默认设置。 当你到达这个区域时 选择同系物进行ConSurf分析 ,请务必检查 手动 . 输入您的电子邮件地址并单击 提交 按钮。 几分钟后 绿色 消息将出现 选择序列 。在选择序列之前,作业无法继续。 在标题“序列产生重要比对:”下,查看带有复选框的列表中的蛋白质名称。 找到第一种情况,蛋白质的功能与感兴趣的蛋白质不同。 通常你会想排除不同功能蛋白质的序列。 就在大红线的下方 请选择要用于ConSurf计算的序列 是一种形式。在“选择第一个[….]序列”框中输入与感兴趣蛋白质具有相同功能的最后一个序列的编号。 然后单击“更新选择”按钮。 ConSurf不接受>500个序列。 200-250个序列是足够的。 使用更多的序列只会不必要地加载服务器,并延迟返回结果。 如果与查询蛋白具有相同功能的最后一个序列的数量大于250,则使用标记为“仅每2、3……一次”的单选按钮来减少所选序列的总数,同时对所需序列的全部多样性进行采样。 表格上的标签很模糊。 如果您选中“仅限每一个”数字,则需要将标记为“选择第一个”的插槽中的数字除以您选择的“仅限每个”数字。 例如,如果前472个序列与查询蛋白具有相同的功能,请选中“only every 2nd”并在“Select the first”(选择第一个)框中输入236(即472/2)。
检查序列列表,确保只选中所需的序列。 (当然,如果您愿意,可以选中或取消选中单个序列。) 如果您满意,请滚动到页面底部并单击 提交 按钮。
序列太多
序列太少
将搜索中的迭代次数增加到默认的一次以上。 每次迭代都会生成一个序列配置文件,用作下一次迭代的查询。 例如,将默认的E截止值0.0001增加到0.001或0.01。 将“序列之间的最大%ID”从默认的95%增加到98%。
黄色残留物太多
使用您的结果
ConSurf-DB机制
2018年1月:ConSurfDB在 蛋白质数据库 自2013年1月起。
ConSurf-DB流程
从 蛋白质数据库 短于30个氨基酸的链没有被处理,因为它们没有足够的信息来构建可靠的系统发育树。 某些非标准氨基酸被转换为最接近的标准氨基酸,例如, 硒代蛋氨酸 MSE转换为MET。 仍有15%以上非标准残留物的链条不进行处理。 无法处理的链在Proteopedia中显示为灰色——请参阅本页顶部的颜色键。 每个蛋白质链的氨基酸序列提交给 HMMER公司 用于从UniRef90数据库收集相关序列。 默认情况下,使用期望值执行一次迭代 [2] 截止值10 -4 . 然后过滤找到的序列( 参见下文 )使用一种方案,试图在将序列限制为接近同源序列和包括不共享结构或功能的远距离序列之间取得平衡。 过滤后的序列集与 MAFFT公司 (一种多序列比对算法,其性能优于旧算法,如MUCLE和CLUSTALW)。 使用ConSurf团队开发的Rate4Site程序,从多序列比对(MSA)构建系统发育树。 Rate4Site然后使用 贝叶斯主义者 ConSurf团队表现出的卓越方法 [3] “使用JTT追踪氨基酸进化 [4] 替代模型。 高进化速率代表一个可变位置,而低进化速率代表进化保守位置。 " [1] “守恒得分被归一化,因此所有残留物的平均值为零,标准偏差为1。” [1] 因此, 保守性得分是相对的,而不是绝对的 而在不同蛋白质家族之间进行比较可能会产生误导(参见 警告 以上)。 然后将归一化保守性得分分为9个级别,从1(高度可变)到9(高度保守性)。 颜色映射到九个保护级别,从 绿松石(1) 到 伯甘迪(9) 应用于可视化的3D蛋白质结构 Jmol简介 。的着色脚本 RasMol公司 还提供了。
![图片:Consurf_key_small.gif](/wiki/images/0/0a/Consurf_key_small.gif)
为MSA中的每个氨基酸位置计算保守水平的置信区间。 当这表示可靠性低时,该位置为彩色 黄色的 这意味着数据不足以确定有意义的保护水平。
安 平均成对距离 计算(APD)来描述MSA中序列的多样性( 参见下文 ).
过滤
对查询序列具有95%以上序列标识的序列将被丢弃。 短于查询序列60%的序列将被丢弃。 重叠超过10%的局部对齐序列片段将被丢弃。 使用CD-HIT删除冗余序列(>95%相同) [5] . 最多使用300个符合上述标准的序列(期望值最低的300个序列 [2] ,即与查询序列最密切相关)。 如果上述过程产生的序列同源物少于5个,则由于数据不足而不进行计算。 2008年2月,30918家连锁店中有1348家(4%)出现了这种情况。
平均成对距离
ConSurf服务器
获取指定PDB代码(或上传的PDB文件)和链的蛋白质序列。 使用HMMER搜索(或指定的其他算法)从UNIREF90(或您指定的其他数据库)收集密切相关的序列。 E值截止 [2] 、迭代次数和要使用的序列数量是可配置的。 过滤序列,默认情况下,消除那些相互之间的冗余标识(95%或更高),以及那些对查询序列的序列标识小于35%的冗余标识。 这些百分比是可调整的。 用户可以选择从带有复选框的列表中手动选择要使用的序列。 特别是,这使得用户能够将分析限制在与感兴趣的蛋白质具有相同功能的蛋白质上(参见 在上面 ). 使用MAFFT进行多序列比对。 (或者您可以选择其他算法或上传自己的MSA。) 利用邻域连接和ML距离构建系统发育树。 (或者你可以选择不同的算法或上传你自己的树。) 用置信区间计算每个氨基酸的保守性得分。 将保护分数分为九个级别,并将其映射为标准保护级别颜色(请参阅本页顶部的颜色键)。 标记守恒得分置信区间过大的残差,因此守恒得分不可靠(“数据不足”)。 使用NGL Viewer在交互式3D中显示蛋白质,通过守恒着色, Jmol简介 , 奇梅拉 ,或 PyMOL公司 .
示例
工具书类
↑ 1 1.1 1.2 1.3 Goldenberg O,Erez E,Nimrod G,Ben-Tal N.ConSurf-DB:蛋白质结构的预先计算进化保护剖面。 核酸研究,2009年1月; 37(数据库问题):D323-7。 Epub 2008年10月29日。 PMID: 18971256 数字对象标识: http://dx.doi.org/10.1093/nar/gkn822 ↑ 2 2.1 2.2 2.3 期望值(E值): 当使用查询序列搜索序列数据库时,例如使用BLAST或PSI-BLAST,每个找到的序列都可以用e值表示。 考虑到序列数据库的大小和查询序列的长度,它是观察到的序列匹配级别的偶然命中数。 E值较低(远小于1)意味着匹配的重要性增加。 ↑ Mayrose I,Graur D,Ben-Tal N,Pupko T。蛋白质序列的位点特异性比率参考方法的比较:经验贝叶斯方法更优越。 分子生物学进化。 2004年9月; 21(9):1781-91. Epub 2004年6月16日。 PMID: 15201400 数字对象标识: http://dx.doi.org/10.1093/molbev/msh194 ↑ Jones DT、Taylor WR、Thornton JM。从蛋白质序列快速生成突变数据矩阵。 计算应用生物科学。 1992年6月; 8(3):275-82. PMID: 1633570 ↑ Li W,Godzik A.Cd-hit:一个快速程序,用于聚类和比较大组蛋白质或核苷酸序列。 生物信息学。 2006年7月1日; 22(13):1658-9. Epub 2006年5月26日。 PMID: 16731699 数字对象标识: http://dx.doi.org/10.1093/bioinformatics/btl158 ↑ Armon A,Graur D,Ben-Tal N.ConSurf:通过系统发育信息的表面映射识别蛋白质功能区的算法工具。 分子生物学杂志。 2001年3月16日; 307(1):447-63. PMID: 11243830 数字对象标识: http://dx.doi.org/10.1006/jmbi.000.4474 ↑ Glaser F、Pupko T、Paz I、Bell RE、Bechor-Shental D、Martz E、Ben-Tal N.ConSurf:通过系统发育信息的表面映射鉴定蛋白质中的功能区。 生物信息学。 2003年1月; 19(1):163-4. PMID: 12499312 ↑ Landau M、Mayrose I、Rosenberg Y、Glaser F、Martz E、Pupko T、Ben-Tal N.ConSurf 2005:蛋白质结构残基进化保守性分数的预测。 《核酸研究》,2005年7月1日; 33(Web服务器问题):W299-302。 PMID: 15980475 数字对象标识: http://dx.doi.org/33/suppl_2/W299