ConSurfDB与ConSurf

来自Proteopedia

跳转到:航行,搜索

进化保护在进化保护导论,并在本文中进行了更深入的讨论保护,进化这些描述了3D中的保护模式如何帮助识别蛋白质中的功能位点。Proteopedia显示由预先计算的保护模式ConSurfDB公司,如果可用。这些通常基于广泛的蛋白质家族,包括具有多种功能的蛋白质序列。因此,他们通常模糊保护存在于具有单一功能的蛋白质家族中(参见注意事项). 本文描述了ConSurfDB和ConSurf服务器使用的机制,以及如何使用后者揭示具有单一功能的蛋白质家族中的保守性。

目录

两个ConSurf服务器

有两个ConSurf服务器:

  • ConSurfDB公司:
    • 2021年12月:ConSurfDB尚未更新蛋白质数据库自2019年11月4日起。要查找更多最新更新,请在ConSurfDB主页上单击“更多”。
    • 具有中每个链的预先计算结果PDB公司.
    • 变形杆菌属进化保护资源显示ConSurfDB的结果。
    • 结果通常掩盖了与蛋白质功能相关的一些保守性,因为分析通常包括具有多种功能的蛋白质(参见ConSurfDB经常模糊某些功能站点).
  • ConSurf公司:
    • 您提交感兴趣的蛋白质并等待分析完成。
    • 允许您从带有复选框的列表中选择分析中使用的序列。
    • 高度灵活,具有许多可配置参数和多个序列数据库选项。
    • 您可以上传自己的多序列比对或系统发育树,用于分析。

这两个服务器都使用在同行评审期刊上发布的最先进的方法。有关与其他方法的比较,请参见其他进化保护服务器.

这两个服务器都允许您下载结果这是一个好主意,因为序列数据库的持续增长和分析算法的改进将为间隔几个月或更长时间运行的相同作业提供至少略有不同的结果。此外,为了节省磁盘空间,会定期从ConSurf服务器中删除结果。

检测ConSurf-DB的MSA中蛋白质的功能

2021年12月:ConSurfDB尚未更新蛋白质数据库自2019年11月4日起。要查找更多最新更新,请在ConSurfDB主页上单击“更多”。

如前所述在上面ConSurf-DB在其保守性分析中通常包括具有多个功能的蛋白质。在决定是否执行ConSurf Server作业之前将分析局限于单一功能的蛋白质,您可能想看看ConSurf-DB的分析中包含了哪些蛋白质。下面是如何查看ConSurf-DB的蛋白质链分析中包含的蛋白质的名称(希望能揭示其功能)。(以下步骤基于截至2021年12月的ConSurfDB。)

  1. consurfdb.tau.ac.il公司(数据库,不同于ConSurf服务器)。
  2. 输入PDB代码(PDB ID)用于感兴趣的蛋白质。
  3. 选择兴趣链。如果您不确定,请查看中的结构第一眼].
  4. 单击按钮应用.
  5. 向下滚动并单击同源、排列和系统发育.
  6. 注意MSA中的序列数(进行“计算”的“点击数”)。
  7. 单击点击次数以查看序列列表。

如果列表中包含的蛋白质的功能与感兴趣的蛋白质不同,则会掩盖与感兴趣查询蛋白质功能相同的蛋白质之间存在的保守性斑块。

例子

2瓦是一个主要组织相容性复合体 第一类蛋白质(MHC I)。ConSurfDB在计算中使用了300个序列。从序列列表的一半开始是第一个MHC二期蛋白质,具有不同的功能。列表的早期是血色素沉着症蛋白14个序列中的第一个序列(功能无关)。该列表包括62种功能未知的“类Ig结构域”蛋白质。包含这些和许多其他具有不同于查询功能的蛋白质序列将部分掩盖对MHC I蛋白质特定功能至关重要的残基的保护。因此,您可能更喜欢运行ConSurf作业,通过手动选择将MSA限制为MHC I蛋白质。

限制ConSurf分析单一功能蛋白质

本节于2017年6月更新,以适应ConSurf服务器的变化。

如前所述在上面、ConSurf-DB进化保护Proteopedia中的场景通常包括具有多种功能的蛋白质。然而,通过保守性分析找到所有功能位点的最佳方法是将分析局限于具有单一功能的蛋白质。执行此操作的步骤如下。

程序

  1. consurf.tau.ac.il公司,ConSurf服务器(不同于ConSurf-DB)。
  2. 填写表格。对于首次运行,所有选项都可以保留默认设置。当你到达这个区域时选择同系物进行ConSurf分析,请务必检查手动.
  3. 输入您的电子邮件地址并单击提交按钮。
  4. 几分钟后绿色消息将出现选择序列。在选择序列之前,作业无法继续。
  5. 在标题“序列产生重要比对:”下,查看带有复选框的列表中的蛋白质名称。找到第一种情况,蛋白质的功能与感兴趣的蛋白质不同。通常你会想排除不同功能蛋白质的序列。
  6. 就在大红线的下方请选择要用于ConSurf计算的序列是一种形式。在“选择第一个[….]序列”框中输入与感兴趣蛋白质具有相同功能的最后一个序列的编号。然后单击“更新选择”按钮。
    1. ConSurf不接受>500个序列。200-250个序列是足够的。使用更多的序列只会不必要地加载服务器,并延迟返回结果。如果与查询蛋白具有相同功能的最后一个序列的数量大于250,则使用标记为“仅每2、3……一次”的单选按钮来减少所选序列的总数,同时对所需序列的全部多样性进行采样。
    2. 表格上的标签很模糊。如果您选中“仅限每一个”数字,则需要将标记为“选择第一个”的插槽中的数字除以您选择的“仅限每个”数字。例如,如果前472个序列与查询蛋白具有相同的功能,请选中“only every 2nd”并在“Select the first”(选择第一个)框中输入236(即472/2)。
  7. 检查序列列表,确保只选中所需的序列。(当然,如果您愿意,可以选中或取消选中单个序列。)
  8. 如果您满意,请滚动到页面底部并单击提交按钮。

序列太多

ConSurf将列出最多2000个可供选择的序列。在某些情况下,这些序列非常相似。一些蛋白质将检索到超过5000个序列,其期望值(E值)<1.0e-4(1.0乘以10的-4)是默认阈值。那么列出的第2000个序列可能仍然与列出的第一个序列非常相似。如果第2000个序列的E值很小,例如1.0e-100,那么这将是正确的。在这种情况下,您可能希望尝试搜索Swiss-Prot数据库,该数据库比默认的Uniref-90数据库小得多。开始一个新作业,唯一的区别是搜索的数据库。

序列太少

如果默认的序列同源搜索无法找到至少5个序列,请尝试通过一次更改重复上述过程。在“选择同源搜索算法的参数”下,更改蛋白质数据库UniProt或NR(比默认的Uniref90更大的数据库)。

如果较大的数据库没有提供足够的序列,您可以使用其他选项来扩大对序列的搜索,因为您知道您将检索与查询序列无关的序列,可能包括功能与查询不同的蛋白质:

  • 将搜索中的迭代次数增加到默认的一次以上。每次迭代都会生成一个序列配置文件,用作下一次迭代的查询。
  • 例如,将默认的E截止值0.0001增加到0.001或0.01。
  • 将“序列之间的最大%ID”从默认的95%增加到98%。

黄色残留物太多

如果整个领域你的查询蛋白是黄色(数据不足)这是因为多序列比对(MSA)对黄色区域的覆盖较差。在这种情况下,最好对蛋白质中的每个域进行单独的ConSurf运行。

  1. 确定域之间链接器的序列号。这可以通过在Jmol简介.
  2. 使用纯文本编辑器,删除您的pdb文件除了以ATOM或HETATM开头的行。(如果有,可以保留ANISOU行。)
  3. 根据序列号,将域划分为不同的PDB文件。
  4. 将每个域作为单独的作业上传到ConSurf。

如果在查询的域中散布黄色残留物,并且您希望减少它们的数量,则需要将MSA中的序列数量从默认的150个增加。

使用您的结果

这项“单蛋白功能”工作的结果通常会使您能够识别比构建在Proteopedia中的ConSurf-DB结果更多的功能位点。

请参见在下面获取有关如何在Proteopedia中创建显示单功能ConSurf结果的绿色链接场景的说明。

ConSurf-DB机制

2018年1月:ConSurfDB在蛋白质数据库自2013年1月起。

因为来自ConSurf数据库服务器的结果,ConSurf-DB公司[1]在Proteopedia中显示为进化保护,此处提供了其方法的概述。ConSurf-DB预先计算蛋白质数据库2008年投入使用。它使用最先进的方法,所有方法都发表在同行评议的期刊上[1].

ConSurf-DB流程

这描述了默认值。提交作业时,可以使用一些替代选项。

  1. 蛋白质数据库短于30个氨基酸的链没有被处理,因为它们没有足够的信息来构建可靠的系统发育树。某些非标准氨基酸被转换为最接近的标准氨基酸,例如,硒代蛋氨酸MSE转换为MET。仍有15%以上非标准残留物的链条不进行处理。无法处理的链在Proteopedia中显示为灰色——请参阅本页顶部的颜色键。
  2. 每个蛋白质链的氨基酸序列提交给HMMER公司用于从UniRef90数据库收集相关序列。默认情况下,使用期望值执行一次迭代[2]截止值10-4.
  3. 然后过滤找到的序列(参见下文)使用一种方案,试图在将序列限制为接近同源序列和包括不共享结构或功能的远距离序列之间取得平衡。
  4. 过滤后的序列集与MAFFT公司(一种多序列比对算法,其性能优于旧算法,如MUCLE和CLUSTALW)。
  5. 使用ConSurf团队开发的Rate4Site程序,从多序列比对(MSA)构建系统发育树。
  6. Rate4Site然后使用贝叶斯主义者ConSurf团队表现出的卓越方法[3]“使用JTT追踪氨基酸进化[4]替代模型。高进化速率代表一个可变位置,而低进化速率代表进化保守位置。"[1]
  7. “守恒得分被归一化,因此所有残留物的平均值为零,标准偏差为1。”[1]因此,保守性得分是相对的,而不是绝对的而在不同蛋白质家族之间进行比较可能会产生误导(参见警告以上)。
  8. 然后将归一化保守性得分分为9个级别,从1(高度可变)到9(高度保守性)。
  9. 颜色映射到九个保护级别,从绿松石(1)伯甘迪(9)应用于可视化的3D蛋白质结构Jmol简介。的着色脚本RasMol公司还提供了。
图片:Consurf_key_small.gif
  1. 为MSA中的每个氨基酸位置计算保守水平的置信区间。当这表示可靠性低时,该位置为彩色黄色的这意味着数据不足以确定有意义的保护水平。
  1. 平均成对距离计算(APD)来描述MSA中序列的多样性(参见下文).

可以在以下位置查看每个链的上述过程的每个阶段的结果ConSurf-DB公司在最初的运行中(2008年2月),大约有100个计算机CPU通过分布式计算系统同时使用。处理30918个独特的蛋白质链PDB公司花费了大约五天的时间,或者平均每个链大约30分钟。

过滤

过滤为每个蛋白质链收集的序列对于使ConSurfDB结果最大限度地提供信息至关重要。过滤包括以下步骤。

  1. 对查询序列具有95%以上序列标识的序列将被丢弃。
  2. 短于查询序列60%的序列将被丢弃。
  3. 重叠超过10%的局部对齐序列片段将被丢弃。
  4. 使用CD-HIT删除冗余序列(>95%相同)[5].
  5. 最多使用300个符合上述标准的序列(期望值最低的300个序列[2],即与查询序列最密切相关)。
  6. 如果上述过程产生的序列同源物少于5个,则由于数据不足而不进行计算。2008年2月,30918家连锁店中有1348家(4%)出现了这种情况。

平均成对距离

平均成对距离计算(APD)以描述每条链处理期间生成的MSA中序列的多样性。值0.01表示平均每100个位置有一个氨基酸替换。当APD大约在0.5到1.5之间时,可获得最佳信息结果。APD值>1.5表明MSA中可能包含了多种功能的蛋白质,因此掩盖了查询蛋白中的某种程度的保守性。

ConSurf服务器

这个ConSurf服务器,2001年首次提供[6][7][8]通过许多后续增强功能,可以计算和显示三维结构的守恒模式完全自动。当在ConSurf-DB公司需要改进(例如,请参见在上面),或者如果您有自己的多序列比对(MSA),您希望使用。可能需要调整ConSurf的默认设置,以获得最佳信息结果。所需的主要调整是为与您感兴趣的蛋白质具有相同功能的蛋白质收集足够数量的序列(参见在上面).

与ConSurf-DB一样,ConSurf服务器使用相同的最先进的方法,所有这些方法都发表在同行评议的期刊文章中。与ConSurf-DB的预先计算结果不同,ConSurf服务器允许进行大量定制。例如,用户可以指定要使用的序列数,选择从中获取序列的数据库,设置期望截止值[2]、设置HMMER迭代次数,或提交自己的多序列比对或系统发育树。此外,您还可以上传自己的PDB文件,使您能够处理未发布的数据、理论模型或“修剪”的链,例如领域来自多域链的兴趣。

简言之ConSurf服务器默认情况下使用以下过程:

  1. 获取指定PDB代码(或上传的PDB文件)和链的蛋白质序列。
  2. 使用HMMER搜索(或指定的其他算法)从UNIREF90(或您指定的其他数据库)收集密切相关的序列。E值截止[2]、迭代次数和要使用的序列数量是可配置的。
  3. 过滤序列,默认情况下,消除那些相互之间的冗余标识(95%或更高),以及那些对查询序列的序列标识小于35%的冗余标识。这些百分比是可调整的。
  4. 用户可以选择从带有复选框的列表中手动选择要使用的序列。特别是,这使得用户能够将分析限制在与感兴趣的蛋白质具有相同功能的蛋白质上(参见在上面).
  5. 使用MAFFT进行多序列比对。(或者您可以选择其他算法或上传自己的MSA。)
  6. 利用邻域连接和ML距离构建系统发育树。(或者你可以选择不同的算法或上传你自己的树。)
  7. 用置信区间计算每个氨基酸的保守性得分。将保护分数分为九个级别,并将其映射为标准保护级别颜色(请参阅本页顶部的颜色键)。标记守恒得分置信区间过大的残差,因此守恒得分不可靠(“数据不足”)。
  8. 使用NGL Viewer在交互式3D中显示蛋白质,通过守恒着色,Jmol简介,奇梅拉,或PyMOL公司.

示例

此示例需要更新。这是我要做的事。 埃里克·马茨2010年4月25日09:13(IDT)(本页剩余部分于2021年12月更新)

ConSurf-DB报告的主要组织相容性I类α链的进化保守性2vaa(2vaa).

用鼠标拖动结构进行旋转

右边是进化保守性和变异性的模式ConSurf-DB公司对于α链主要组织相容性复合体I类(链A2vaa(2vaa)).图片:ColorKey ConSurf NoYellow NoGray.gif

因为右边的场景中没有氨基酸标记数据不足,没有链无数据,黄色和灰色不需要包含在颜色键中。

有关ConSurf颜色键的所有可用变体,请参见帮助:Color_Keys#ConSurf.

2vaa(2vaa)包含三条链。这里,ConSurf颜色仅应用于α链(链A),而β链(链B)和肽(链P)显示为灰色主干痕迹。另请参见如何将ConSurf结果插入Proteopedia绿色链接.

ConSurf揭示的其他蛋白质上的保守补丁示例将在

工具书类

  1. 1 1.1 1.2 1.3Goldenberg O,Erez E,Nimrod G,Ben-Tal N.ConSurf-DB:蛋白质结构的预先计算进化保护剖面。核酸研究,2009年1月;37(数据库问题):D323-7。Epub 2008年10月29日。PMID:18971256数字对象标识:http://dx.doi.org/10.1093/nar/gkn822
  2. 2 2.1 2.2 2.3 期望值(E值):当使用查询序列搜索序列数据库时,例如使用BLAST或PSI-BLAST,每个找到的序列都可以用e值表示。考虑到序列数据库的大小和查询序列的长度,它是观察到的序列匹配级别的偶然命中数。E值较低(远小于1)意味着匹配的重要性增加。
  3. Mayrose I,Graur D,Ben-Tal N,Pupko T。蛋白质序列的位点特异性比率参考方法的比较:经验贝叶斯方法更优越。分子生物学进化。2004年9月;21(9):1781-91. Epub 2004年6月16日。PMID:15201400数字对象标识:http://dx.doi.org/10.1093/molbev/msh194
  4. Jones DT、Taylor WR、Thornton JM。从蛋白质序列快速生成突变数据矩阵。计算应用生物科学。1992年6月;8(3):275-82. PMID:1633570
  5. Li W,Godzik A.Cd-hit:一个快速程序,用于聚类和比较大组蛋白质或核苷酸序列。生物信息学。2006年7月1日;22(13):1658-9. Epub 2006年5月26日。PMID:16731699数字对象标识:http://dx.doi.org/10.1093/bioinformatics/btl158
  6. Armon A,Graur D,Ben-Tal N.ConSurf:通过系统发育信息的表面映射识别蛋白质功能区的算法工具。分子生物学杂志。2001年3月16日;307(1):447-63. PMID:11243830数字对象标识:http://dx.doi.org/10.1006/jmbi.000.4474
  7. Glaser F、Pupko T、Paz I、Bell RE、Bechor-Shental D、Martz E、Ben-Tal N.ConSurf:通过系统发育信息的表面映射鉴定蛋白质中的功能区。生物信息学。2003年1月;19(1):163-4. PMID:12499312
  8. Landau M、Mayrose I、Rosenberg Y、Glaser F、Martz E、Pupko T、Ben-Tal N.ConSurf 2005:蛋白质结构残基进化保守性分数的预测。《核酸研究》,2005年7月1日;33(Web服务器问题):W299-302。PMID:15980475数字对象标识:http://dx.doi.org/33/suppl_2/W299
个人工具