同源建模实用指南

来自Proteopedia

跳转到:航行,搜索
本文中的许多断言都缺乏文献引用。希望您能帮助改进本文中的文档。维基百科关于同源建模有很好的文档记录,尽管与本文相比,它更具技术性,而不是实用指南。

目录

术语

  • 查询序列:需要3D模型的氨基酸序列。通常称为目标序列,但谈论目标和模板会让人困惑。
  • 模板:根据经验确定的3D蛋白质结构,与查询序列具有显著相似性。
  • “结构”将在本文中用于表示三维蛋白质分子结构。

什么是同源模型?

同调模型,也称为比较模型,通过折叠查询蛋白序列(也称为目标序列)来拟合经验确定的模板模型。查询和模板中的残基之间的配准由查询和模板序列之间的氨基酸序列比对决定。

假设模板的多肽骨架是一个折叠的玻璃管。现在,假设查询序列是一条可以穿过管道的细金属链。链(查询)将采用与管(模板)相同的折叠方式。序列对齐指定链条应拉入管中的距离;也就是说,查询序列中的残留物如何与模板的结构匹配。

序列比对中的错误或不确定性会导致同源模型中的错误和不确定性。当序列比对中由于插入/删除(“indels”)而出现间隙,或者模板的某些部分由于晶体学紊乱而缺少坐标时,查询序列的某些部分无法可靠建模。如果查询和模板之间有足够的序列一致性(至少30%),同源模型中的主链通常是正确的。然而,侧链旋转体在同源模型中的位置通常是不可靠的。

然而,同源模型有助于查看低分辨率特征,例如哪些残基位于表面或埋藏在地下,这些残基接近其他感兴趣的特征(例如假定的活性位点),以及电荷的总体分布和进化保守性.

同源建模的原理

尽管一些非常聪明的人做了几十年的工作,并且已经取得了真正的进展,但利用理论从蛋白质序列预测蛋白质结构的科学取得的成功非常有限(参见理论模型).

结构比序列更保守。这一结论得到了许多具有相似结构但没有可辨别序列同一性的蛋白质实例的支持。一个例子是细菌中的ftsZ细胞分裂蛋白,尽管只有12-15%的序列一致性,但其结构与哺乳动物的微管蛋白相同[1]通常的解释是,结构非常相似的现代蛋白质有一个共同的祖先,它们的序列在保持祖先的3D结构的同时发生了分歧。

因此,如果查询序列与经验确定的蛋白质结构(模板)有显著的一致性,则它们具有相似结构的可能性很高。将查询序列与模板相同地折叠,通过序列对齐指导注册,生成同源模型。

你需要同源模型吗?

如果感兴趣的氨基酸序列(查询序列)已经具有经验确定的3D结构,则不需要同源模型。通过X射线晶体学或(很少)溶液NMR或冷冻EM凭经验确定的结构几乎总是比同源模型更准确。

如果AlphaFold公司已经为您感兴趣的氨基酸序列预测了一个模型,它通常比同源模型更准确,而且在大多数情况下,由于缺少合适的模板,同源模型不可能实现。

AlphaFold预测过模型吗?

经验模型是最可靠的,但如果没有可用的,AlphaFold公司在根据序列正确预测结构方面有着令人印象深刻的记录。检查AlphaFold数据库为您感兴趣的蛋白质模型。您还可以提交序列并获取预测:如何使用AlphaFold预测结构。另一个有良好业绩记录的模型预测服务是RoseTTaFold公司。在那里提交序列,确保检查RoseTTaFold公司作为方法。使用这些方法中的任何一种,下载预测的pdb文件然后上传到Jmol第一眼进行探索和分析。FirstGlance根据可靠性自动为预测模型上色。

有经验模型吗?

经验决定的模型通常是最可靠的。所有已发表的、根据经验确定的原子分辨率、大分子3D结构都可以在全球蛋白质数据库.

PDB中的每个型号都有一个独特的4字符识别码(PDB ID)它以数字开头,最后3个字符有字母或数字。例如1d66、4mdh、9ins。

以下是两种方法,用于确定您的查询氨基酸序列或其部分是否具有经验确定的三维结构在PDB中。

简单搜索经验模型(通过PIR)

UniProt公司。组织,找到你的蛋白质并点击结构(左边的蓝色按钮)。

  • 如果有部分三维结构数据库列标记为PDB条目包含4个字符PDB ID,这些是蛋白质的经验结构。请注意“位置”列,它给出了每个模型所涵盖的序列号范围。
  • 如果没有“PDB条目”列,那么您的蛋白质就没有序列相同的经验结构。然后尝试下面的高级搜索方法。
  • 一些蛋白质没有结构部分(例如。K4QDG1_SACBA公司). 然后尝试下面的高级搜索方法。

如果存在经验结构,请参见#如何浏览三维模型如下所示。如果它们令人满意,则不需要同源模型。

经验模型高级搜索(RCSB PDB)

这种方法需要更多的时间,但可以为您提供更多的信息。它将发现与查询具有序列相似性的经验结构。这样的点击可以产生高质量的同源模型。

例如,如果您的查询是来自披针鱼的钙调蛋白(Q9UB37,CALM2_BRALA),UniProt中列出的经验结构为零。然而,查询的97%序列与人类钙调素(P62158 CALM_human)和来自其他分类群的钙调素相同,其中有许多全长的经验结构。可以构建一个非常高质量的同源模型。

高级搜索过程:

  1. 例如,从中复制蛋白质的FASTA格式序列UniProt公司。组织.
  2. 请注意长度你的序列。
  3. rcsb.org网站,转到“高级搜索”。
  4. 选择顺序在“高级搜索查询生成器”下。
  5. 将查询序列粘贴到框中。
  6. 按下图片:Rcsb-search-button.png按钮运行搜索。
  7. 向下滚动查看点击列表。
  8. 在列表顶部,更改结果显示为聚合物实体.然后推动图片:Rcsb-search-button.png再一次。这是至关重要的因为它显示了命中率的标识百分比和对齐方式。它应该是默认值!
  9. 最佳点击将首先列出。请注意,每次点击都以一个大的粗体PDB ID开始。

对于每个点击,请注意序列标识%序列对齐框上方。

还请注意地区范围,它告诉您有多少查询残留物与点击对齐。将其与查询序列的全长进行比较。

如果您单击下载点击列表中的按钮,您将获得CIF文件。如果你需要PDB文件格式,单击PDB ID代码并打开下载菜单来获取所有格式选项。

查询蛋白的部分(或全部)本质上是无序的吗?

尝试确定的结构内在无序蛋白质是无用的。因此,在考虑同源建模或结晶实验之前,预测查询蛋白的部分是否可能发生内在无序是很重要的。

虽然大多数蛋白质的功能都需要折叠,但有些蛋白质是内在无序(本机无结构),并且不会折叠,至少不会自己折叠。通常,当内在无序蛋白质与折叠的伴侣蛋白质结合时,它会转变为有序状态。然而,一些蛋白质在发挥其功能时仍处于紊乱状态。

据估计,10%的蛋白质在其全长上是内在无序的,约40%的真核蛋白质至少有一个50个或更长的环残基是内在无乱的[2]这些无序环通常在X射线晶体结构中缺失,因为无序会模糊电子密度图的这一部分。

示例:

  • 折叠:丙酮酸激酶(长度531;例如。P11979,KPYM_FELCA)没有无序区域。晶体结构(1pkm)在C末端仅缺少11个残基。
  • 部分折叠:肿瘤抑制蛋白p53(长度393;例如。P04637,P53_胡曼)在N端和C端都存在内在无序。折叠中间区域(约200个残基)有许多晶体结构,它们在N端缺乏90个残基的坐标,在C端缺少90个残体的坐标。N末端的一些溶液核磁共振结构说明了无序(例如2ly4)。
  • 展开:鸡内脏中的Caldesmon(长771;P12957,校准_厚度)没有晶体结构,预计基本上整个长度都是无序的。

内在障碍预测

移动数据库

MobiDB是一个元服务器:它总结了使用不同方法的各种其他服务器的无序预测。

  • UniProt公司。组织,找到你的蛋白质,然后复制其UniProt登录代码,类似于P04386。
  • 移动数据库.
  • 输入UniProt登录代码,例如P04386。例如,不要包括(GAL4_YEAST),否则它会显示“未找到”。

2017年,MobiDB改变了其输出格式,这相当令人困惑。没有颜色键,结果很难解释。如果您知道更好的元服务器,请在讨论页中提及。你可能会发现这些说明很有帮助[3].

折叠索引

这个FoldIndex服务器是MobiDB报告的有用附件,因为它不包含在该报告中。

你的查询蛋白在结构基因组学管道中吗?

结构基因组学是一项全球倡议,在2000年代初获得了势头。可以选择序列进行结构确定,因为它们代表一系列序列,其中没有成员具有经验三维结构。您的查询(目标)序列可能已被选择用于结构确定。尽管近年来对结构基因组学的资助热情有所减弱,但一些机构确实登记了他们的目标序列和进展。您可以在TargetTrack数据库如果你的序列已经选定,并且进展已经达到衍射质量晶体,那么可能值得联系该机构,看看他们是否可以加快结构的出版。

同源建模的局限性

模板通常不可用或零碎

要为查询序列创建3D同源模型(也称为比较模型),第一步是查找模板:可靠的具有显著序列一致性的经验结构。根据序列标识标准的严格程度,模板的可用价格不超过~30%查询序列的。

不太可能找到全长模板对于较大的蛋白质(>~200个残基)。89%的结构蛋白质数据库由确定X射线晶体学大多数晶体结构代表全长蛋白质的片段,因为片段通常具有较高的结晶成功率[4]蛋白质数据库中10%的结构是由溶液决定的核磁共振,但这些往往是小蛋白或单个结构域。核磁共振测定的结构中位分子质量为10KD[5](约90个氨基酸[6]). 核磁共振通常无法确定大于30KD的蛋白质的原子分辨率结构。

相比之下非对称单元X射线晶体学测定为50 KD[5],少数是非常大的,例如病毒衣壳(例如4qyk,约200万道尔顿;4v99,1000万道尔顿)或核糖体(例如4w2i,450万道尔顿。

序列比对中的错误和不确定性会在同源模型中产生错误

同源模型的质量取决于查询和模板序列之间对齐的质量。当序列标识低于约35%,对齐错误的可能性增加。序列比对错误导致在模板折叠上定位查询残留物时出错;即三维模型中的错误。

差距在序列比对中,模型会出错。为了优化对齐,在序列对齐中打开间隙。这些空白可以被视为插入或删除,但由于通常不清楚是哪一个,因此通常称为非承诺性术语indels指数序列比对中存在大量间隙残基可以保证同源模型中存在错误:缺失残基或残基位置不正确。

A类模板序列中的间隙意味着查询的相应部分是未模板化的。不同同源建模服务器以不同的方式处理这个问题。Swiss-Model包含未模板化的查询残留物,将它们放在一个循环中(当循环较长时,可能会与域的其余部分相隔一定距离)。
A类查询序列中的间隙这意味着间隙两侧的两个残基在3D模型中通常是肽结合的,而对齐的模板残基可能彼此并不接近。

由晶体学确定的模板通常具有缺失的残留物.Jmol第一眼报告缺失残留物并清楚标记其位置。由于晶体中残留物的无序性,缺失的残留物在晶体模型中没有坐标。因此,尽管序列可能对齐,但3D模板中经常缺少一些残基,并且不清楚这些残基的位置。一些同源建模服务器完全省略这样的残基,产生一个不完整的同源模型。

侧链旋转异构体位置不正确

即使序列比对和模板导致同源模型的正确骨架折叠,侧链旋转体位置(相对于α-碳位置的方向)也会不正确。尽管知道每个α-碳原子的位置,但理论并不能正确预测侧链将如何结合在一起。最好的情况是,侧链旋转体的位置将避免类似电荷的空间碰撞和静电排斥,并可能优化一些盐桥和氢键。然而,当一个高质量的经验模型可用时,同源模型中侧链堆积的细节将被证明是不正确的。

同调模型的优点

考虑到上面解释的局限性,您可能想知道同源模型是否有任何用途。如果序列比对是可靠的(约35%的一致性或更多),如果序列比对缺少大量或较大的间隙(indels),主干褶皱可能是正确的。尽管侧链位置不准确,但这提供了大量信息。

  • 该模型显示了哪些残留物位于表面哪些是埋入的.
  • 如果诱变研究显示了表型变化,那么了解关键残基在同源模型中的位置将很有用。
  • 进化保守残基的分布可能暗示功能位点。例如,通过进化守恒给同源模型着色(例如ConSurf服务器)可能会显示高度保守残留物的补丁或口袋。出于上述原因,请注意同源模型中可能缺少哪些残基。一些缺失的残基可以高度保守。
  • The distribution of收费表面上可能有用。例如,一个带正电荷的大区域或口袋可能是核苷酸、DNA或RNA的结合位点。一个没有电荷的区域表明与疏水性物质相互作用[7]记住,费用分配的细节是不正确的;然而,总体安排可能会提供信息。还要注意,如上文所述,由于序列比对中的间隙或模板中的缺失残基,模型中是否缺少一些带电残基。Jmol第一眼量化缺失的费用。

例子:大肠杆菌DnaC解旋酶装载器的结构是同源模型的分析。

如何获得同源模型

预计算模型

UniProt公司。组织,找到你的蛋白质并点击结构.

蛋白质模型门户

ProteinModelPortal已关闭。该网页仅保留作为已建立的预先计算蛋白质结构模型的资源的中继。

SMR:瑞士模型库

SMR将显示弧形条形图,描绘预先计算的同源模型的结构覆盖范围以及给定UniProt条目的实验结构。单击条形图,然后悬停报告模型详细信息,例如每个模型的序列范围。下载模型的链接在单独的一段中提供。

ModBase(ModBase)

注意,在蓝色的盒子里数据集信息右上角是最新计算的日期。您可能希望单击开始新计算以利用更新的模板。

初始页面没有列出所有模型。打开下拉菜单选择选项,然后选择模型详细信息现在有一个关于每个预先计算模型的信息的表格。不要混淆立柱PDB细分市场覆盖范围,以图形形式显示在最右边的列中。

有时模型由ModBase列出,但没有在ProteinModelPortal或SwissModelRepository中列出(由于序列标识低,不可靠性高)。

要下载模型,请打开下拉菜单并选择协调.

生成新模型

此过程确保您使用的是最新的模板,并且可能会生成一个比预先计算的模型覆盖率更好(并且序列标识可能更低)的模型。它还允许您选择在多个模板可用时希望使用的模板。

  • 创建帐户并登录是一个好主意。这使得以后很容易找到您的模型,尽管它们在服务器上保存的时间不会超过一周。
  • 打开菜单建模在顶部,然后选择自动模式.
  • 将序列粘贴到框中,为项目指定标题,然后单击构建模型。处理过程可能需要几分钟到几个小时。

结果将有一个表,列出序列标识的百分比和使用的模板。下面是模型的分子图像。单击分子图像以打开更多信息。在打开的框中,单击右侧看起来像“v(v)“打开更多详细信息。

要下载模型,右-单击蓝色按钮型号01(或02、03等)并拾取下载链接文件.

总结页面(您可能需要单击链接总结),值得点击显示完整模板详细信息。此表显示了每个型号的覆盖范围。您可能需要此表中未被瑞士模型选择的模型。如果打开特定模型的行(单击“v(v)“在右边),有一个蓝色按钮构建模型.

如何浏览三维模型

有许多极好的分子图形程序。大多数都很难使用(“不友好”)。

Jmol第一眼

Jmol第一眼它可能是最容易使用的,对解释您所看到的内容有很大帮助,尽管如此,它还是相当强大的。(请参见Jmol中的第一眼是什么?Jmol第一眼.)


  • 同调模型
    • 下载同源模型。
    • 第一眼。J摩尔。组织.
    • 单击上传您自己的PDB文件并指定你的同源模型。点击第一眼查看。你的分子应该会瞬间出现。

疏水/极性

大多数视图位于意见选项卡将提供信息。特别重要的是疏水/极性视图。可溶性蛋白质的疏水表面面积不应过大(>~15μm)。应将极性残留物喷洒在整个表面上。脂肪酶是一个例外,例如。1升/分,其中催化部位的口袋是疏水的。当然,其他例外情况是不溶性蛋白质,例如完整或跨膜蛋白质,例如。第18页,7小时.

疏水的,极地的
图片:亲水表面.png 图片:疏水表面.png 图片:Transmemble-surface.png
同源模型的亲水表面。脂肪酶的疏水催化面(1升/分).跨膜蛋白(3瓦吉)跨膜疏水区由红色支架。

疏水核心

可溶性蛋白质应有明确的疏水核心。要在中查看此内容第一眼,在意见选项卡,单击疏水/极性,然后打开厚板按钮。如果蛋白质有多个结构域,那么每个结构域都应该有一个疏水核心。如果可溶性蛋白质模型中没有疏水核心,那么该模型很可能存在很大的错误。

疏水的,极地的
图片:疏水核心.png
域中的疏水核(圈出红色;4cpa(注册会计师)).

费用分配

进化保护

同源模型中高度保守的氨基酸的斑块可以提供非常丰富的信息,因为这样的斑块指示功能位点。

  • 转到ConSurf服务器:ConSurf.tau.ac.il网站.
  • 点击氨基酸.
  • 单击是,这里有一个已知的蛋白质结构。
  • 输入PDB代码,或单击选择文件上传同源模型。点击下一步.
  • 选择兴趣链。对于同源模型,通常只有一个链“a”。
  • 选择否-您尚未准备好要上传的多序列比对(MSA)。服务器将为您生成MSA。
  • 保留参数的默认值。
  • 检查手动用于“选择同系物…”。
  • 输入职务和电子邮件地址,然后单击提交按钮。第一步,收集相似的序列,通常不到5分钟。


另请参见

注释和参考

  1. 通过3D结构相似性搜索,微管蛋白与ftsZ最接近,RMSD(α-碳)<2.6º。
  2. Tompa P.内在非结构蛋白质。生物化学科学趋势。2002年10月;27(10):527-33. PMID:12368089
  3. 这个MobiDB说明旨在补充这个任务.
  4. 求解给定蛋白质序列的3D结构的总成功率约为5%。失败通常是因为表达的蛋白质没有足够的可溶性(约为表达序列的一半),因为可溶性蛋白质不能结晶,或者因为晶体没有很好的排列。
  5. 5 5.12014年12月测定了PDB中的分子量中值。
  6. 氨基酸的平均质量为111.4道尔顿,根据蛋白质的出现频率进行加权。
  7. 脂肪酶的活性部位周围通常有一个疏水表面(没有电荷)。请参阅脂肪酶盖变形.
  8. Studer G、Tauriello G、Bienert S、Biasini M、Johner N、Schwede T.ProMod3-A通用同源建模工具箱。公共科学图书馆计算生物学。2021年1月28日;17(1):e1008667。doi:10.1371/journal.pcbi.1008667。PMID:33507980数字对象标识:http://dx.doi.org/10.1371/journal.pcbi.1008667
个人工具