摘要

蛋白质结构域家族通常根据氨基酸序列的相似性进行分类。为每个族选择一个具有代表性的序列可以为结构确定或建模提供目标,还可以进行快速序列搜索,以将新成员与族关联。这种选择可能具有挑战性,因为其中一些域家族根据家族成员的数量、平均家族序列长度或家族内序列差异的程度表现出巨大的差异。我们早些时候创建了3PFDB数据库,作为最佳代表序列的存储库,这些序列是在高覆盖率的基础上从每个PFAM域家族中选择的。在本研究中,我们使用更有效的策略改进了数据库,用于初始生成序列配置文件,并实现了两种独立的方法,FASSM和HMMER,用于识别家族成员。HMMER采用全局序列相似性搜索,而FASSM依赖于模体识别和匹配。本研究中生成的经改进和更新的数据库3PFDB+提供了PFAM家族的代表性序列和概况,其中有13 519个家族代表的家族覆盖率超过90%。代表性序列也在二维图中突出显示,反映了家庭成员之间的相对差异。属于短序列小家庭的代表主要与低覆盖率有关。家族代表性特征未识别的序列集突出了PFAM中几个潜在的错误或弱家族关联。部分结构域和片段以及与其他家族成员高度分化或不同的序列在这种情况下占主导地位。一些异常值也被预测具有不同的二级结构内容,这反映了这些域序列的不同假定结构或功能作用。

数据库URL:http://caps.ncbs.res.in/3pfdbplus/

介绍

蛋白质是对细胞完整性和生存至关重要的基本生物分子之一。它们发挥着许多重要而不同的作用,如催化反应、信号传递、运输不同的分子或离子、稳定细胞骨架、,.具有相似序列的蛋白质往往具有相似的结构,随后具有相似的功能(1). 这些相关蛋白可以在序列、结构和功能水平上进行分类。在这个高通量测序时代,蛋白质结构和功能的测定无法与传入序列信息的速率相匹配。这导致大部分已排序数据没有结构信息或没有函数注释。因此,为了获得结构或功能方面的见解,使用不同的计算方法已成为不可避免的。

蛋白质通常被描述为具有紧凑的结构或功能单位,称为结构域。这些结构域在氨基酸序列和三级折叠方面表现出显著的保守性(2). 将结构域分配给蛋白质序列或结构有助于分类和功能注释。PFAM系列()数据库是一个很好的尝试,它可以帮助基于域分配的函数注释。该数据库由蛋白质结构域家族组成,这些家族根据序列相似性自动分类,并以隐马尔可夫模型(HMM)为基础。从一组具有代表性的种子序列派生出的HMM配置文件与每个域家族关联。根据与HMM家族资料的比较,将新序列归入一个家族。因此,家族种子数据集反映了涵盖家族所有序列信息的多个代表。

PFAM家族的组成和规模差异很大。在一些家庭中,成员彼此非常相似,而在其他情况下,成员之间的序列同一性相当低。平均而言,种子集的序列一致性范围为30-40%。在这个序列一致性范围内,特别是在高度多样的家族中,多重序列比对可能并不容易。这可能会降低为这些族生成的HMM配置文件的质量。据报道,在同源性检测中,使用30%到50%之间的序列生成的配置文件是有效的(4). 此外,由于一个家族的序列差异,平均序列长度也在6(PF08261)到1402(PF06317)个残基之间变化。短蛋白可能会错误地与某些家族的HMM模型的一部分相关联。当蛋白质具有信号肽或跨膜螺旋时,PFAM家族的分配可能存在歧义(5). 这种错误的族分配可能会降低分类的可靠性和代表性种子数据集的选择。

3PFDB数据库旨在为每个PFAM家族寻找最佳代表序列(BRS)(6). 由BRS生成的配置文件(最佳代表配置文件,BRP)预计将确定家庭成员的最大数量。由于在某些家庭中观察到的差异很大,这些剖面可以提供更精细的表示。HMMER等敏感的同源性检测方法(7)、FASSM(8)和RPS-BLAST(9,10)用于将新序列与具有代表性的家族特征相关联。具有代表性的家族序列库可用于执行计算速度非常快的简单序列搜索,它们也可作为结构确定或计算建模的目标。

在PFAM数据库中,整个域比对用于构建模型,而不添加任何关于保守基序的信息。较小的保守图案通常反映出家族特征。我们的内部计划之一,FASSM(8)(使用序列和结构基序的功能关联)可以检测通过循环置换或不连续域进化的远程同源。该算法具有较高的灵敏度,能够检测出具有少量保守残基的小蛋白同源物。

在这项工作中,我们使用更有效的BRP生成策略改进了3PFDB数据库,并实现了两种方法FASSM(8)和HMMER3(7)用于识别家庭成员。RPS-爆炸(9)由于与这两种方法相比性能相对较差,因此未在本研究中使用。此外,不是使用PFAM种子来生成代表性简档,而是使用具有50%同一性阈值的独立序列集。当前协议的框架允许更容易的自动化和定期更新数据库。

对未能识别其家庭代表特征的成员进行进一步评估,以检查其家庭关联的可靠性。这些序列不能通过模体(FASSM)和基于序列(HMMER)的方法与家族特征相关联。我们的假设是,一个家族中的某些序列可能与其他家族成员有着广泛的差异。然而,我们在一个家庭中观察到一些弱关联或虚假关联的案例。从序列离散度、平均长度和家系规模方面详细研究了代表性较差的家系。对于单一BRS覆盖率较低的家庭,选择了多名代表。数据库3PFDB+的更新版本提供了这些具有代表性的新序列和剖面。每个家族中序列的离散性用PCA图表示,并突出显示BRS的位置。作为HMM模型提供了具有代表性的轮廓,并给出了每个家族中识别的图案。用户还可以使用HMMER根据代表性配置文件搜索任何感兴趣的序列(7)和FASSM(8).

方法

PFAM v26由13 672个家族组成,用于识别每个领域家族中的代表。为了提取可能的代表,使用BlastClust在25%的序列身份阈值下对所有家族成员进行聚类(11). 从每个簇中选择最长的序列,以形成种子数据集。通过执行PSI-BLAST生成与代表序列对应的剖面(12)搜索在50%身份截止时收集的非冗余PFAM系列数据集(图1). 在E值阈值为10的情况下,搜索进行了三次迭代在早期的一项研究中,针对100个PFAM家族的小数据集,比较了三种不同的序列相似性搜索方法在识别代表性方面的效率(10). 相同的数据集用于优化本工作中设计的改进协议。

3PFDB+数据库中标识BRS和相关配置文件的工作流。圆形背景中突出显示的部分显示了早期研究中轮廓生成方法的差异(6)。
图1。

3PFDB+数据库中标识BRS和相关配置文件的工作流。圆形背景中突出显示的部分显示了早期研究中轮廓生成方法的差异(6).

从PSI-BLAST生成的序列集(12)管路构成了具有代表性的轮廓。然后,使用HMMER等敏感工具评估每个概况的家庭覆盖率(7)和FASSM(8). 将识别同一PFAM家族其他成员的效率计算为家族覆盖率。如果是HMMER(7),E值截止值为102用来联系家庭成员。财务会计准则委员会(8)程序包含不同的参数,即。、图案的大小、家族中允许的图案数量、图案的顺序、图案之间的距离、图案保护得分、,.财务会计准则委员会(8)该程序使用神经网络,每个参数的权重都经过优化,以决定查询序列是否属于给定的PFAM家族。计算PFAM家族每个种子序列的覆盖率,并将覆盖率最大的种子视为BRS。

对于与代表性剖面无关的序列,进行了详细分析。使用SEG检测到低复杂度区域(13)使用SOSUI预测最小长度为10个残基和跨膜蛋白(14)和TM-HMM(15).

结果

按照3PFDB+中的方法,在用于早期3PFDB分析的100系列数据集上测试了新方法(10). 如预期,从三个PSI-BLAST生成的配置文件(12)与简单的BLAST搜索相比,迭代在几乎所有族中提供了更好的覆盖范围(图2A) ●●●●。与种子集相比,选择一个初始数据集(50%非冗余截止)来生成轮廓也提高了覆盖率(图2B) ●●●●。只有在两个家庭中,覆盖率较高(分别增加86%和16%),原始种子数据集是在PFAM中提出的。对于这两个家族,种子集比50%的非冗余数据集有更多的序列(起点)。因此,用更多的序列信息丰富这些配置文件可以在这些情况下提供更好的覆盖率。

家庭中代表性覆盖率的比较。(A) 使用PSI-BLAST的三次迭代和单次迭代生成的迭代生成代表性族轮廓时获得的覆盖率比较。PSI-BLAST(12)搜索针对50%的非冗余族集进行。覆盖率是通过使用HMMER(7)(B)检查家族关联来计算的。通过对50%的家族非冗余集执行三次PSI-BLAST搜索,以及对PFAM种子数据集执行搜索时获得的覆盖率,来生成代表性家族简档时得到的覆盖率的比较(3)。覆盖率是通过使用HMMER检查家庭关联来计算的。(C) 使用基于3PFDB+协议得出的代表获得的覆盖范围与使用早期工作中确定的代表获得的覆盖范围的比较(6)。覆盖率是通过使用HMMER检查家庭关联来计算的。(D) 使用基于3PFDB+协议得出的代表获得的覆盖范围与使用早期工作中确定的代表得到的覆盖范围进行比较(6)。覆盖率是通过使用FASSM检查家庭关联来计算的(8)。
图2。

家庭中代表性覆盖率的比较。(A类)使用PSI-BLAST的三次迭代和单次迭代生成的迭代生成代表性族轮廓时获得的覆盖率比较。PSI-BLAST(12)对50%的非冗余家庭进行了搜索。覆盖率是通过使用HMMER检查家庭关联来计算的(7) (B类)通过对族的50%非冗余集执行三次PSI-BLAST搜索,以及对PFAM种子数据集执行搜索时获得的覆盖范围进行比较,从而生成具有代表性的族轮廓(). 覆盖率是通过使用HMMER检查家庭关联来计算的。(C类)使用基于3PFDB+协议的代表获得的覆盖范围与使用早期工作中确定的代表获得覆盖范围的比较(6). 覆盖率是通过使用HMMER检查家庭关联来计算的。(D类)使用基于3PFDB+协议的代表获得的覆盖范围与使用早期工作中确定的代表获得覆盖范围的比较(6). 覆盖率是通过使用FASSM检查家庭关联来计算的(8).

采用新方法进行改进

对于100系列数据集(10),使用改进的方案识别出新的代表性序列(图1). 然后,将从这些代表处获得的个人资料的家庭覆盖范围与从先前确定的代表处得到的资料进行比较(6) (图2C和D)。使用两种有效的序列同源性检测方法HMMER分别选择最佳代表(7)和FASSM(8). 如果是HMMER(7)衍生代表,99%的人有类似或更好的覆盖面(图2C) ●●●●。只有一个家族,即小核糖核酸病毒核心蛋白2A(PFAM ID:PF00947),使用新的代表性图谱,覆盖率降低了32%。该家族中的序列高度保守,50%的非冗余集合只剩下四个序列,其中三个是部分结构域(<平均家族长度的60%)。因此,代表性剖面的质量降低,需要用更多的家族序列进行富集。FASSM代表的覆盖率也有显著提高(图2D) 。只有小核糖核酸病毒核心蛋白2A和轮状病毒NS26家族这两个家族的代表,其覆盖值显著低于先前为这些家族确定的代表获得的覆盖值。

在一小部分家庭中,代表性的个人资料覆盖率很低,而50%的家庭只有少数序列。通过对完整的族集合而不是50%的非冗余集合进行搜索,丰富了这些配置文件。这是针对所有最佳代表性覆盖率<90%的家庭进行的。使用HMMER,剖面图的丰富使大约644个(1160个)和55个(1605个)家庭的覆盖范围有所提高(7)和FASSM(8)分别是。

HMMER与FASSM

HMMER和FASSM确定的BRS比较了其家庭覆盖率。就HMMER而言,13 214名代表的家庭覆盖率保持在90%以上,而使用FASSM确定的12 122名代表的覆盖率超过90%(图3A) ●●●●。对于3473个家庭,HMMER和FASSM均鉴定出相同的BRS。HMMER确定的代表所获得的覆盖率比33.5%的家庭使用FASSM选择的代表所获得的覆盖率要好。然而,基于FASSM的代表仅在16.6%的案例中保持了更好的覆盖率。

获得3PFDB+中确定的最佳代表的保险范围。(A) HMMER(3)和FASSM(8)确定的最佳代表的家庭覆盖率比较。对于两种方法的代表性覆盖率均小于90%的153个家系,(B)绘制了平均家系序列长度的分布和(C)家系规模。
图3。

获得3PFDB+中确定的最佳代表的保险范围。(A类)HMMER确定的最佳代表的家庭覆盖率比较()和FASSM(8). 对于这两种方法的代表覆盖率均<90%的153个家庭(B类)平均家族序列长度的分布(C类)绘制族大小。

在13672个家庭中,只有153个家庭的覆盖率低于90%。在这些家庭中,94个家庭的平均长度<50个残基,97个家庭的成员<100个(图3B和C)。因此,低覆盖率的家庭是短序列的小家庭。这些家庭中73%的代表覆盖面较低,不属于任何PFAM家族。涵盖其中10个家族的家族是四三肽重复超家族,其成员参与多种细胞活动,如细胞周期调节、转录控制、蛋白质转运、神经发生和折叠(16). 基本家族包括短重复序列,并且具有内在的高度多样性。

数据库的范围

PFAM家族代表的更新数据库涵盖了PFAM v 26中的13 672个家族()对于13519个(~99%)家庭,代表的覆盖率超过90%。使用HMMER识别BRS(7)和FASSM(8)它们分别通过全局序列相似性和局部模体匹配高效地检测序列同源性。现在提供了每种方法选出的最佳代表。用户还可以根据最佳代表数据集搜索新序列,以检查与任何PFAM家族的关联。

MySQL用作3PFDB+数据库的后端。服务器端的所有CGI脚本都用PERL编码。FASSM脚本用C++和PERL编程。在此更新中,我们提供了有关PFAM蛋白家族和用户友好访问选项的有用信息(请参阅补充表S1详细信息)。

3PFDB数据库(3PFDB+)的改进和更新版本为所有PFAM系列提供了新的代表集(图4). 3D-PCA图反映了该家族中的序列差异,也突出了代表序列在50%非冗余集合中的成员之间的位置。数据库中还列出了使用FASSM在家族中识别的保守基序。用户还可以下载与BRP对应的PSSM、多序列比对和HMM模型(图4). 代表性配置文件的完整数据集可以从http://caps.ncbs.res.in/3pfdbplus/PFAM_BRP/.

3PFDB+数据库的一些功能。可以从(a)系列列表中搜索每个PFAM系列对应的BRS和配置文件。A(B)PCA图突出了系列中的序列差异,并给出了最佳代表性的位置(红色)。BRP可以作为(C)多序列比对、(D)PSSM或HMM模型访问。(E) 还介绍了FASSM(8)鉴定的家族特异性序列基序。
图4。

3PFDB+数据库的一些功能。每个PFAM系列对应的BRS和配置文件可以从(A类)族列表。A类(B类)主成分分析图突出显示了系列中的序列差异,并给出了最佳代表性的位置(红色)。BRP可以作为(C类)多序列比对(D类)PSSM或HMM模型。(E类)FASSM鉴定的家族特异性序列模体(8)还介绍了。

与PFAM域分配的比较

为了了解3PFDB+代表在与PFAM HMM图谱相比的领域分配中的重要性,我们从UNIPROT中随机选择了50个领域分配不同的人类蛋白条目。通过在E值阈值为10时进行HMMscan搜索,这些序列与PFAM HMM谱和3PFDB+BRP相关2对于29个序列,3PFDB+和PFAM分配了不同但相关的(相同的PFAM家族)域。松散的家庭定义和某些成员与相关家庭紧密联系的倾向一直是一个重要的关注点,并且实施了家庭特定的聚集阈值评分来缓解这种相互交谈(17). 然而,需要检查种子剖面的质量,以找出“剖面稀释”的潜在问题。在本分析中,我们没有将GA评分纳入PFAM搜索,因为我们的目的是根据个人资料直接比较关联。在29个相关家族关联中,有16个涉及密切相关的域序列,这些域序列在早期版本的PFAM中被归类为同一家族的一部分。当前版本中此类子家族分组的功能相关性需要进一步测试。

与PFAM相比,3PFDB+对10个序列的域分配在功能上是相关的(FR),而PFAM搜索对7个序列没有任何分配,对其余的序列给出了不同的分配。我们咨询了UNIPROT(18)序列注释和GO(19)分子功能,以确定所分配的结构域是否与蛋白质功能相关。六个序列的基于PFAM配置文件的赋值是FR,但3PFDB+未能对三种情况进行赋值,其余五个序列的赋值不同。对于其他五个序列,由于注释不完整或没有注释,无法建立域赋值的功能相关性。图5提供了赋值比较的摘要,赋值列表和相关备注如下补充表S2.

比较PFAM和3PFDB+对来自UNIPROT的50个已审查人类蛋白质的结构域分配。基于领域分配的明确功能相关性,给出了序列在不同类别下的分布。功能相关缩写为FR.由PFAM Clan分组或GO注释相关的域分配标记为“相关”。仅由3PFDB+或PFAM给出域分配的序列指示为“仅3PFDB+”或“仅PFAM”。由3PFDB+或PFAM分配的其他FR域标记为“3PFDB+FR附加域”或“PFAM FR附加域“。根据PFAM或3PFDB+的附加赋值,将相关域和附加域组合的赋值分组到“相关”下。具有相同域数的相关分配显示为“相关:域数相似”。由于注释不足或没有注释(UNIPROT或GO)而需要进一步评估的域分配分为“不同(注释不足)”。
图5。

PFAM和3PFDB+对来自UNIPROT的50种综述的人类蛋白质的结构域分配的比较。基于领域分配的明确功能相关性,给出了序列在不同类别下的分布。功能相关缩写为FR.由PFAM Clan分组或GO注释相关的域分配标记为“相关”。仅由3PFDB+或PFAM给出域分配的序列指示为“仅3PFDB+”或“仅PFAM”。由3PFDB+或PFAM分配的其他FR域标记为“3PFDB+FR附加域”或“PFAM FR附加域“。根据PFAM或3PFDB+的附加赋值,将相关域和附加域组合的赋值分组到“相关”下。具有相同域数的相关分配显示为“相关:域数相似”。由于注释不足或没有注释(UNIPROT或GO)而需要进一步评估的域分配被分组在“不同(注释不足)”下。

此外,还使用了39种人类生物重要蛋白的更具体的数据集来研究结构域分配,这些蛋白质与肿瘤相关通路有关。PFAM和3PFDB+之间为39个序列中的7个分配的域结构不同。在三种情况下,3PFDB+配置文件有助于区分不重要的PFAM域分配(根据聚集阈值(GA)得分,补充表S3). 由于整个家族比对中的高度序列差异,家族HMM的稀释可能导致无意义的匹配。对于两个序列,3PFDB+分配了更多与蛋白质功能上下文相关的结构域,并且在PFAM数据库中的其他蛋白质中发现了这些结构域。对于两个序列,3PFDB+和PFAM分配具有相同功能的不同但相关的域族。

讨论

经修订的最佳代表搜索协议依赖于初始序列搜索,从以25%身份截止点选择的一组家族成员开始,仅使用PSI-BLAST的三次迭代来搜索同源物。该搜索是针对一个数据集进行的,该数据集是通过对冗余条目进行相当严格的过滤而获得的,且序列标识的截止值为50%。该改进协议确保了序列空间的充分采样,使用多个起始点,而不会对计算时间进行太多补偿。与之前确定的代表相比,3PFDB+中确定的最佳代表保留了更好的家庭覆盖率(6). 序列数据中的弱剖面由全系列序列丰富。这提高了许多低覆盖率代表的素质。

部分域和片段

对于153个家庭,其中最佳代表的覆盖率<90%,预计这些家庭成员可能会形成多个亚组,而单个代表无法将所有这些亚组联系起来。在这种情况下,使用一名以上的代表可能对提供更好的家庭覆盖率至关重要。

然而,在评估多个代表的可能性之前,详细分析了任何家庭成员无法通过其代表性特征识别身份的原因。收集了属于不同PFAM家族的序列,这些序列无法识别使用这两种方法识别的BRP。这说明了2986个序列跨越910个家族。38%的序列长度<平均家族长度的60%(图6A) ●●●●。因此,它们可以被认为是“部分域”或没有完整的域序列信息。图6B、 C强调了两种情况,其中某些家族成员是短片段,与其他家族序列没有明确关联。这些短序列错误地与部分家族特征联系在一起,没有任何家族特有的特征或图案。

不识别其家庭代表的序列。(A) 未通过BRP和平均家族长度确定的序列长度比的分布。(B,C)将BRP未确定的序列与最具代表性的序列对齐。PFAM系列名称以红色表示,这些系列的BRS以绿色突出显示。
图6。

不识别其家庭代表的序列。(A类)未通过BRP和平均家族长度确定的序列长度比的分布。(B类,C类)将BRP未确定的序列与最具代表性的序列对齐。PFAM系列名称以红色表示,这些系列的BRS以绿色突出显示。

部分结构域主要鉴定在含有P-环的核苷三磷酸水解酶超家族(PFAM家族:CL0023)、肌动蛋白样ATP酶超家族(PFAM家族:CL0108)、核糖核酸酶H-样超家族(PFAM家族:CL0219)、RNA依赖性RNA聚合酶(PFAM家族:CL0027)、硫胺素二磷酸结合超家族(PFAM家族:CL0254),糖基转移酶GT-A(PFAM家族:CL0110)、药物/代谢物转运蛋白超家族(PFAM集团:CL0184)和硫氧还蛋白样家族(PFAMCL0172)。

偏倚氨基酸组成

对于其他未被识别为家族成员的序列,我们检查了它们是否具有偏向性氨基酸组成。其中205个非片段序列在低复杂度区域的残基超过30%(补充表S4).图7A给出了SIT4磷酸酶相关蛋白家族的一个例子,其中聚谷氨酸延伸与该家族错误相关,而其他成员基本上不富含谷氨酸。251个序列表现出成分偏差,其中223个序列具有跨膜区域,28个序列富含极性残基(超过75%)。

不识别其家族代表并且不能被归类为部分域或具有多个家族关联的序列。(A) 低复杂度序列(标识符:B4JWU8_DROGR/1583-1849)与其家族HMM的比对。家族名称用红色表示。(B)未识别其BRP的序列的平均序列同一性比率分布(1383个)与其他家族成员的平均家族序列一致性计算在50%的非冗余数据集上。
图7。

不识别其家族代表且不能归类为部分域或具有多个家族关联的序列。(A类)低复杂度序列(标识符:B4JWU8_DROGR/1583-1849)与其家族HMM对齐。家族名称以红色表示(B类)未识别其BRP的序列与其他家族成员的平均序列一致性比率(1383个)与在50%非冗余数据集上计算的平均家族序列一致性的分布。

系列异常值

共有1383个序列(46.3%)不属于上述任何类别。预计这些序列与家族其他成员的距离较远。由于FASSM无法识别这些序列作为家族的一部分,因此它们还缺少一个或多个家族特征基序。这些序列中有99%与代表性覆盖率超过90%的家庭相关。

这些序列中有71.5%的序列与其他家族成员不同(图7B) ●●●●。将这些序列与其他家族成员进行比较时获得的平均序列一致性与平均家族序列一致性之比小于1。443个序列的这一比率低于0.8,可以认为它们与该家族的其他成员相距甚远。这些序列中的许多被观察到是家族中明显的离群值,二级结构预测表明,这些序列的二级结构拓扑与其他成员截然不同(数据未显示)。图8显示了两个示例,其中一个成员被发现是异常值,并且与该族存在错误或弱关联。

家族异常值。(A,B)提供了两个与BRP家族无关且被视为家族中异常值的序列示例。该序列与其他家族成员的关联是使用从该家族的PFAM数据库中获得的邻接连接树来表示的。突出显示了异常值序列,并以红色给出了家族名称。还将异常值预测的二级结构与家族的BRS进行了比较。BRS以绿色突出显示。
图8。

家族异常值。(A类,B类)提供了两个与BRP家族无关且被视为家族中异常值的序列示例。该序列与其他家族成员的关联是使用从该家族的PFAM数据库中获得的邻接连接树来表示的。突出显示异常值序列,并以红色给出族名称。针对异常值和族BRS预测的二级结构的比较也显示为对齐。BRS以绿色突出显示。

上述原因不能归因于未被确认为家族成员的序列占序列的31.4%(图9)他们跨越270个家庭。分析了这些序列的家族属性。244个序列的平均家族序列长度小于50个残基,442个序列的家族大小大于10000。在50%序列同一性水平以下,97%的序列的平均家族序列同一性<15%,因为它们属于高度多样的PFAM家族。涵盖这些序列最大数量的家族包括C2H2/C2HC锌指、四三肽重复序列、OB折叠、锚蛋白重复序列和P-loop NTPases。这些氏族大多以短而多样的序列而闻名。需要进一步验证这些序列的家族关联的可靠性,并且需要用更多的序列来丰富代表性简档,以用于真正的家族成员案例。我们可以从数据库和补充表S5列出了序列数和家庭关联性弱的原因。

代表未识别的序列。部分结构域、低复杂度序列、成分偏向序列和分化的家族成员在那些未被代表识别为家族成员的序列中的分布。不属于这些类别的序列的族属性也会突出显示。
图9。

代表未识别的序列。部分结构域、低复杂度序列、成分偏倚序列和发散族成员在这些序列中的分布,这些序列未被代表认作族成员。不属于这些类别的序列的族属性也会突出显示。

结论

在PFAM v 26中确定了13 666个家庭的BRS,并生成了相应的代表性简档。采用了新的剖面生成方法,显著提高了代表的家庭覆盖率。这些代表性层序和剖面显示在3PFDB+数据库中。用户还可以使用两种高效且敏感的序列同源性检测方法HMMER,根据代表性特征搜索新序列(7)和FASSM(8).

只有153名代表的家庭覆盖率<90%。低覆盖率主要与小家族或短序列有关。对不识别其家族BRP的序列进行深入分析有助于确定家族关联性弱的原因。近40%的此类序列是与该家族弱关联或虚假关联的部分结构域或片段。另一个主要部分对应于与家族高度分化的成员,或者是错误分组到家族中的明显离群者。一些具有低复杂性区域的序列也被发现具有错误的家族关联。识别BRS可以减少基因产品大规模功能注释的计算时间,而不会影响覆盖率。

基金

作者感谢NCBS(TIFR)的资金和基础设施支持。A.P.J.由R.S.P.S.的人类前沿科学项目资助,由印度生物技术部的奖学金资助。开放存取费用的资金来源:NCBS。

利益冲突。未声明。

工具书类

1
马蒂-里诺姆
妈妈
斯图亚特
自动控制
菲泽
A类
基因和基因组的比较蛋白质结构建模
每年。生物物理学评论。生物摩尔。结构。
2000
,卷。 
29
(第
291
-
325
)
2
穆尔津
AG公司
布伦纳
东南方
哈伯德
T型
SCOP:用于序列和结构研究的蛋白质结构分类数据库
分子生物学杂志。
1995
,卷。 
247
(第
536
-
540
)
芬兰
研发
米斯特里
J型
泰特美术馆
J型
Pfam蛋白质家族数据库
核酸研究。
2009
,卷。 
38
(第
D211型
-
D222型
)
4
马歇尔·鲍尔
A类
潘琴科
应收账
羚羊
N个
蛋白质结构域序列和结构比对的比较
蛋白质
2002
,卷。 
48
(第
439
-
446
)
5
Wong(王)
W-C公司
毛瑞尔·斯特罗
S公司
艾森哈贝尔
F类
蛋白质结构域数据库的1001多个问题:跨膜区、信号肽和序列同源性问题
公共科学图书馆计算。生物。
2010
,卷。 
6
第页。 
电子1000867
 
6
沙米尔
K(K)
纳加拉扬
P(P)
高拉夫
K(K)
3PFDB–使用新型数据挖掘方法生成的蛋白质家族最佳代表性PSSM图谱(BRP)数据库
生物数据最小值。
2009
,卷。 
2
第页。 
8
 
7
埃迪
SR公司
加速配置文件HMM搜索
公共科学图书馆计算。生物。
2011
,卷。 
7
第页。 
e1002195
 
8
高拉夫
K(K)
古普塔
N个
索德哈米尼
R(右)
FASSM:使用序列和结构基序在全基因组分析中增强功能关联
硅生物。(格德鲁克)
2005
,卷。 
5
(第
425
-
438
)
9
Marchler Bauer公司
A类
潘琴科
应收账
鞋匠
文学士
CDD:保守域比对数据库,与域三维结构链接
核酸研究。
2002
,卷。 
30
(第
281
-
283
)
10
戈瑞
VS公司
沙米尔
K(K)
雷迪
CCS系统
一种用于识别蛋白质结构域家族最佳代表序列的序列数据挖掘协议
2012年IEEE第十二届国际数据挖掘研讨会
2010
美国加利福尼亚州洛斯阿拉米托斯,第0卷
IEEE计算机学会
(第
703
-
710
)
11
阿尔特舒尔
旧金山
吉什
W公司
米勒
W公司
基本本地对齐搜索工具
分子生物学杂志。
1990
,卷。 
215
(第
403
-
410
)
12
阿尔特舒尔
旧金山
马登
TL公司
Schäffer公司
AA公司
缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序
核酸研究。
1997
,卷。 
25
(第
3389
-
3402
)
13
伍顿
JC公司
费德亨
S公司
序列数据库中成分偏向区域的分析
方法。酶制剂。
1996
,卷。 
266
(第
554
-
571
)
14
广川
T型
文成(Boon-Chieng)
S公司
米塔库
S公司
SOSUI:膜蛋白分类和二级结构预测系统
生物信息学
1998
,卷。 
14
(第
378
-
379
)
15
克罗格
A类
拉松
B类
冯·海因
G公司
用隐马尔可夫模型预测跨膜蛋白拓扑结构:在全基因组中的应用
分子生物学杂志。
2001
,卷。 
305
(第
567
-
580
)
16
羔羊
年少者
图根德雷奇
S公司
Hieter公司
P(P)
四三肽重复相互作用:对TPR还是不对TPR?
生物化学趋势。科学。
1995
,卷。 
20
(第
257
-
259
)
17
蓬塔
M(M)
科吉尔
个人计算机
埃伯哈特
里尔
Pfam蛋白质家族数据库
核酸研究。
2012
,卷。 
40
(第
D290型
-
D301号
)
18
UniProt财团
Universal Protein Resource(UniProt)的活动
核酸研究。
2014
,卷。 
42
(第
D191号
-
1998年1月
)
19
基因本体联盟
基因本体:生物学统一的工具
自然遗传学。
2000
,卷。 
25
(第
25
-
29
)

作者注释

引文详情:Joseph,A.P.、Shingate,P.、Upadhyay,A.K。等。3PFDB+:改进搜索协议并更新以识别蛋白质序列域家族的代表。数据库,2014年第卷,文章ID bau026,doi:10.1093/database/bau026。

这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/3.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。

补充数据