跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2003年1月1日;31(1): 334–341.
doi(操作界面):10.1093/nar每公斤115
PMCID公司:项目经理165562
PMID:12520017

PANTHER:一个按生物功能组织的可浏览基因产品数据库,使用精选蛋白质家族和亚家族分类

摘要

PANTHER数据库用于蛋白质序列的高通量分析。其中一个关键特性是一个简化的蛋白质功能本体,它允许通过生物功能浏览数据库。生物学家馆长将本体术语与蛋白质序列组相关联,而不是单个序列。统计模型(隐马尔可夫模型或HMM)是从这些组中的每一组建立的。这种方法的优点是新序列可以在可用时自动分类。为了确保准确的功能分类,HMM不仅为家族构建,而且也为功能不同的亚家族构建。每个家族都有多个序列比对和系统发育树,包括馆长指定的信息。PANTHER数据库的当前版本包括GenBank非冗余蛋白质数据库中所有生物体的训练序列,HMM已用于对人类整个基因组的基因产物进行分类,以及黑腹果蝇.PANTHER在web上公开提供,网址为http://panther.celera.com.

简介

PANTHER数据库设计用于大规模蛋白质序列的高通量功能分析(1). 它被用来注释人类基因组(2)以及果蝇基因组(). 像Pfam这样的数据库(4)和SMART(5)PANTHER使用隐马尔可夫模型(HMM)库用同源序列的信息注释序列。然而,与这些数据库不同,PANTHER的目标不是注释单个域,而是注释分子的整体生物功能。同样与这些其他数据库不同的是,由于许多蛋白质家族在进化过程中具有功能分化的分支,PANTHER库不仅包含家族的HMM,还包含功能不同的亚科的HMM。在这些情况下,子家族注释可以更精确地定义命名和生物功能。

PANTHER由两个主要组件组成:PANTHER库(PANTHER/LIB)和PANTHER索引(PANTHER/X)。PANTHER/LIB是“书籍”的集合,每本书都将蛋白质家族表示为多序列比对、HMM和家谱树。家族内的功能分歧表现为首先根据共享功能将树划分为子树(子家族),然后为每个子家族构建不同的HMM。PANTHER/X是一个缩写的本体论,用于总结和导航分子(生物化学)功能和生物过程(例如通路、细胞角色甚至生理功能)。家族和亚科由生物学家馆长定义和命名,然后他们将每组序列与PANTHER/X本体中的术语相关联。

然后可以根据功能标记的HMM家族和亚家族对蛋白质查询序列进行评分。查询序列用得分最高的HMM的名称和功能分配进行分类,HMM得分提供了对分类置信度的估计。与其他基于HMM的方法一样,PANTHER分类适用于基因组项目:在跨越许多生物体的训练序列集上预先执行策划的功能分配,然后可以使用标记的HMM转移到其他生物体。因此,PANTHER数据库对人类基因的分类比LocusLink大得多(表(表11).

表1。

具有来自PANTHER和LocusLink GO关联的功能本体分类的人类基因的百分比(近似于LocausLink条目)
本地链接GO面板/X 
分子功能(NP)42%52%
分子功能(XP)0%19%
生物过程(NP)41%46%
生物过程(XP)0%17%

显示了两组LocusLink条目的分类基因百分比:NP(带有一个精选的RefSeq蛋白,以NP开头的登录,总数:13780)和XP(只有一个临时RefSeq条目,以XP开头的登录总数:38 506)。命中PANTHER HMM的LocusLink条目总数为9276(67%)(NP)和9141(24%)(XP)。

PANTHER已可用于Celera Discovery System(CDS)(7)近两年的订阅者,现在学术用户可以在http://panther.celera.com公共版本使用GenBank非冗余蛋白质数据库定义HMM的训练序列集。这些HMM用于对来自LocusLink的人类基因产品进行分类,以及黑腹果蝇FlyBase的基因产品(http://www.ruitfly.org/sequence/release3download.shtml). CDS版本包括来自Celera策划的集合的训练蛋白质,以及Celera固化人类和小鼠基因产品的额外HMM评分。

按功能浏览基因

PANTHER的一个主要特点是可以通过蛋白质功能浏览,方便生物学家访问。浏览受控词汇表术语比尝试在具有自由文本注释的数据库中构造有效查询要简单得多。PANTHER的主要入口点是PANTHER-Prowler,它使用文件文件夹类比来导航PANTHER/X分子功能和生物过程(图。(图1)。1). PANTHER/X本体本质上是分层的,但更准确地说,它是一个有向非循环图,因为如果从生物学角度来看,子类别偶尔会出现在多个父类别下。例如,生物过程DNA复制是两个类别的子级:(1)核苷,核苷酸和核酸代谢、和(2)细胞周期.PANTHER/X包含许多与更全面的基因本体(GO)相同的高级类别(8),并且已映射到GO(),但为了便于导航和大规模分析蛋白质集,排列方式完全不同。PANTHER/X还包含一些在当前GO版本中没有出现的脊椎动物特定类别,例如其他发育和免疫系统类别。

保存图片、插图等的外部文件。对象名为gkg115f1a.jpg
保存图片、插图等的外部文件。对象名称为gkg115f1b.jpg
保存图片、插图等的外部文件。对象名称为gkg115f1c.jpg

通过生物功能浏览PANTHER数据库。(A类)生物过程的选择脂质,脂肪酸和类固醇代谢(请注意,可以独立选择/取消选择类别,例如,类固醇代谢已取消选择)。(B类)检索馆长分配给选定功能类别的蛋白质家族和亚家族。(C类)检索编码与所选HMM家族和亚家族匹配的蛋白质的人类基因列表。

选择一组功能后,Prowler检索生物学家策展人先前分配给这些功能的蛋白质家族和/或亚家族的列表。用户可以在家族/子家族列表中进行进一步的选择,然后生成一个针对所选家族和子家族的HMM评分显著的蛋白质或基因列表。在当前版本中,基因列表可用于LocusLink人类基因和FlyBase果蝇基因。用于创建这些基因列表的LocusLink和FlyBase序列每月更新一次。基因列表可以排序并以tab分隔格式轻松导出。

除了浏览之外,还可以通过对管理员指定的家庭和子家庭名称、GenBank标识符或训练序列的定义行进行文本搜索来访问PANTHER。BLASTP也可以搜索分类的训练序列(9).

支持数据:系统发生树、多序列比对和序列注释

对于每个PANTHER系列,都有数据支持分类。用于生成系统发育树的多序列比对可以在web浏览器中下载和查看。MSA查看器的一个特点是,它不仅突出了家族保守型色谱柱(整个家族中保守的氨基酸),而且还突出了亚家族保守型的色谱柱(一个亚家族中保守但在其他亚家族中未发现的氨基酸)。Curator-defined subfamilies具有不同的注释和功能,因此这些subfaily-conserved column提供了关于哪些残基可能介导功能差异或特异性的假设(图。(图22).

保存图片、插图等的外部文件。对象名为gkg115f2.jpg

PANTHER多序列比对视图,突出显示全球保守位置(黑色和灰色)和可能指示对功能特异性重要残基的亚家族特异性保守模式(红色)。Pfam域显示为蓝色条,每个子家族一个。

系统发育树,包括馆长定义的亚科划分,可以被视为GIF图像。可以扩展子系列节点以查看来自GenBank和SWISS-PROT的序列级注释(10),以验证馆长定义(图。(图3)。). 我们还提供表单,使PANTHER的用户能够轻松地帮助更正名称和本体关联,并使其保持最新。

保存图片、插图等的外部文件。对象名为gkg115f3a.jpg
保存图片、插图等的外部文件。对象名称为gkg115f3b.jpg

用于验证管理的PANTHER树属性视图。(A类)“折叠视图”,显示了馆长定义的子家族和本体关联。(B类)“扩展视图”,显示所有组成序列及其注释。

使用来自固化蛋白家族和亚家族的HMMS精确分配功能

基因产品的PANTHER/X功能本体关联已被证明非常准确()主要是由于对生物学家管理的重视,以及基于树的同源推理方法。

策展人在非遗传树的上下文中定义子家族

PANTHER库的大部分管理工作都是在系统发育树的背景下进行的(1). 为每个族构建树,以表示序列级别的关系。然后,生物学家馆长审查树,将其划分为子树(子家族),以便给定子家族中的所有序列都可以被赋予相同的名称和功能分配。名称是自由文本(遵循网站上提供的一组定义指南),而功能分配使用受控的PANTHER/X本体术语。族和子族分组为构建HMM提供了一组训练序列。

PANTHER的设计,尤其是策展工作,偏向于功能注释和本体分类。大多数管理工作都致力于使用SWISS-PROT和GenBank记录中的功能信息以及OMIM中更详细的信息(如有必要),在系统发育树表示的上下文中分配功能(网址:http://www.ncbi.nlm.nih.gov/omim/)和PubMed摘要。PANTHER族被定义为尽可能多样化(增加可进行功能推断的序列数),同时保持其足够紧密,以确保生成的树是准确的。在当前版本的PANTHER中,我们不手工整理路线或树,甚至不要求族相互排斥;相反,馆长会根据功能注释的执行情况来判断它们。树构建算法基于HMM评分得出的距离度量,因此,如果具有相同功能的蛋白质位于同一子树中,则生成的HMM亚家族将预测功能。

家族和亚家族级HMM之间的竞争允许适当的基于同源性的推断

然后使用HMM家族和子家族对训练集中没有的序列进行评分。PANTHER的优点之一是能够分配特定功能,而不会过度泛化。序列数据库搜索通常根据最佳命中率分配功能。优点是这种分配可以非常具体,例如具有血清素配体的GPCR。缺点是很难知道查询何时距离点击过远,因此血清素结合的推断是不正确的。另一方面,在将序列与家族关联时,家族数据库搜索通常是正确的,但不能捕获不同家族中功能的特殊性。例如,有一些醛酮还原酶家族成员作为离子通道亚单位发挥作用。PANTHER通过在HMM库中包含族和子族模型,结合了这两种方法的优点。如果最佳命中率是子系列HMM,并且HMM得分高于可接受的阈值,则可以进行特定注释,而系列HMM最佳命中率通常允许进行不太特定的注释。按照上面的示例,家庭级最佳点击将导致注释醛酮还原酶2家族成员没有策划的本体术语,而一个子家族的点击会导致注释钾电压门控通道,β亚单位(家族6,亚家族A)和本体关联电压门控钾通道(分子功能)和阳离子运输(生物过程)。

在当前发布的PANTHER中,每个FlyBase都存储了所有重要的HMM分数果蝇蛋白质和LocusLink人蛋白质。每个基因产品的分类基于最佳HMM评分。对于非专家,每当报告HMM分数时,都会伴随一个“关系”图标,指示分类的相对确定性。随着分数变得不那么显著,分类出错的概率也会越来越高。即使使用允许的−35分(“密切相关”,即最低确定度)果蝇分子功能分类显示小于2%().

由于PANTHER/LIB包含超过40000个HMM,因此为用户定义序列的HMM评分提供通用的web界面还不实用。然而,PANTHER/LIB HMM评分可以作为附加服务或用于协作。

PANTHER HMM注释可以与基于域的HMM注释不同

Pfam和SMART等数据库使用HMM形式主义提供了一种非常有用的工具,用于识别蛋白质序列中的保守功能和结构域。PANTHER对HMM的使用有所不同,目的是注释蛋白质的整体生物功能。与Pfam和SMART一样,PANTHER系列级HMM通常具有基于单个域的功能注释。然而,PANTHER子家族级HMM(以及许多家族级HMMs)可以比单个域注释的简单总和提供更多信息。例如,人类基因HSPG2编码的蛋白质包含许多不同的结构域,包括LDL受体A结构域、表皮生长因子重复样结构域、免疫球蛋白样结构域以及层粘连蛋白B和层粘连素G结构域。这些结构域中的每一个都存在于具有不同功能的各种蛋白质的不同组合中。这些结构域中唯一可以被赋予一致功能的是层粘连蛋白型EGF结构域,该结构域已被Interpro赋予基因本体论(分子功能)术语结构分子相比之下,得分最高的PANTHER HMM是亚家族硫酸乙酰肝素蛋白多糖珍珠糖(CF10574:SF31),分配给PANTHER/X本体术语(分子功能)细胞外基质糖蛋白和(生物过程)细胞粘附细胞粘附介导的信号转导。这是更广泛的PANTHER家族的一个特定亚家族层粘连蛋白相关(CF10574),它与Pfam层粘连蛋白B和G结构域一样,不属于任何功能术语(图。(图44A) ●●●●。

保存图片、插图等的外部文件。对象名为gkg115f4a.jpg
保存图片、插图等的外部文件。对象名为gkg115f4b.jpg

捕获功能分歧的PANTHER亚家族示例。(A类)层粘连蛋白相关蛋白具有不同的结构域结构(这与共享层粘连结构域内的差异相关),而(B类)分泌素相关的GPCR在一个公共域中具有不同的序列。这两种情况通常都可以使用子系列HMM进行建模。

即使对于单域蛋白质,PANTHER亚家族HMM通常也能进行比Pfam和SMART等更通用HMM更具体的功能推断。例如,CALCR基因产物与分泌素样七跨膜受体家族的Pfam HMM结合,该家族被赋予GO分子功能G蛋白偶联受体.最高得分的PANTHER HMM是亚家族降钙素受体(CF12011:SF18),分配给G蛋白偶联受体以及生物过程骨骼发育其他神经元活动更具体的分配适用于此子家族,但不适用于较大家族中的所有成员(图。(图44B) ●●●●。

致谢

我们感谢Kimmen Sjolander、Gangadharan Subramanian、Mark Yandell、Anthony Kerlavage、Richard Mural和Michael Ashburner的有益讨论。我们感谢Matteo di Tommaso、James Jordan、Brian Karlak和Bruce Moxon提供的关键软件工程援助。我们也感谢许多帮助策划PANTHER图书馆的生物学家。

参考文献

1Thomas P.D.,Campbell,M.J.,Kejariwal,A.,Mi,H.,Karlak,B.,Daverman,R.,Diemer,K.和Muruganujan,A.PANTHER:提交了一个按功能索引的蛋白质家族和亚家族库。[PMC免费文章][公共医学]
2.Venter J.C.、Adams医学博士、Myers E.W.、Li P.W.、Mural R.J。(2001)人类基因组序列。科学类,291, 1304–1351. [公共医学][谷歌学者]
三。Mi H.、Vandergriff,J.、Campbell,M.、Narechania,A.、Lewis,S.、Thomas,P.D.和Ashburner,M.《全基因组蛋白质功能分类评估》黑腹果蝇,已提交。[PMC免费文章][公共医学]
4Sonnhammer E.L.、Eddy,S.R.和Durbin,R.(1997)《Pfam:基于种子比对的蛋白质结构域家族综合数据库》。蛋白质,28, 405–420. [公共医学][谷歌学者]
5Schultz J.、Milpetz,F.、Bork,P.和Ponting,C.P.(1998)SMART,一种简单的模块化架构研究工具:信号域的识别。程序。美国国家科学院。科学。美国,95, 5857–5864.[PMC免费文章][公共医学][谷歌学者]
6Pruitt K.D.、Katz、K.S.、Sicotte、H.和Maglott,D.R.(2000)《RefSeq和LocusLink简介:NCBI的人类基因组资源》。趋势Genet。,16, 44–47. [公共医学][谷歌学者]
7Kerlavage A.、Bonazzi V.、di Tommaso M.、Lawrence C.、Li P.、Mayberry F.、Mural R.、Nodell M.、Yandell M.,Zhang J.和Thomas P.D.(2002)《赛莱拉发现系统》。核酸研究。,30, 129–136.[PMC免费文章][公共医学][谷歌学者]
8Ashburner M.、Ball,C.A.、Blake,J.A.、Botstein,D.、Butler,H.、Cherry,J.M.、Davis,A.P.、Dolinski,K.、Dwight,S.S.、Eppig,J.T.、Harris,M.A.、Hill,D.P.、Issel-Tarver,L.、Kasarskis,A.、Lewis,S.、Matese,J.C.、Richardson,J.E.、Ringwald,M.、Rubin,G.和Sherlock,G.(2000)《基因本体论:生物学统一的工具》。自然遗传学。,25, 25–29.[PMC免费文章][公共医学][谷歌学者]
9Altschul S.F.、Gish,W.、Miller,W.,Myers,E.W.和Lipman,D.J.(1990)基本局部对齐搜索工具。分子生物学杂志。,215, 403–410. [公共医学][谷歌学者]
10Bairoch A.和Apweiler,R.(2000)2000年的SWISS-PROT蛋白质序列数据库及其补充TrEMBL。核酸研究。,28, 45–48.[PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社