摘要
PANTHER(通过进化关系进行蛋白质分析,http://pantherdb.org)是生命树中生物基因进化和功能分类的资源。我们报告了过去两年中我们对资源的改进。对于进化分类,我们在系统发育基因树中添加了更多的原核生物和植物基因组,扩大了基因进化在这些谱系中的表现。我们已经细化了许多蛋白质家族边界,并将PANTHER与蛋白酶和蛋白酶抑制剂家族的MEROPS资源对齐。对于功能分类,我们开发了一种全新的PANTHER GO slim,包含的基因本体论术语是我们以前的GO slim的四倍多,以及基因与这些术语的精心关联。最后,我们对PANTHER网站上的富集分析工具进行了实质性改进:用户现在可以分析900多个不同的基因组,使用更新的统计测试和多次测试的错误发现率校正。过度陈述测试也可以作为web服务提供,以便轻松添加到第三方站点。
简介
PANTHER是根据基因的进化历史及其功能进行分类的综合资源(1,2). 虽然PANTHER中的进化分类和功能分类高度相关,但它们并不完全相同。随着进化关系越来越密切,相关性也越来越大。PANTHER进化分类有三个层次,从最小到最具体:蛋白质类、家族和亚科。蛋白质类别包括同源基团(“超家族”,如蛋白激酶,由多个不同的家族组成)和主要类似的基团(如“转运蛋白”),但也可能包括序列上过于分散而无法可靠建立同源性的同源物。每个蛋白质类通常根据一个家族中观察到的最常见功能命名,但它可能包括具有相同进化历史的不同功能的成员。一只熊猫蛋白质家族包含根据统计序列相似性确定的来自共同祖先的后代而彼此相关的基因,其序列可以可靠地对齐为多序列比对。对于PANTHER的15000多个家族中的每一个,家族成员之间的详细关系都用系统发育树表示,该树显示了家族是如何通过物种形成、基因复制和水平转移过程进化的(三). 系统发育树中的每个内部分支点(节点)都根据导致家族成员分化的进化过程类型进行标记。该家族树是使用已详细描述的计算推理管道,根据家族成员的蛋白质序列重建的(4,5). 每个家谱进一步细分为蛋白质亚家族由于基因复制在创造家族功能多样性方面的重要性(6,7)PANTHER根据基因复制事件定义了亚家族。每当发生基因重复时(除了最近的重复导致PANTHER中只有一个参考物种存在额外的基因外),就会为具有更高差异蛋白质序列的重复创建一个新的亚科。因此,同一亚科中的基因很可能基于共同的血统而具有共同的功能,几乎没有分歧,即使这些基因属于不同的物种。成对直系同源基因(可追溯到其共同祖先基因组中相同基因的成对基因)也直接从PANTHER树中确定。PANTHER包括根据进化分类分析序列的工具(8,9). 用户可以使用PANTHER Prowler工具按蛋白质类别浏览一个或多个选定的基因组。他们可以使用PANTHER tree Viewer工具分析系统发育树和底层序列数据(以用于推断树的多序列比对的形式)。用户可以上传一个新的蛋白质序列到网站,在那里进行统计比较(使用HMMER3软件(10))以隐马尔可夫模型(HMM)表示的~80000个亚家族(11),以按子家族(或家族,如果它与子家族的匹配不够紧密)对其进行分类。
对于功能分类,PANTHER使用基因本体(GO)(12,13). PANTHER以两种不同的方式使用基因本体,用户理解它们之间的差异非常重要。首先,PANTHER包括基因本体联盟提供的所有注释(可在网址:http://geneontology.org)到完整基因本体论(包括~45000个不同的功能项)。这些注释集包括所有GO证据代码,并标记为“GO complete”。其次,PANTHER将推断注释包含到仅包含基因本体子集(包括PANTHER版本9.0至13.1中的655个不同功能术语,但在PANTHER14.0中进行了实质性扩展,如下所述)。这些注释集标记为“PANTHER GO-slim”这些推断的注释是通过对PANTHER家谱的注释产生的,因此它们可以与进化分类直接相关。PANTHER家谱的注释是通过手动管理进行的,该过程已在前面进行了描述(14). 简言之,馆长在系统发育树的背景下审查了一个家族中所有基因的所有实验GO注释。然后,他们选择信息量最大的GO项来推断每个函数(GO项)相对于树中祖先分支的增益或损耗。然后将祖先函数传播到后代序列,除非在沿袭中用函数丢失进行注释。这个过程在GO、IBA中有一个独特的证据代码,或者从祖先的生物学方面推断。因此,PANTHER GO-slim注释仅代表已经由策展选定(来自可用的实验注释),以及被认为是进化上保守的。使用此过程,迄今为止已经对5000多棵PANTHER树进行了注释。值得注意的是,虽然一个特定的基因只属于一个进化类别,但它可以有许多不同的GO术语来描述其功能的不同方面。它也可能没有已知或推断的函数(“函数未分类”)。与进化分类一样,GO功能可以具有不同的特异性,从一般术语(例如激酶活性)到更具体的术语(例如酪氨酸蛋白激酶活性)。然而,与进化分类不同,一个给定的GO术语通常会有多个父术语,反映了分类的多个“轴”。功能分类和进化分类通常具有复杂的关系。一般来说,给定的基因本体类可以包含来自不同进化群体(如亚科)的基因,但给定亚科的大多数成员将与相同或类似的推断GO术语相关联。除GO外,PANTHER中的功能分类还包括生物途径,这两种途径(15)和反应体途径(16). PANTHER支持通过功能分类分析基因的几种工具,这些工具已经过详细描述(9). 用户可以从PANTHER主页上传基因列表,并检索功能分类,将功能类可视化为交互式条形图或饼图,或者执行富集分析,以查找给定基因列表中统计上超过(或低于)的功能。
在这里,我们描述了PANTHER资源的最新主要改进。这些改进包括两个方面:PANTHER核心数据和PANTHER基因列表分析工具。在核心数据中,我们增加了家族和系统发育树中原核和植物基因组的数量,并细化了数百个蛋白质家族边界。我们创建了一个全新的PANTHER GO-slim和相关注释,并改进了蛋白酶和蛋白酶抑制剂家族的PANTHER蛋白质类。在基因列表分析工具中,我们开发了额外的软件,使用户能够轻松分析900多个基因组的列表(上次更新时为104个)。我们还为PANTHER过度陈述测试实施了额外的统计测试方法(Fisher精确测试),并为PANTTHER站点上的所有统计测试实施了Benjamini-Hochberg错误发现率的多重测试校正。过度陈述测试工具也可以通过web服务获得,因此可以很容易地添加到任何第三方网站。
PANTHER核心数据改进
系统发育树中更多的植物、动物和原核基因组
自上次更新论文以来,我们在PANTHER的参考系统发育树中添加了28个基因组,几乎增加了30%。新的基因组是与另外两个项目合作添加的:探索正交日志(QfO)联盟(17)和系统发育项目(http://www.syntheres.org/). QfO合作的新基因组(表1)主要是为了改进生命树的采样。添加了三种细菌和一种古细菌,当然,与真核生物相比,PANTHER中原核生物的总体采样率仍然较低。在这些动物中,我们将水蛭作为基础原口,将红粉甲虫作为外群昆虫添加到现有的苍蝇基因组中,并将gar添加到基部射线鱼中,这些鱼在硬骨鱼类特异性全基因组复制之前发生了分化。通过与系统发育基因项目的合作,我们将PANTHER中的植物基因组数量增加了两倍(图1). 其中大多数是农业植物,但有一种是基础开花植物(乔木属)还有一种是单细胞植物(球菌属). 用户应该知道,这些植物基因组中有许多是多倍体,可以作为最近的基因复制事件出现在PANTHER树中。
表1。自PANTHER 11.0(2016)以来的新非植物基因组
原核生物 | 生殖支原体(尿道炎细菌) |
| 幽门螺杆菌(胃溃疡菌) |
| b群脑膜炎奈瑟菌(脑膜炎球菌属细菌) |
| 海亚硝基短吻亚硝酸盐(海洋古生物) |
原口动物 | 赫洛贝拉·罗布斯塔(水蛭) |
| 栗Tribolium castaneum(红粉甲虫) |
脊椎动物 | 斑点雀鳝(斑点gar) |
| 青鳉(日本米鱼) |
原核生物 | 生殖支原体(尿道炎细菌) |
| 幽门螺杆菌(胃溃疡菌) |
| b群脑膜炎奈瑟菌(脑膜炎球菌属细菌) |
| 海亚硝基短吻亚硝酸盐(海洋考古学家) |
原口动物 | 赫洛贝拉·罗布斯塔(水蛭) |
| 栗Tribolium castaneum(红粉甲虫) |
脊椎动物 | 斑点雀鳝(斑点黄) |
| 青鳉(日本米鱼) |
表1。自PANTHER 11.0(2016)以来的新非植物基因组
原核生物 | 生殖支原体(尿道炎细菌) |
| 幽门螺杆菌(胃溃疡菌) |
| b群脑膜炎奈瑟菌(脑膜炎球菌属细菌) |
| 海亚硝基短吻亚硝酸盐(海洋古生物) |
原口动物 | 赫洛贝拉·罗布斯塔(水蛭) |
| 栗Tribolium castaneum(红粉甲虫) |
脊椎动物 | 斑点雀鳝(斑点gar) |
| 青鳉(日本米鱼) |
原核生物 | 生殖支原体(尿道炎细菌) |
| 幽门螺杆菌(胃溃疡菌) |
| b群脑膜炎奈瑟菌(脑膜炎球菌属细菌) |
| 海亚硝基短吻亚硝酸盐(海洋古生物) |
原口动物 | 赫洛贝拉·罗布斯塔(水蛭) |
| 栗Tribolium castaneum(红粉甲虫) |
脊椎动物 | 斑点雀鳝(斑点gar) |
| 青鳉(日本米鱼) |
![PANTHER版本14中的植物基因组物种树。新的植物基因组是红色的。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/47/D1/10.1093_nar_gky1038/1/m_gky1038fig1.jpeg?Expires=1722363359&Signature=D~4~Xkga6ie-xJIYx~oKiLB2RcOdLE~HQfM641FuEgLxgDDdR8oLgwjTgQlCKSdvYwcxZ-MJntS~1V3F3En8W5P55L2P0buSyA0J96hP0HeqKxIAcjkLf06DZAW9e6nhS9YYPFSfrhaGqoRFSFPY7JmhPWS-x5qVP7URSWM-tI80kSef7gEzOHiwkNbBj2TsV-KmW1u3oHogSfbsajugQOY4up-gtS6oOGL-zucx1-CUUImzY2iroBigdi5JPz4aeOQ36lshHh35Mb2qYBWd6HU7AB5XDh7W-KVzf0wBDIJOE1xhmDGEmhG162IQIcRYELnBLB~IfsOELryLQ3ZkVw__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图1。
PANTHER版本14中的植物基因组物种树。新的植物基因组是红色的。
改善家庭界限
PANTHER团队一直在与Ensemb Compara/TreeFam合作(18)为推断系统发育树而细化家族边界的团队。该研究的目的是确定具有低质量多序列比对的家族,因为系统发育树推断在很大程度上依赖于这些比对。低质量比对通常是由序列和/或域结构高度多样的系列造成的,然后这些系列将重新归类为更小、更紧密相关的序列系列。Ensembl团队确定了PANTHER家族,当用于从Ensembl基因预测中收集同源物并对其进行比对时,会导致潜在的低质量比对。具体而言,确定了最终修剪的信号群排列的家庭,要么(i)包含很大比例(>50%)的家庭成员,这些家庭成员与保留的“核心”排列不对齐,要么(ii)核心排列较短(<100列),总排列长度至少比核心大4倍。这一过程确定了228个排列不良的家庭。PANTHER团队使用了另外两个标准来确定其他过度多样化的家庭。我们确定了至少10%的成员与多重比对(98个家族)中少于30个列(氨基酸位点)对齐的家族,以及家谱树包含两个或多个不同子树的情况,其中子树间比对共用少于30个氨基酸位点(549个家族)。后一个标准表明,两个或多个不同(基本上不重叠)的族错误地合并为一个族。将这些标准中的每一个标准确定的家庭合并,得到一组828个家庭(小于总和,因为一个给定的家庭可能由多个标准确定)。随后,使用标准PANTHER管道对这些不同的家族进行重新分类,如(4,5),并入PANTHER 14的3026个新家庭。为了最大限度地减少对最终用户的干扰,对于原始828个系列中的每一个,先前的PANTHER系列标识符都被转发到拥有最多前成员的新系列。所有其他新家庭都获得了新的家庭标识符。
新的PANTHER GO-slim和注释
从1998年开始,PANTHER团队独立开发了一种基因功能分类(PANTHER/X),包括分子级和路径级分类(1). 2005年,我们修改了分子级类,使其成为PANTHER蛋白质类本体,并将我们的功能分类转换为基因本体(GO)术语(8). 由于我们只使用了一小部分选定的GO术语,因此我们将这些功能本体称为“PANTHER GO-slims”,分别用于GO的三个方面:分子功能、生物过程和(自2007年起)细胞成分。自那时以来,PANTHER GO限制已被多次修订,但这些更改相对较小。另一方面,PANTHER HMM对GO-slim的注释已定期广泛更新。
在过去的两年里,我们完整修订版对PANTHER GO-限制本身,以及对这些本体论的基因注释。从2017年开始,所有传统的PANTHER GO-slim注释都被GO系统发育注释项目提供的系统发育注释所取代(14). 在这个项目中,一位专家生物验证器在PANTHER系统发育树的背景下,审查了所有实验支持的GO注释,这些注释是针对蛋白质家族的所有成员制作的。然后,生物构造器选择信息量最大的GO注释,并确定(基于其他GO注释以及序列、生物体和进化事件(如基因复制)的特性)进化树中获得给定GO术语(功能)(并可能随后丢失)的祖先分支。这允许通过将函数从祖先传播到后代来预测没有实验GO注释的序列的函数。截至2018年10月,已经使用8759个不同的GO术语对5500多个家庭进行了手动管理(表2). 然而,到目前为止,这些术语已被映射到较旧的PANTHER GO-slim本体中的高级术语,该本体包含不到700个术语(<所有GO术语的2%)。
表2。截至2018年10月,GO系统发育注释中使用的GO术语的数量和频率
#用给定GO项注释的不同树分支. | 不同GO术语总数. | 蜂窝组件术语. | 分子功能术语. | 生物工艺术语. |
---|
1 | 4741 | 443 | 1648 | 2650 |
2–4 | 2851 | 427 | 897 | 1527 |
5–10 | 822 | 176 | 197 | 449 |
11–50 | 314 | 105 | 93 | 116 |
51–100 | 18 | 9 | 6 | 三 |
>100 | 13 | 11 | 1 | 1 |
总计 | 8759 | 1171 | 2842 | 4746 |
#用给定GO项注释的不同树分支. | 不同GO术语总数. | 蜂窝组件术语. | 分子函数项. | 生物工艺术语. |
---|
1 | 4741 | 443 | 1648 | 2650 |
2–4 | 2851 | 427 | 897 | 1527 |
5–10 | 822 | 176 | 197 | 449 |
11–50 | 314 | 105 | 93 | 116 |
51–100 | 18 | 9 | 6 | 三 |
>100 | 13 | 11 | 1 | 1 |
总计 | 8759 | 1171 | 2842 | 4746 |
表2。截至2018年10月,GO系统发育注释中使用的GO术语的数量和频率
#用给定GO项注释的不同树分支. | 不同GO术语总数. | 蜂窝组件术语. | 分子函数项. | 生物工艺术语. |
---|
1 | 4741 | 443 | 1648 | 2650 |
2–4 | 2851 | 427 | 897 | 1527 |
5–10 | 822 | 176 | 197 | 449 |
11–50 | 314 | 105 | 93 | 116 |
51–100 | 18 | 9 | 6 | 三 |
>100 | 13 | 11 | 1 | 1 |
总计 | 8759 | 1171 | 2842 | 4746 |
#用给定GO术语注释的不同树枝. | 不同GO条款的总数. | 蜂窝组件术语. | 分子函数项. | 生物工艺术语. |
---|
1 | 4741 | 443 | 1648 | 2650 |
2–4 | 2851 | 427 | 897 | 1527 |
5–10 | 822 | 176 | 197 | 449 |
11–50 | 314 | 105 | 93 | 116 |
51–100 | 18 | 9 | 6 | 三 |
>100 | 13 | 11 | 1 | 1 |
总计 | 8759 | 1171 | 2842 | 4746 |
对于PANTHER版本14,我们大幅扩展了PANTHER GO限制,特别是为了更准确地表示手动GO系统发育注释过程中使用的这组8759个GO术语。如上所述,这些术语是由专家在逐个家族的基础上从更大的可用GO术语集合中选择的,因为它们被认为既具有功能信息,又具有进化保守性。为了从这些术语中构造一个新的PANTHER GO-slim,我们首先只选择了多次使用的术语。具体来说,我们要求使用一个术语来注释五个以上不同的树分支(请注意,我们使用本体关系不仅计算GO术语的直接注释,还计算其更具体的后代术语的注释,即GO图中的“is_a”和“part_of”关系)。然后,我们添加了任何GO术语,这些术语是从第一步获得的两个或多个GO术语的共同祖先(在完整的GO图中),确保所有术语都可以通过与本体根的关系进行跟踪。新的PANTHER GO-slim包含3040个术语,2005个生物过程,523个分子功能和512个细胞成分术语。本体可以从下载http://data.patherdb.org/PANTHER14.0/ontology/panther_slim.obo。此构建过程是全自动的,可以随着GO系统发育注释项目的进行定期更新。
蛋白酶与MEROPS对齐
PANTHER旨在提供蛋白质编码基因家族的全面分类。我们认识到,网络上有许多针对性的、特定于家庭或功能的资源,这些资源都经过精心策划,可以通过PANTHER进行传播。第一个例子是去年出版的(19),我们使用了肽酶(蛋白酶)和肽酶抑制剂的MEROPS数据库。为了与MEROPS相一致,我们修改了蛋白酶的PANTHER蛋白质类层次结构(图2)匹配MEROPS中的高级课程。然后,我们与MEROPS团队合作,确保所有PANTHER蛋白酶家族都映射到MEROPS中的家族,并分配到正确的高级类。PANTHER现在几乎包括MEROPS中的所有非病毒蛋白酶家族。如果其他家族或功能特定数据库的开发人员有兴趣将其分类信息纳入PANTHER,我们鼓励他们与我们联系。
![更新的PANTHER蛋白质类蛋白酶和蛋白酶抑制剂在PANTHER-Prowler中查看。蛋白酶的主要亚类,如天冬氨酸蛋白酶和金属蛋白酶,已与MEROPS相一致,而较小亚类(如苏氨酸蛋白酶)或机制未知的蛋白酶的家族仍直接位于上层。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/47/D1/10.1093_nar_gky1038/1/m_gky1038fig2.jpeg?Expires=1722363359&Signature=wH4o6xGZJhcOOVYSmH65MTj2EWzi6q5zgh6f58dva4YHuebATafdc7WLR1ARY0swgG~Ct4hp2GoG~ZVNTcJCSCUMPVWWIKTyMXQlCszOyKO2Iy1HRx6zp2p~TLDWeUrN05wFrPILJYG5mqHsUZ5UvuZo8QvuJcLbE9Kzwol5e4fWG1ugEIaIylWAr9Ju0TwwvhVi-wWkqp-JOfozkGKZZF2FS5y7ciSsdoDAQtgMsSaeWRUcEZJ6sW4wNuqgGVLikGOrHIzU2cxYIytLDwE1xmT5Vy5IdCgZezsHaP5sy~32-ZlfLcKgH7jOXl5m8z2ve6EUBCqJEmzeW6aRzDVrvg__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图2。
更新的PANTHER蛋白质类蛋白酶和蛋白酶抑制剂在PANTHER Prowler中查看。蛋白酶的主要亚类,如天冬氨酸蛋白酶和金属蛋白酶,已与MEROPS一致,而较小亚类(如苏氨酸蛋白酶)或机制未知的蛋白酶的家族仍直接位于上层类别之下。
泛基因表分析工具的改进
分析超过800个不在PANTHER树中的额外基因组
PANTHER家族系统发育树由131个基因组构成(图三)之前,网站上的PANTHER分析工具只能应用于系统发育树中的基因组。随着全基因组测序和全基因组实验的不断推进,越来越多的用户正在研究各种各样的其他基因组。为了分析其他基因组,我们长期提供了可下载的软件,用于准备可上传到PANTHER进行分析的文件。但许多用户发现可下载的软件很难使用,特别是如果他们的计算技能有限。因此,我们收到的最常见的用户请求之一是支持PANTHER树中那些基因组之外的其他基因组。
![PANTHER 14.0中可用基因组的系统发育分布。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/47/D1/10.1093_nar_gky1038/1/m_gky1038fig3.jpeg?Expires=1722363359&Signature=N9aAvD0YvITxkDiycjvnaGEil4Iz5y2z-qu~NxOdphOkQb-dTqA2L27gQTeCbMxqUC2lFtr8RLneXT7WmW6eWi0GoC~P0j0tJYXyQHHhHlOjfo4kfkXgyQVEu35aOOwXoPO~osudyHqAKGtcqE-FFXuWs5lQTzjCZezk-7SWhWSEnGYJX6i1LnM0i5-iTsa4hjwZH-nfarnm3XZKFuB7Mq6xHwfxenzYrzhB7mQHqsgKEo9l9eCq4M-MCTD14UbuJFl8LcURsqDpl0KD3EXByjWRxlwU6FopIj7n-Y1MrN5VYxC2-N6wvLc-epdlMooPXeX944vRJMrIwwbWMtZjQA__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图3。
PANTHER 14.0中可用基因组的系统发育分布。
为了解决这个问题,与InterPro合作(20)和UniProt参考蛋白质组(21),我们已经在PANTHER网站上实现了支持800多个额外基因组的解决方案。目前,我们包括所有含有4000多个蛋白编码基因的UniProt参考蛋白质组。我们已经预先根据PANTHER HMM对这些基因组中的基因(带有UniProtKB标识符)进行了评分,并将分类结果存储在PANTHER数据库中。用户只需将其基因列表转换为UniProtKB标识符,然后就可以在PANTHER网站上对其进行无缝分析(图4).
![支持PANTHER基因列表分析工具中额外800多个基因组的用户界面。用户可以将其基因列表转换为UniProt ID列表,上传并选择列表类型为“来自参考蛋白质组基因组的ID”。然后在下拉菜单中选择有机体。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/47/D1/10.1093_nar_gky1038/1/m_gky1038fig4.jpeg?Expires=1722363359&Signature=zquYjx33wsDsoeRfE11x9mjxOqtlZh6XrjdKn5yjVjgq0ZyqeFElf2ai1ZbKwxwEIhz0-yglK1b~exCfdsAMbSlcwajA0XssJ-FRxCAnd-yP9H~Y891t3USGzDMmUIxELaLZegT7kJE9lVsOZAwDgDKezKGmypDANrLat87VBLd7wni46yYjmrGSmA~S~lIU~16LckSD-43W6jaRD84Flkz4UZN7Kcx6W40DkqOhRPoQor0Py-U9b~FLftgPs4NF-PAfX4P~SGvmGLhqNuEU2AhDEtgW56S7QN0EVx36uZ54vJVNRA9Pgjxs5bq28v-7DIvgEvXEx6HIkUQJpjQlOQ__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图4。
支持PANTHER基因列表分析工具中额外800多个基因组的用户界面。用户可以将其基因列表转换为UniProt ID列表,上传并选择列表类型为“来自参考蛋白质组基因组的ID”。然后在下拉菜单中选择有机体。
Fisher精确测试的新违约,以及多重测试的FDR修正
从2004年开始,PANTHER网站提供了两种交互式工具,用于查找用户输入基因列表中相对于“参考”基因列表(输入列表是从中选择的)的丰富基因类别(8). 第一个工具称为“过度表征测试”,它获取输入列表(和“参考”列表),并对过度表征和不足表征进行统计测试:给定的(功能)类在输入列表中的统计发现频率是否高于(或低于)预期?第二个工具称为“富集测试”,它获取实验中分析的所有基因的列表,以及一个数值(例如,表达水平的折叠变化),并执行统计“基因集富集”测试:对于每个(功能)类,将输入值与所有基因的分布进行比较,使用Mann–Whitney U测试。在先前版本的PANTHER中,对于过度表达试验和浓缩试验,对-默认情况下,使用Bonferroni校正对多个测试值进行调整。
在过去的两年里,这些测试以以下方式进行了更新(图5). 首先,过度表达测试现在默认使用Fisher精确测试,而不是二项式测试(即该工具现在默认假设超几何分布,这对于较小的基因列表更准确)。其次,过度陈述测试和浓缩测试现在都默认使用Benjamini-Hochberg错误发现率(FDR)校正。Bonferroni修正是为多个独立测试设计的,由于PANTHER使用的本体中存在许多类-子类关系,因此该修正过于保守。因此,使用Bonferroni校正可能掩盖生物学意义上的结果。FDR旨在控制统计测试结果中的假阳性率,通常被认为是富集分析(也称为“途径分析”)中的更好选择。Bonferroni校正仍然可用作选择选项(图5A级),如果用户需要复制之前获得的结果,或者只是为了与FDR校正进行比较。
![PANTHER过度代表性测试结果。(A) 分析选项。用户可以在两种不同的统计测试(费希尔精确和二项式)和校正方法之间进行选择。(B) 使用Fisher精确测试和FDR校正方法的结果页面的屏幕截图。原始P值和FDR校正值均在最后两列中报告。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/47/D1/10.1093_nar_gky1038/1/m_gky1038fig5.jpeg?Expires=1722363359&Signature=Gxd7HVfsgSQZI3Vz8ad~xPR7adOTQELbhtWjMVslK3Dxv3uvmLOaIcqqTj5E4GAVaffwJP6OWun5-BwoSO36LgMkocyO1-gG3m~jBq0eJAvoSfbl3IzLj58-5YkW1zAiNB0WuiJHTn1HsonXnFnsrEjybKhJpsv2rrOV9zqyvzvYxsSbXKOcU0o02zbKjm8i7iqLZnju1utFcDrzC2TtfdB3670h4~tla5xatIw27w8OIxL1f2f1Mem4ggnkywVOUz9fyc-MP1EcuS5OdVcyVS-Q7jnD9Ua86~AkBcp-CBrCc~RRmynVJc1np1O89aO1uAPciqKKFx7KFwz0SttyXA__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图5。
PANTHER过度陈述测试结果。(A类)分析选项。用户可以在两种不同的统计测试(费希尔精确和二项式)和校正方法之间进行选择。(B类)使用Fisher精确测试和FDR校正方法的结果页面的屏幕截图。都是生的对-值和FDR修正值在最后两列中报告。
如何将PANTHER过度陈述工具添加到第三方网站
PANTHER超表示测试工具也可通过应用程序编程接口(API)访问获得。软件开发人员可以使用API轻松地将该工具集成到自己的(第三方)网站中。用户可以在第三方网站上输入基因列表,然后可以通过API将其自动发送到PANTHER过度表达工具。超表示API有两个选项用于返回统计测试结果:可以作为XML格式在第三方站点上格式化,也可以重定向到PANTHER站点,在该站点上可以使用PANTHER中已有的所有工具查看和分析结果。
在过去的两年中,我们为PANTHER过度表示API添加了新选项,以为第三方网站提供附加功能。API现在默认使用Fisher精确测试和FDR校正,二项测试和Bonferroni可用作选项。关键的是,除了要分析的基因列表外,API现在还支持指定的参考基因列表。有关可用参数的完整说明以及示例代码,请访问http://pantherdb.org/help/PANTHERhelp.jsp#V.E.
致谢
作者想感谢GO系统发育注释馆长的贡献:马克·费尔曼、迈克尔·凯斯林、帕斯卡尔·高代特、卡伦·克里斯蒂、李东辉。作者想感谢马修斯·帕特里西奥和马修·穆法托对PANTHER家族比对的分析,Neil Rawlings对蛋白酶分类进行分析和指导。
基金
国家科学基金[1458808];美国国立卫生研究院国家人类基因组研究所[U41HG002273]。开放获取费用的资金来源:美国国立卫生研究院和国家科学基金会。
利益冲突声明。未声明。
参考文献
1托马斯
P.D.公司。
,坎贝尔
医学博士。
,凯加里瓦尔
答:。
,惯性矩
H。
,卡尔拉克
B。
,达弗曼
R。
,迪默
英国。
,穆鲁加努詹
答:。
,纳雷恰尼亚
答:。
PANTHER:按功能索引的蛋白质家族和亚家族库
.基因组研究。
2003
;13
:2129
–2141
. 2托马斯
P.D.公司。
,凯加里瓦尔
答:。
,坎贝尔
医学博士。
,惯性矩
H。
,迪默
英国。
,郭
N。
,拉通加
一、。
,乌里茨基-拉扎雷瓦
B。
,穆鲁加努詹
答:。
,拉布金
美国。
等
PANTHER:一个按生物功能组织的可浏览基因产品数据库,使用精选蛋白质家族和亚家族分类
.核酸研究。
2003
;31
:334
–341
. 三。托马斯
P.D.公司。
GIGA:一种简单有效的基因组时代基因树推理算法
.BMC生物信息学
.2010
;11
:312
. 4.惯性矩
H。
,穆鲁加努扬
答:。
,托马斯
P.D.公司。
2013年的PANTHER:在系统发育树的背景下,对基因功能和其他基因属性的进化进行建模
.核酸研究。
2013
;41
:D377号
–D386号
. 5惯性矩
H。
,保德尔
美国。
,穆鲁加努扬
答:。
,卡萨格兰德
J.T.公司。
,托马斯
P.D.公司。
PANTHER版本10:扩展蛋白质家族和功能,以及分析工具
.核酸研究。
2016
;44
:D336号
–D342号
. 6张
L。
,高特
英国标准。
,愿景
T.J.公司。
基因复制和进化
.科学类
.2001
;293
:1551
. 7.伊南
H。
,康德拉肖夫
F、。
基因重复的进化:模型的分类和区分
.Nat.Rev.基因。
2010
;11
:97
–108
. 8托马斯
P.D.公司。
,凯加里瓦尔
答:。
,郭
N。
,惯性矩
H。
,坎贝尔
医学博士。
,穆鲁加努扬
答:。
,拉扎雷瓦·乌利茨基
B。
蛋白质序列功能进化数据的应用:MRNA/蛋白质表达分析和编码SNP评分工具
.核酸研究。
2006
;34
:W645号机组
–W650型
. 9惯性矩
H。
,穆鲁加努扬
答:。
,卡萨格兰德
J.T.公司。
,托马斯
P.D.公司。
基于PANTHER分类系统的大尺度基因功能分析
.《国家协议》。
2013
;8
:1551
–1566
. 10埃迪
S.R.公司。
加速配置文件HMM搜索
.公共科学图书馆计算。生物。
2011
;7
:e1002195
. 11埃迪
S.R.公司。
隐马尔可夫模型
.货币。操作。结构。生物。
1996
;6
:361
–365
. 12阿什伯恩
M。
,球
首席执行官。
,布莱克
联合国。
,博茨坦
D。
,巴特勒
H。
,樱桃
J.M.公司。
,戴维斯
A.P.公司。
,多林斯基
英国。
,德怀特
S.S.公司。
,Eppig公司
J.T.公司。
等
基因本体:生物学统一的工具。基因本体联盟
.自然基因
.2000
;25
:25
–29
. 13基因本体协会
基因本体知识库和资源的扩展
.核酸研究。
2017
;45
:D331天
–D338号
. 14高德特
第页。
,锂铁矿
医学硕士。
,刘易斯
瑞典。
,托马斯
P.D.公司。
基因本体论联盟中基于系统发育的功能注释传播
.简介。生物信息。
2011
;12
:449
–462
. 15惯性矩
H。
,托马斯
第页。
PANTHER路径:一个基于本体的路径数据库,与数据分析工具相结合
.方法分子生物学。
2009
;563
:123
–140
. 16法夫雷加特
答:。
,朱佩
美国。
,马修斯
L。
,西迪罗普洛斯
英国。
,吉莱斯皮
M。
,加拉帕蒂
第页。
,唧唧
R。
,贾萨尔
B。
,科宁格
F、。
,五月
B。
等
Reactome Pathway知识库
.核酸研究。
2018
;46
:D649号
–D655型
. 17松哈默
E.L.公司。
,加巴登
T。
,苏萨·达席尔瓦
海拔高度。
,马丁
M。
,罗宾森·里查维
M。
,伯克曼
B。
,托马斯
P.D.公司。
,德西莫兹
C、。
寻求Orthologs联盟
寻找正交曲线的大数据和其他挑战
.生物信息学
.2014
;30
:2993
–2998
. 18施赖伯
F、。
,帕特里西奥
M。
,莫法托(Muffato)
M。
,皮尼亚泰利
M。
,贝特曼
答:。
TreeFam v9:一个新的网站,更多的物种和直系动物
.核酸研究。
2014
;42
:D922号
–D925型
. 19罗林斯
未注明。
,巴雷特
A.J.公司。
,托马斯
P.D.公司。
,黄
十、。
,贝特曼
答:。
,芬兰
钢筋混凝土。
2017年MEROPS蛋白水解酶、底物和抑制剂数据库以及与PANTHER数据库中肽酶的比较
.核酸研究。
2018
;46
:D624号
–第632天
. 20芬兰
钢筋混凝土。
,阿特伍德
T.K.公司。
,巴比特
第页。
,贝特曼
答:。
,博克
第页。
,桥
A.J.公司。
,张
香港。
,多斯泰尼
Z.公司。
,El-Gebali公司
美国。
,弗雷泽
M。
等
2017年InterPro超越蛋白质家族和结构域注释
.核酸研究。
2017
;45
:D190型
–D199型
. 21UniProt财团
UniProt:通用蛋白质知识库
.核酸研究。
2018
;46
:2699
.
©作者2018。由牛津大学出版社代表核酸研究出版。