跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
公共科学图书馆一号。2007; 2(8):e766。
2007年8月22日在线发布。 数字对象标识:10.1371/日记本.0000766
预防性维修识别码:项目经理1942082
PMID:17712414

普林斯顿蛋白质整形数据库(P-POD):生物学家的比较基因组分析工具

贝伦德·斯奈尔,学术编辑

摘要

许多提供比较基因组学信息和工具的生物数据库现已在互联网上提供。虽然确实很有用,但据我们所知,现有的数据库中没有一个将多种比较基因组学方法的结果与文献中手动整理的信息相结合。这里我们描述了普林斯顿蛋白质整形数据库(P-POD,http://ortholog.princeton.edu)这是一个用户友好的数据库系统,允许用户查找并可视化从八种真核生物中任意一种的查询基因预测的同源基因(基于OrthoMCL方法)之间的系统发育关系,并在更广泛的进化背景下查看同源基因(根据Jaccard聚类方法)。除了系统发育信息外,该数据库还包含从可与计算分析进行比较的文献中手动收集的实验结果,以及通过OMIM、模型生物和序列数据库与相关人类疾病和基因信息的链接。我们的目标是使P-POD资源对想要了解更多有关他们喜爱基因的进化背景的典型实验生物学家非常有用。P-POD基于常用的通用模型生物体数据库(GMOD)模式,可以完整下载以安装在自己的系统上。因此,生物信息学家和软件开发人员也可能会发现P-POD很有用,因为他们可以在开发自己的比较基因组资源和数据库工具时使用P-POD数据库基础设施。

介绍

随着生物数据在过去十年中的巨大爆炸,生物数据库已成为当今研究的重要组成部分。最早的在线数据库是序列库,如Genbank[1]和EMBL[2]它提供了非专业的公众访问基因、染色体、最终整个基因组序列数据的途径,以及高效的查询和比较工具。不久之后,开发了几个模型生物数据库,用于存储和显示经过仔细研究的生物的注释基因组序列。这些数据库现在成为各类生物研究人员的基本信息来源。

对于工作生物学家来说,一些最重要的信息与蛋白质之间的系统发育关系有关,从基本序列数据库中恢复这些信息并不一定简单。无论与哪种有机体合作,基于序列相似性,基因和蛋白质功能的大部分功能注释都是从其他有更多实验信息的有机体转移过来的(例如,请参阅http://www.geneontology.org/GO.current.annotations.shtml网站). 正是由于这个原因,序列相似性搜索已成为当前使用的最流行的数据库工具之一,可能仅次于搜索已发表的文献。为了更好地利用序列相似性信息,有一种简单、用户友好的方法来可视化系统发育背景中的关系,特别是模型生物中的蛋白质之间的关系,这将非常有用,因为大多数功能注释都是从模型生物中派生出来的。了解哪些蛋白质是(或可能是)同源蛋白质具有特殊价值[即,由于它们起源于共同的祖先,在进化时期仅通过物种形成事件分离,因此在序列上彼此相似]。在进化过程中基因复制最终导致的较大的同源基因家族的背景下,观察这些同源关系也很有用。

在本文中,我们描述了P-POD,它为用户提供了一种简单的方法来查找和可视化工作生物学家最感兴趣的真核生物中查询序列的同源序列(实验模型生物和人类),并将这些关系与相关文献联系起来。几个专门研究比较基因组学的数据库最近上线了。这些数据库中的每一个,包括P-POD,都有有用的特性和分析中选择的方法或物种特有的问题(表1,在中审阅[3]); 没有一个是完美的,但每一个都能满足特定数据库用户的需求。

表1

比较基因组学网络资源。
姓名描述正交测井预测较大序列。家庭疾病信息受诅咒的文学
同源群簇(COG/KOG)[22] 为七个真核生物物种提供直向同源蛋白质组;施工方案涉及人工管理是的是的
真核基因测序(EGO)[23] 显示基于基因比对的来自几个真核生物基因组的预测同源序列是的
同源物[24] 提供几种真核生物基因同源性的自动预测是的是的
妄想狂[25] 包含多个物种的同源蛋白质成对组是的
骨科疾病[26] 使用Inparanoid算法在人类疾病基因和其他物种基因之间生成成对的同源序列是的是的
OrthoMCL-DB公司[4],[27] 利用马尔可夫聚类算法同时预测多个物种的蛋白质同源群是的
西比尔(S.Angiuoli和O.White,准备中)基于成对BLAST分析,使用Jaccard聚类对序列进行分组是的
YOGY公司[28] 从四种不同资源中检索同源蛋白:KOG、Inparonioid、Homologene和OrthoMCL-DB是的是(只有芽殖酵母和裂变酵母)
P-POD(本研究)Orthologs和Jaccard集群是的是的是的是的

P-POD旨在通过提供一个比较基因组分析系统来补充这些现有数据库,该系统易于实验人员访问和阅读,不仅包含最常见实验生物的计算比较分析,还包含文献整理和其他感兴趣数据库的链接。例如,虽然OrthoMCL数据库包含55多个原核和真核基因组的序列,但出于医学价值或作为广泛研究的模型生物的地位,我们选择包括八种真核生物的蛋白质序列。当然,也有用户需要OrthoMCL提供更全面的物种集。虽然P-POD使用底层的OrthoMCL算法,但它旨在通过为另一组用户提供服务来补充OrthoMCL在线数据库,主要是实验生物学家,他们希望从一个研究良好的模型生物中查询自己感兴趣的基因,以便快速获得该基因的进化背景以及该基因的其他相关信息,而无需对大量其他序列进行排序。

我们设计了比较基因组学分析系统,以便以模块化的方式将不同的组件添加到管道中或从管道中删除;这里描述的管道的初始版本使用两种不同的方法生成相关的蛋白家族,以提供系统发育关系的互补视图。我们使用了OrthoMCL([4])找到同源基因和Jaccard聚类的一个版本[经修改以发现跨多个基因组的同源基因(S.Angiuoli和O.White,准备中)],以提供更大的蛋白质家族背景。使用CLUSTAL W确定每种方法的家族成员之间的系统发育关系[5]和PHYLIP,并可视化为任意根的树。此外,我们还提供了来自在线孟德尔人类遗传(OMIM)的相关基因和疾病信息[6]数据库,并提供从文献中筛选出的信息,这些信息可用于指示何时在预测的正交曲线之间实验性地显示了功能守恒。数据库中的所有数据都可以通过web免费获取,也可以通过以下URL下载整个软件和数据库系统:网址:http://ortholog.princeton.edu/

历史上,基因组数据库是孤立开发的,具有独特的数据库模式和软件。通过开发通用模块化数据库和软件,可以避免大量重复工作,特别是从长远来看,可以节省开发、维护和用户培训方面的时间和金钱。在构建P-POD时,我们使用了数据库模式、安装和加载工具以及来自通用模型生物数据库(GMOD)项目的各种软件组件(网址:www.gmod.org)GMOD的目标是开发一个开放的通用基因组数据库环境,包括数据库模式和所需的软件工具。

结果

P-POD管道

出于简单性和灵活性的考虑,P-POD管道采用了模块化架构。该管道以FASTA格式的蛋白质序列为输入,进行比较基因组分析,并将结果存储在数据库中。此外,我们还创建了网络工具,允许以用户友好的方式搜索和浏览结果。我们使用OrthoMCL建立了初步的管道来识别假定的同源蛋白质[4]我们选择OrthoMCL而不是其他算法,主要是因为它可以同时在多个物种上运行,并且在灵敏度和特异性方面是性能更好的算法之一[7] [3]我们使用改良的Jaccard聚类法生成了较大的相关序列家族,以发现跨多个基因组的同源序列;请参阅材料和方法部分了解算法详细信息。值得注意的是,我们构建了P-POD系统,这样我们可以很容易地添加或删除不同分析方法的结果。我们承认,第一个选择并不总是最佳选择,随着算法的改进和/或用户要求其他方法,我们计划酌情修改和扩展系统。P-POD使用CLUSTAL W从两个分析中生成系统发育树[5]和PHYLIP;这些树以图形方式显示在网络上。整个管道如所示图1。管道组件的来源和版本列于表2数据存储在通用模型生物数据库(GMOD)数据库模式中,使用免费提供的PostgreSQL软件,使尽可能多的用户可以访问整个系统,不仅可以通过网络,还可以通过下载整个系统。

保存图片、插图等的外部文件。对象名称为pone.000766.g001.jpg
分析管道中的步骤。

表2

分析管道的组件。
程序版本来源
GMOD::装载机本研究
WU-BLAST公司2.0MP-WashU 2005年5月10日 http://blast.wustl.edu/
OrthoMCL公司[4] 版本1.2 2005年3月14日 http://sourceforge.net/projects/orthomcl/
MCL公司[29] 版本1.005,05-118 http://micans.org/mcl/
Jaccard集群不适用S.Angiuoli和O.White(准备中)
Clustal W公司[5] 版本1.83 ftp://ftp.ebi.ac.uk/pub/software/unix/clustalw
菲律宾3.64版 http://evolution.genetics.washington.edu/phylip.html
创建树本研究

P-POD数据库包含八种真核生物的蛋白质序列,全序列基因组是根据其医学价值或作为广泛研究的模型生物的地位而选择的。它们包括酵母(酿酒酵母)线虫(秀丽隐杆线虫),一只果蝇(黑腹果蝇),一种开花植物(拟南芥),一条鱼(达尼奥雷里奥),一只老鼠(小家鼠)、和人类(智人). 这些是现代生物学家的主要实验生物,其中跨越了真核生物进化树的大部分。还包括疟疾寄生虫恶性疟原虫虽然是真核生物,但其寄生生活方式相对奇特。每个蛋白质组的来源列于表3系统中还存储了管道每个步骤的结果、OMIM中的基因和疾病信息,以及描述功能保守性实验测试的文献中的精选信息(参见图2).

保存图片、插图等的外部文件。对象名称为pone.000766.g002.jpg
P-POD网络界面的屏幕截图。

(A) 的结果页面的一部分DPM1型OrthoMCL家族显示在搜索表单上。提供了OrthoMCL的结果,还提供了与更大的Jaccard家族(B)的链接。显示OMIM中的疾病信息以及任何相关疾病或交叉互补文献。

表3

分析序列的来源和数量。
有机体蛋白质数据库文件名
酿酒酵母 6704新加坡元或f_trans_all.fasta.gz
智人 33869ENSEMBL公司人类。NCBI35.nov.pep.fa.gz公司
小M 36471ENSEMBL公司穆斯库卢斯。NCBIM34.nov.pep.fa
斑马鱼 32143ENSEMBL公司Danio_rerio.ZFISH5.nov.pep.fa公司
D.黑腹果蝇 19178FlyBase飞基dmel-所有翻译-r4.2.1.fa
秀丽线虫 22858蜗杆底座蠕虫150.fa
拟南芥 30690TAIR公司TAIR6_pep_20051108.fa
恶性疟原虫 5363等离子体数据库Pfa3D7_孔基因组_注释_PEP_2005.2.11.fa

该管道共产生25271个OrthoMCL家族和15050个Jaccard Clustering家族,其中包含来自八种不同生物体的总计165970个蛋白质(每种方法分别为154736和152799个)。共有984个OrthoMCL家族包含每个物种中的至少一种蛋白质,其中112个家族中的每个家族都只包含一种蛋白质。我们使用SGD提供的GO术语映射器工具来确定这些家族中112个酵母蛋白的GO注释的分布;我们选择酵母蛋白是因为完整的GO注释可用于整个酵母基因组[8]毫不奇怪,这些蛋白质参与了真核生物常见的核心生物过程,包括翻译、运输、细胞周期调节和细胞骨架组织。这些基因也有很好的特征;112个基因中只有4个被注释为“生物过程未知”。我们还使用了GO术语查找器[9]在普林斯顿实施(网址:http://go.princeton.edu/)寻找112个基因中GO项的富集。不出所料,最重要的共同术语是“核糖体生物生成和组装”(校正后的P值=5.85e-18),以及与翻译和基本代谢过程有关的其他术语,所有这些过程在真核生物中都很常见。

每个科的完整物种分布可通过网络获得(http://ortholog.princeton.edu/organmdist.html)在所有物种的家族和孤儿蛋白(在OrthoMCL或Jaccard家族中未发现的)中发现的蛋白质数量表4.

表4

OrthoMCL或Jaccard家族中发现的每个生物体的蛋白质数量。
有机体OrthoMCL公司雅卡德孤儿(占总蛋白质组的百分比)
酿酒酵母 4,3333,6602,176 (32%)
智人 27,60629,3153,193 (9%)
小M 29,21431,3883,902 (11%)
斑马鱼 27, 60228,9681,903 (6%)
D.黑腹果蝇 16,01515,0482,503 (13%)
秀丽线虫 18,07016, 3084,078 (7%)
拟南芥 27,98725,8192,279 (13%)
恶性疟原虫 3,9092,2931,284 (33%)

孤儿的比例通常非常低,特定物种的孤儿比例为13%或更低,但酵母(32%)和疟原虫(33%). 这些数字证实了真核生物蛋白质的高度保守性,但值得注意的是疟原虫异常值。酵母孤儿的高比例是因为我们用完整的蛋白质集进行了分析,包括SGD标记为“可疑”的800多个ORF;这些不太可能真的编码蛋白质,如果排除它们,酵母中孤儿的比例将下降到20%左右。

P-POD包括1895种与人类疾病相关的人类蛋白质(基于从ENSEMBL下载的蛋白-OMIM疾病文件),其中1852种发现于OrthoMCL或Jaccard家族;在每种情况下,都会在线提供相关OMIM记录的链接。

手动控制信息

P-POD还包括数据库中包含酵母蛋白相关信息的精选文献。文献的来源是酵母菌属基因组数据库(SGD)。SGD提供了一个文献指南工具,将酵母文献分类为不同的主题,其中两个主题,“跨谱表达”和“与疾病基因相关”,与P-POD中的数据特别相关;我们相信,这组不断更新和整理的论文包含了大多数(如果不是全部)测试酵母和其他生物体之间功能保守性的实验数据。与这些主题相关的所有论文都从SGD FTP站点下载并加载到数据库中(请参阅材料和方法). 然后,它们会显示在web界面上,并带有PubMed的链接,以便用户可以比较实验确定的功能保守性和计算预测的正畸学。当然,这组论文不涉及没有酵母同系物的蛋白质。目前正在研究一种处理这种局限性的方法;一个可能的进展是纳入了其他模式生物的文献。对于疾病相关基因,我们提供OMIM链接,至少部分填补了人类的这一空白。

此外,我们手动整理了“跨谱表达”论文,以明确指出何时实验确定了功能保守性。这些跨物种表达实验测试从一个生物体表达假定的同源基因是否会恢复另一个生物体中相应失活基因的野生型功能(几乎总是如此酿酒酵母).表5总结了仅针对疾病相关家族中酵母蛋白的这一精选信息,以说明如何将这一信息与计算结果进行比较,但P-POD包含了所有可用精选信息的酵母蛋白的实验结果。OrthoMCL预测的直向同源物通常表现出保守的功能。在643个酵母基因与其来自其他生物体的假定同源序列之间的精心策划的互补实验中,395个显示出功能保守性,并且被OrthoMCL鉴定为同源序列;OrthoMCL没有补充50个,也没有预测为正交。因此,在大多数情况下(445/643),正畸学的计算测定与功能守恒的实验结果一致。然而,在153个实验中观察到互补,但这些蛋白质不属于同一OrthoMCL家族,在45个实验中,没有发生互补,但OrthoMCL预测了这两个蛋白质之间的同源关系。这些实验结果可以作为计算预测的初步评估,但必须注意的是,正形学的定义不需要功能守恒[10],有实际案例(例如肌动蛋白),其中体内互补因生物原因而失败,即使是真正能发挥作用的直系亲属在体外 [11].

表5

功能保守性和正交预测:比较疾病相关家庭的实验结果和正交MCL正交预测。
OrthoMCL公司实验酵母基因测试的蛋白质引用
YJL095W:BCK1 智人:ENSP00000306124 [31]
YJR040W:GEF1 小家鼠:ENSMUSP00000035964 [32]
YMR190C:SGS1型 智人:ENSP00000298139 [33]
YOL090W:MSH2 智人:ENSP00000265081,ENSP00000234420 [34]
是的是的 YAL016W:TPD3 拟南芥:AT1G25490.1 [35]
是的是的 YBR110W:ALG1型 智人:ENSP00000262374 [36] [37]
是的是的 YBR140C:IRA1型 智人:ENSP00000351015,ENSP00000348498 [38]
是的是的 YBR140C:IRA1型 智人:ENSP00000351015、ENSP0000352435、ENSPA0000348498 [39]
是的是的 YBR254C:TRS20型 智人:ENSP0000310153 [40]
是的是的 YCR075C:ERS1号机组 智人:ENSP0000046640 [41]
是的是的 YDL120W:YFH1型 智人:ENSP00000297735 [42],[43]
是的是的 YDL126C:CDC48 拟南芥:AT3G09840.1 [44]
是的是的 YDR270W:CCC2 智人:ENSP00000242839,ENSP00000342559 [45] [46] [47]
是的是的 YDR270W:CCC2 秀丽线虫:Y76A2A.2 [48]
是的是的 YDR270W:CCC2 智人:ENSP0000343026,ENSP0000445728 [49] [50]
是的是的 YDR363W-A:SEM1号机组 小家鼠:ENSMUSP00000040741 [51]
是的是的 码363w-A:SEM1 智人:ENSP00000248566 [52]
是的是的 YER095W:RAD51型 小家鼠:ENSMUSP000000028795 [53]
是的是的 120W年:SCS2 智人:ENSP00000217602,ENSP00000345656 [54]
是的是的 171W年:RAD3 智人:ENSP00000221481 [55] [56]
是的是的 YFL018C:LPD1型 智人:ENSP00000205402 [57]
是的是的 YFR019W:FAB1型 肌肉分枝杆菌:ENSMUSP00079926 [58]
是的是的 YFR053C:HXK1型 智人:ENSP00000338009、ENSP00000223366、ENSP0000350996 [59]
是的是的 YGL001C:ERG26 小家鼠:ENSMUSP00000033715 [60]
是的是的 YGL006W:PMC1 拟南芥:AT2G41560.1 [61]
是的是的 YGL006W:PMC1 拟南芥:AT3G21180.1 [62]
是的是的 YGL115W:SNF4型 拟南芥:AT1G09020.1 [63],[64]
是的是的 YGL125W:金属13 拟南芥:AT3G59970.1,AT2G44160.1 [65]
是的是的 YGL125W:金属13 智人:ENSP00000315965 [66]
是的是的 YGL167C:PMR1型 智人:ENSP00000306816、ENSP00000329664、ENSP0000352665 [67],[68]
是的是的 YGL167C:PMR1型 智人:ENSP00000306816、ENSP00000329664、ENSP0000349901、ENSP0000 352580、ENSP00352665 [69]
是的是的 YGL253W:HXK2 智人:ENSP00000338009、ENSP00000223366、ENSP00000350996 [59]
是的是的 YGR240C:PFK1型 智人:ENSP00000345771,ENSP00000352842 [70],[71]
是的是的 YGR267C:FOL2系列 智人:ENSP0000352686,ENSP0000254299 [72],[73]
是的是的 YHR037W:PUT2型 智人:ENSP0000290597,ENSP0000336944 [74],[75]
是的是的 YIL143C:SSL2语言 拟南芥:AT5G41360.1 [76]
是的是的 YJL059W:YHC3型 智人:ENSP0000353116、ENSP000053116、ENSP00000346650 [77]
是的是的 YJL101C:GSH1型 D.melanogaster:CG2259-PA、CG2259-PB [78]
是的是的 YJR104C:SOD1型 智人:ENSP00000270142 [79]
是的是的 YJR117W:STE24型 智人:ENSP00000196805 [80],[81]
是的是的 YJR135W-A:TIM8型 智人:ENSP00000247385 [82],[83]
是的是的 YKL209C:STE6型 小家鼠:ENSMUSP00000041204 [84]
是的是的 YKL209C:STE6型 小家鼠:ENSMUSP00000041204,ENSMUSP00000088389 [85]
是的是的 YKR079C:TRZ1 智人:ENSP00000337445 [86]
是的是的 YLR142W:PUT1 拟南芥:AT5G38710.1 [87]
是的是的 YML021C:UNG1 智人:ENSP00000242576,ENSP00000337398 [88]
是的是的 YMR190C:SGS1型 智人:ENSP0000347232,ENSP00000349859 [33],[89],[90]
是的是的 YMR205C:PFK2型 智人:ENSP00000345771,ENSP00000352842 [70],[71]
是的是的 YNL219C:ALG9 智人:ENSP00000316397 [36]
是的是的 YNR030W:ALG12 智人:ENSP00000333813 [91]
是的是的 YNR041C:COQ2 智人:ENSP00000310873 [92]
是的是的 YNR041C:COQ2 拟南芥:AT4G23660.1 [93]
是的是的 YOL049W:GSH2 智人:ENSP00000216951 [94]
是的是的 YOL081W:IRA2 智人:ENSP00000351015,ENSP00000348498 [38],[95]
是的是的 日期204w:日期1 智人:ENSP0000310870 [96]
是的是的 YOR204W:DED1号机组 D.黑腹滨鹬:CG9748-PA [97]
是的是的 YPL022W:RAD1型 拟南芥:AT5G41150.1 [98]
是的是的 YPL153C:RAD53型 智人:ENSP0000329178,ENSP00000329012 [99]
是的是的 YPL218W:SAR1 拟南芥:AT1G56330.1 [100]
是的是的 YPR183W:DPM1型 酿酒酵母:DPM1 [101]
是的 YBR018C:镀锌7 智人:ENSP0000338703 [102]
是的 YBR289W:SNF5型 拟南芥:AT3G17590 [103]
是的 YDR135C:YCF1 拟南芥:AT3G13080.1 [104],[105]
是的 YGL006W:PMC1 智人:ENSP00000306816、ENSP00000329664、ENSP0000352665 [68]
是的 YGL167C:PMR1型 拟南芥:AT1G07810.1 [106]
是的 YGL167C:PMR1型 拟南芥:AT2G41560.1 [61]
是的 YGL167C:PMR1型 拟南芥:AT3G21180.1 [62]
是的 YHL007C:STE20型 拟南芥:AT4G08500.1 [107]
是的 YJR040W:GEF1 小家鼠:ENSMUSP00000030879 [32]
是的 YJR104C:SOD1型 智人:ENSP00000307870 [108]
是的 YNL098C:RAS2 智人:ENSP00000309845 [109]
是的 约尔101W:RAS1 智人:ENSP00000309845 [109]
是的 约尔130C:ORT1 拟南芥:AT1G79900.1 [110]
是的 型号11w:CAR1 拟南芥:AT4G08900.1 [111]
是的 YDR529C:QCR7 智人:ENSP00000287022 [112]
是的 148W年:SPT15 智人:ENSP00000230354 [113]
是的 YNL280C:ERG24 D.melanogaster:CG17952-PC [114]
是的 YOL090W:MSH2 智人:ENSP00000233146 [34]
是的 YPR183W:DPM1型 智人:ENSP00000001585 [115]

在所有这些实验中,除了一个实验外,酵母基因都发生了突变,并且测试了来自其他生物体的基因补充突变表型的能力。唯一的例外是酵母基因DPM1型在小鼠中表达。在OrthoMCL列中,“Yes”表示OrthoMCL算法将两个蛋白质放在同一个直系族中,而“No”表示没有。在实验栏中,“是”表示功能互补,“否”表示无。因此,当两个色谱柱都相同时,OrthoMCL预测与实验结果一致,即在两个都是“是”的情况下,预测的同源序列在功能上是保守的,而当两个都为“否”时,预测的蛋白质不是同源序列,也不是功能上保守的。

P-POD用户界面:矫形、家庭和疾病

我们设计了一个简单的web界面,允许用户以多种方式搜索和浏览数据(图2). 可以通过各种肽标识符或基因名称查询结果,从八种模式生物中选择任意一种查询蛋白和特定分析方法,也可以通过在线孟德尔人类遗传(OMIM)ID搜索或浏览结果。

搜索生成包含以下内容的结果页面:

  • 由OrthoMCL生成的预测同源基因或由Jaccard聚类生成的更为远缘相关的蛋白质组成的超链接系统发育树,
  • OMIM中记录的与人类直系亲属相关的疾病和基因列表,
  • 手动整理的论文列表,其中包含涉及酵母同源物的交叉互补实验,以及
  • 家庭成员的ClustalW队列可下载。

使用P-POD比较方法:Jaccard和OrthoMCL

为了说明能够在单个数据库中存储多个分析的有用性,我们进一步比较了OrthoMCL和Jaccard聚类方法之间的结果。酵母查询管1仅使用OrthoMCL可揭示来自酵母和其他生物体的α-微管蛋白(图3)而不是与β和γ微管蛋白的重要共生关系[12] [13],在管1Jaccard集群(未显示)。这三类主要的微管蛋白与细菌FtsZ蛋白有关,在真核生物分化之前就发生了分化[12]许多这样的例子被发现,特别是在远古基因家族中,这些基因家族可以追溯到所有真核生物的共同祖先。Jaccard集群提供了这种更大的进化背景。

保存图片、插图等的外部文件。对象名称为pone.000766.g003.jpg
α-微管蛋白的OrthoMCL家族。

该OrthoMCL家族仅包含α-微管蛋白,而由Jaccard家族产生的微管蛋白家族(此处显示太大)包含α、β和γ微管蛋白。

虽然OrthoMCL识别预测的直系图,但Jaccard聚类算法应该构建更广泛的家族,这些家族之间的距离更近。因此,人们最初可能会期望每个OrthoMCL家族都是相应Jaccard集群的子集。当然,由于每种算法对同系物的定义都大不相同,因此在实践中,可以合理地预期OrthoMCL和Jaccard聚类结果之间存在一定程度的分歧。在25271个OrthoMCL家族中,17340个(69%)是Jaccard集群的子集。家庭成员的某些“损失”是由于随机效应造成的;22216个OrthoMCL家族中有72%的成员少于或等于10个,作为Jaccard集群的子集保持完整,而3055个较大家族中只有49%保持完整。分配给OrthoMCL家族的全部91%的肽也位于Jaccard簇中。82%的OrthoMCL家族在单个Jaccard簇中具有80%或更多的肽;93%的人拥有50%或更多。

OrthoMCL和Jaccard结果之间不一致的另一个可能原因是,这些分析是在不同的参数设置下进行的。特别是,对齐约束仅用于Jaccard集群,因为OrthoMCL的默认和建议设置不包括对齐约束(请参见http://ortomcl.cbil.upenn.edu/orthomcl/). Jaccard聚类软件被配置为忽略未对齐两个肽长度50%以上的BLAST点击。例如,酵母MET3型MET14型分别编码ATP硫酰化酶和腺苷酸硫酸激酶,对硫酸盐同化途径的前两步进行催化。拟南芥保留了这一区别,但秀丽线虫,D.黑腹果蝇,斑马鱼、人类和小鼠都有含有这两种活性的双功能蛋白质。OrthoMCL家族包含所有这些肽(图4B),但是MET14型和四个拟南芥腺苷酸硫酸激酶形成自己的Jaccard簇(图4A). 在202个氨基酸中,Met14p的长度不到其他OrthoMCL家族成员的一半,因此无法满足Jaccard聚类算法中使用的50%对齐约束。

保存图片、插图等的外部文件。对象名称为pone.000766.g004.jpg
这个MET3/MET14家庭。

(A)表14Jaccard家族和(B)MET3/MET14OrthoMCL家族。

同样,将两组结果放在同一个数据库中,可以比较两种方法并检测可能的问题。我们希望这将是数据库开发人员和/或生物信息学家的一个有用功能,他们可以下载整个P-POD系统进行本地安装,作为他们选择的算法的开发基础。

P-POD的其他用途

我们提供了几个P-POD如何被实验生物学家使用的例子,而不一定是系统发育组学专家。此外,我们还说明了提供不同分析方法的结果如何有助于识别不同方法的问题特征。

P-POD系统可以以一种简单的方式用于了解生物体基因和/或蛋白质的全局信息。例如,我们研究了基本基因的保存,酵母和哺乳动物生存所需的基因。在929个OrthoMCL家族中,有来自酵母、小鼠和人类的明确的同源基因(107例酵母和小鼠基因的表型数据可用。在28例患者中,酵母基因是必需的,在其中24个家族(86%)中,小鼠基因也是必需的。整个分析可以在http://ortholog.princeton.edu/essential_analysis.html.

P-POD可用于估计基本酵母基因是否更可能保守和/或与人类疾病基因相关。有1100个必需酵母基因和4670个非必需酵母基因。OrthoMCL家族中发现853个必需酵母基因(77.5%),而247个(22.5%)没有。在非必需基因中,2968个(63.6%)在家族中发现,而1702个(36.4%)没有。这些数据表明,必需基因比非必需基因更保守(χ2 = 78,p=1.1e-18)。在检测疾病相关家族中发现的954个酵母基因的重要性时,其中191个是必需的(占疾病相关基因的20%,占所有必需基因的17%),而691个是非必需的(72%的疾病相关基因,占所有非必需基因的14.8%);其余72个酵母基因的表型数据不可用。因此,在与疾病相关的酵母基因中,似乎没有必要的基因富集(χ2 = 4.5,p=0.03)。疾病相关基因中缺乏必要基因的富集最初令人惊讶;然而,如果人类细胞的生存能力也需要酵母中生存能力所需的基因,从而使哺乳动物不可能完全发育成疾病有机体,那么这个结果就可以解释。

P-POD简化了对具有相关功能的蛋白质家族之间关系的研究。一个例子是依赖DNA的RNA聚合酶家族(图5A、B、C). 真核生物中基因的转录通常由三种RNA聚合酶(I、II和III)执行,每种聚合酶都由10多个亚基组成[14],寻找单个酵母RNA聚合酶亚基的选择(RPO21、RPO31、RPA190、RPB2、RPB4、RPB5、RPA135、和房地产税1)结果显示了每个蛋白质的独立系统发育树,表明它们已被有效地分解为不同的同源簇。在每个簇内,除了RPA135型、和RET1、,其中包括每个被检测物种的直系木,除了斑马鱼(图5A、B).

保存图片、插图等的外部文件。对象名称为pone.000766.g005.jpg
第二大RNA聚合酶亚基家族的OrthoMCL和Jaccard聚类结果酿酒酵母。

酵母中RNA聚合酶I、II和III的第二大亚基被命名为RPA135、RPB2、和房地产税1分别是。(A) 显示单个酵母亚基的OrthoMCL结果的系统发生树显示RPA135型其预测的直系图分解为一个独特的家族。OrthoMCL结果显示酵母RNA聚合酶亚单位房地产税1(B) 和RPB2型(C) 分解成独立的直系族。(D) Jaccard聚类结果显示了相关RNA聚合酶亚家族的“超级家族”。左边每个OrthoMCL家族的箭头指向Jaccard结果中的单独子家族。每棵树右侧的I到IV表示RNA聚合酶亚家族。第四种RNA聚合酶的第二大亚基Pol IV是植物特有的,通过OrthoMCL程序(未显示)将其分解为自己独特的两个成员家族,并通过Jaccard聚类法与该超家族进行适当的聚类。(改编自图2属于[15])

对于某些亚单位,特别是RPO21、RPA190、和RPA135型,似乎有不止一只老鼠或人类的降落伞;然而,经过进一步研究,已确定这些单独的肽是由单个小鼠或人类基因编码的(图5A). 因此,在大多数情况下,每个物种的每种蛋白质似乎都与其他物种同源,正如核心生物过程中的蛋白质所预期的那样[14].

有趣的是,实验证据表明,尽管所有真核生物都有RNA聚合酶I、II和III,但植物的独特之处在于它们有第四种聚合酶Pol IV的亚基。密切相关的基因AT3G18090.1(NRPD2B)和AT3G23780.1(NRPD2A)被发现编码植物Pol IV第二大亚基,大部分NRPD2转录本来自NRPD2A。这些非典型的第二大亚单位仅出现在植物中,在序列上与其他真核生物如酵母中的RNA聚合酶II第二大亚单位最为相似RPB2型 [15],[16]。尽管存在这种序列相似性,但它们被有效地从含有酵母的OrthoMCL生成的直系簇中分离出来RBP2型成为他们独特的两人家庭。另一方面,Jaccard聚类方法正确地将这些独特的Pol IV植物亚基与其他第二大RNA聚合酶亚基家族分组,如图5D.

作为另一个例子,我们检测了30个与天冬酰胺连接的糖基化有关的酵母ER蛋白,这是一条在酵母和人类早期阶段非常保守的途径,糖基化蛋白进入高尔基体后很快就会分化(表6). 从文献中得知,其中27个具有人类同源物。这项分析表明,有26个属于直系同源家族,其中大多数直系同源家族智人(26),D.黑腹果蝇(24),拟南芥(24),小M(23),秀丽线虫(23),和斑马鱼(21). 不属于正交家族的四种蛋白质是酵母寡糖转移酶复合物的亚单位。10个人类同源基因的有害突变会导致先天性糖基化障碍。有趣的是,30个酵母ER蛋白中只有9个在恶性疟原虫。在中仅检测到极低水平的N-连接糖基化恶性疟原虫 [17]并确保异源表达中的适当糖基化恶性疟原虫蛋白质是疟疾疫苗开发中的技术挑战[18],[19].

表6

保存参与N-连接糖基化的酵母蛋白质。
功能酵母基因人类基因CDG(OMIM) 总工程师 Dm公司 博士 功率因数
多利考合成与改性 可再生能源2 DHDDS公司x个x个x个x个
第59节 TMEM15公司x个x个x个x个x个
DPM1型 DPM1型即(608799)x个x个x个x个x个x个
ALG5公司 ALG5公司x个x个x个x个x个
CAX4型 海豚P1x个x个x个x个
核心低聚糖的组装 ALG7公司 DPAGT1型Ij(608093)x个x个x个x个x个x个
代数13 GLT28D1型x个x个x个x个x个x个
ALG14型 未命名的x个x个x个x个x个x个
ALG1公司 ALG1公司伊克(608540)x个x个x个x个x个
ALG2系列 ALG2系列Ii(607906)x个x个x个x个
ALG11型 未命名的x个x个x个x个x个
射频T1 射频T1x个x个x个x个
ALG3(ALG3) ALG3(ALG3)Id(601110)x个x个x个x个
ALG9公司 ALG9公司伊利(608776)x个x个x个x个x个
ALG12型 代数12免疫球蛋白(607143)x个x个x个x个
ALG6型 ALG6型国际商会(603147)x个x个x个x个
ALG8公司 ALG8公司伊赫(608104)x个x个x个x个x个
模具2/ALG10 ALG10/KCR1型x个x个x个
寡糖基转移酶复合物 OST1系统测试 RPN1型x个x个x个x个x个
OST2系统测试 数据采集1x个x个x个x个x个
OST3系统测试 TUSC3号机组x个x个
STT3型 ITM1公司x个x个x个x个x个x个
WBP1项目 DDOST公司x个x个x个x个x个x个
外糖类的修剪 CWH41/GLS1号机组 通用条款1IIb(606056)x个x个x个x个x个
ROT2/GLS2型 GANAB公司x个x个x个x个x个
百万分之一 MAN1B1型x个x个x个x个x个

基因按功能大致分类。如有可能,可通过名称识别人类基因,并显示相应的先天性糖基化障碍(CDG,带OMIM ID)。对于拟南芥,秀丽线虫,D.黑腹果蝇,斑马鱼,小M、和恶性疟原虫,标有“x”的框表示该生物体的肽与酵母基因位于同一OrthoMCL家族中。未显示:SWP1软件与人类核糖蛋白II同源[30]、和SWP1、OST4、OST5、和OST6系统测试不要躺在直系亲属中。

讨论

我们构建的数据库系统(P-POD)显示了用户单独(使用OrthoMCL)和在更广泛的进化背景下(使用Jaccard聚类)预测的查询蛋白的同源序列。它包括一个比较基因组分析管道,其结果使用免费可用的数据库系统(PostgreSQL)存储在通用的模块化数据库模式(GMOD/chado)中。P-POD的目的不是取代,而是补充当前可用的比较基因组数据库。据我们所知,没有其他比较基因组数据库提供了从原始文献中收集的保护实验证据。

我们设想我们的数据库系统至少有三组用户。首先,分子生物学家可以通过网络查询数据库,浏览计算和实验的形态数据,寻找他们喜欢的蛋白质。另一组用户由模型生物数据库开发人员组成,他们将能够通过实现我们的系统快速提供与其感兴趣的物种的比较基因组学工具。最后,我们预计,正在开发新型比较基因组算法的计算生物学家将发现来自其他方法的精选信息和计算数据在评估他们的方法时非常有用。此外,通过使用我们的系统,他们将节省实现时间,并且能够更容易地分发算法。

需要强调的是,虽然识别正交曲线的计算方法非常有用,但它们决不是完美的。虽然OrthoMCL在创建假定的正交组方面做得相当好,就像所有计算方法一样,但在许多情况下它都失败了,要么遗漏了真正的正交,要么不适当地包含了并行[7]如果一个人的主要目标是仅使用这种算法来识别严格的直系祖先,那么物种的选择至关重要,包括两种哺乳动物以及远亲疟原虫肯定会增加包含外来旁系亲属的家庭数量。然而,我们的目标是提供一个数据库,不仅可以服务于计算或进化生物学家,还可以服务于研究常见模式生物的生物学家的日常需要。P-POD为生物学家提供了一种从研究物种中直接查询他们感兴趣的基因的方法,尽管在某些情况下,由于偶尔会包含同源基因,因此必须手动检查系统发育树以确定真正的同源基因。随着更加精细的矫形自动检测方法的开发(例如,[20],[21])我们计划利用我们的模块化设计方案,将它们集成到P-POD工具中。

我们计划定期更新数据库中包含的数据。在撰写本文时,我们正在使用最新版本的基因组运行分析管道。此外,我们将向web界面添加新功能,并扩展数据库中存储的数据量。我们还将继续提供策划的文献,描述矫形学的实验验证。数据库中的所有数据都可以通过web和通过URL下载整个数据库系统免费公开获取http://ortholog.princeton.edu/.

材料和方法

整体分析管道如所示图1。中列出了管道组件的来源和版本表2.

WU-BLAST公司

相同的WU-BLAST结果被用作以下描述的OrthoMCL和Jaccard算法的输入。WU-BLAST(2.0MP-WashU版本)是使用默认BLASTP设置运行的:矩阵=BLOSUM62,期望阈值=10,ctxfactor=1.0,无过滤。

OrthoMCL和Jaccard算法

OrthoMCL(第1.2节,2005年3月14日)[4])比较一组基因组中的全对全BLASTP得分,首先确定假定的同源序列是两对基因组之间的相互最佳匹配,然后确定候选的最近同源序列是同一物种中彼此更相似的蛋白质,而不是其他物种中的任何序列。然后将所有的直系图和最近的平行图转换成一个图,其中节点表示蛋白质,边缘表示它们的关系。然后,在比较成对基因组时,使用归一化步骤纠正系统偏差。最后,应用马尔可夫聚类算法求解正交族(MCL v.1.005,05-118)。由于该过程在一个家族中最大限度地只包括那些至少与物种间相互最佳点击密切相关的蛋白质,因此由此产生的OrthoMCL群可以被视为一组假定的同源群,因为该群中的每个蛋白质都可能与至少一个其他群成员同源。然而,有些群体仅由来自单个物种的蛋白质组成;显然,这些群体只包含最近的Paralog,但这些信息对实验生物学家来说往往非常重要。

我们使用了以下OrthoMCL参数。P值截止:1e−5,标识百分比和匹配百分比截止值:0,最大权重:100。

OrthoMCL家族规模可以通过改变通货膨胀指数(本研究中为1.5)进行调整,但这并没有放松算法以假定的正交和Paralog列表开始的基本限制。为了让更大的家族显示出更遥远的关系,我们想去掉这种限制,并包括在很大一部分长度上表现出显著序列相似性的蛋白质。我们选择执行Jaccard聚类,并应用一组更广泛定义的标准,即同一家族的成员应在其长度的至少一半上具有显著的BLAST分数。最后一点对于减少基于短混杂域的存在将两个序列分组在一起的机会非常重要。

在Jaccard聚类分析中,如果两个蛋白质共享大量同源物,则将其归为同一家族,计算如下。首先,每个序列的同源序列列表,包括相对BLASTP得分小于1e的序列−5每个蛋白质产生的总长度至少为每个蛋白质长度的50%。然后计算每对的雅卡指数;这是它们的同调集的交集与并的大小之比,或| AB |/| AкB |。最终的簇是通过连接相互Jaccard指数高于预定阈值的蛋白质而生成的。我们评估了在0.3至0.8的范围内改变截断值对几个特征良好的蛋白质家族的影响,如肌动蛋白、微管蛋白、RNA聚合酶和几个含有RING finger或SH3结构域的蛋白质。我们选择Jaccard指数为0.4,因为它最广泛地允许包含家庭的预期成员,同时排除明显的非成员。例如,在临界值为0.5时,含有酵母肌动蛋白的家族(行动1)不适当地忽略了人和小鼠肌动蛋白相关蛋白ACTR8(行动8)执行器8而截断值0.3显然太低,导致许多家庭有数百名外来成员。

系统发育树的生成

P-POD使用CLUSTAL W生成OrthoMCL和Jaccard家族的系统发育树[5]和PHYLIP(Felsenstein,J.2005)。PHYLIP(系统发育推断包)3.6版。由作者分发。华盛顿大学西雅图分校基因组科学系),使用ProML并打开全局重排。CLUSTAL W以默认设置运行:matrix=BLOSUM,Gaopen=10,Gaext=0.2,Gapdist=8,Max div.=40,ENDGAPS,NOPGAPS和NOHGAPS关闭,PWMATRIX=BLOSUM,PWGAPOPEN=10,PWGAPEXT=0.1,距离=Kimura,TOSSGAPS=ON,输出=PHYLIP。

文学类

在SGD“文献指南”资源的文献管理期间,论文可能与酵母基因和描述论文内容的各种主题相关。从SGD FTP网站下载了与主题“交叉特异性表达”或“疾病相关”相关的所有论文列表,并将其加载到P-POD数据库中,以及SGD馆长制作的酵母基因链接。每当查看包含相关酵母基因的家族时,这些论文就会显示在P-POD界面上;显示的每篇论文都超链接到PubMed数据库。对于与“跨谱表达”主题相关的论文,我们手动阅读每篇论文,以提取测试生物体的哪些基因,以及是否证明了功能互补。这些结果存储在数据库中,并显示在P-POD界面上。

数据库模式和软件

P-POD使用使用PostgreSQL软件的通用生物模型数据库(GMOD)数据库包。有关GMOD模式(也称为“chado”模式)的信息和文档可以在GMOD网站上找到(网址:www.gmod.org). 此外,补充表1(http://ortholog.princeton.edu/help.html#schema)提供了有关GMOD模式的特定实现的详细信息,包括分析数据(FASTA文件、OrthoMCL结果等)如何映射到GMOD数据库表。

致谢

我们感谢约翰·威金斯(John Wiggins)和马克·施罗德(Mark Schroeder)提供了出色的技术支持,感谢迈克·切里(Mike Cherry)(SGD)、帅翁(Shuai Weng)(SGD)、尤里·洪(Eurie Hong)(新加坡元)、劳里·克莱默(Laurie Kramer)(普林斯顿)和约翰·马特塞(John Matese)。

脚注

竞争利益:提交人声明,不存在相互竞争的利益。

基金:这项工作由国家卫生研究院授予DB(PI)和KD(联合研究者)的拨款5R01HG003471资助,由国家卫生院授予DB的拨款P50 GM071508资助,由NIH授予OW的合同NO1-AI-40038资助。

工具书类

1Benson DA、Karsch-Mizrachi I、Lipman DJ、Ostell J、Wheeler DL。GenBank。核酸研究。2007;35:D21–25。 [PMC免费文章][公共医学][谷歌学者]
2Kulikova T、Akhtar R、Aldebert P、Althorpe N、Andersson M等,2006年EMBL核苷酸序列数据库。核酸研究。2007;35:D16–20。 [PMC免费文章][公共医学][谷歌学者]
三。Alexeyenko A、Lindberg J、Perez-Bercoff A、Sonnhamer ELL。正交数据库的概述和比较。今日毒品发现。2006;11:137–143.[公共医学][谷歌学者]
4Li L,Stoeckert CJ,Jr,Roos DS。OrthoMCL:真核生物基因组的同源群鉴定。基因组研究。2003;13:2178–2189. [PMC免费文章][公共医学][谷歌学者]
5.Thompson JD、Higgins DG、Gibson TJ。CLUSTAL W:通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。核酸研究。1994;22:4673–4680. [PMC免费文章][公共医学][谷歌学者]
6Lenffer J、Nicholas FW、Castle K、Rao A、Gregory S等。OMIA(动物孟德尔在线遗传):一个增强的平台,并集成到NCBI的Entrez搜索界面中。核酸研究。2006;34:D599–601。 [PMC免费文章][公共医学][谷歌学者]
7Chen F,Mackey AJ,Vermunt JK,Roos DS。评估应用于真核生物基因组的同源检测策略的性能。《公共科学图书馆·综合》。2007;2:e383。 [PMC免费文章][公共医学][谷歌学者]
8Dwight SS、Harris MA、Dolinski K、Ball CA、Binkley G等。酵母基因组数据库(SGD)使用基因本体(GO)提供二级基因注释。核酸研究。2002;30:69–72. [PMC免费文章][公共医学][谷歌学者]
9.Boyle EI、Weng S、Gollub J、Jin H、Botstein D等。GO::TermFinder–用于访问基因本体信息和查找与基因列表相关的显著丰富的基因本体术语的开源软件。生物信息学。2004;20:3710–3715. [PMC免费文章][公共医学][谷歌学者]
10科宁EV。正态、平行和进化基因组学。年度版次Genet。2005;39:309–338.[公共医学][谷歌学者]
11Kron SJ、Drubin DG、Botstein D、Spudich JA。酵母肌动蛋白丝在被兔肌肉肌球蛋白包裹的表面上表现出依赖ATP的滑动运动。美国国家科学院院刊。1992;89:4466–4470. [PMC免费文章][公共医学][谷歌学者]
12Keeling PJ,Doolittle WF。来自早期分化真核生物谱系的α-管蛋白和管蛋白家族的进化。分子生物学进化。1996;13:1297–1305.[公共医学][谷歌学者]
13Dutcher SK.最古老的亲属再次出现:微管蛋白超家族新成员的鉴定。当前操作微生物。2003;6:634–640.[公共医学][谷歌学者]
14Archambault J、Friesen JD。真核RNA聚合酶I、II和III的遗传学。微生物评论。1993;57:703–724. [PMC免费文章][公共医学][谷歌学者]
15AJ先生,Jensen MB,Dalmay T,Baulcombe DC。RNA聚合酶IV引导内源性DNA沉默。科学。2005;308:118–120.[公共医学][谷歌学者]
16Onodera Y、Haag JR、Ream T、Nunes PC、Pontes O等。植物核RNA聚合酶IV介导siRNA和DNA甲基化依赖异染色质的形成。单元格。2005;120:613–622.[公共医学][谷歌学者]
17.Gowda DC、Gupta P、Davidson EA。糖基磷脂酰肌醇锚定物是红细胞内恶性疟原虫蛋白质中主要的碳水化合物修饰。生物化学杂志。1997;272:6428–6439.[公共医学][谷歌学者]
18Kedees MH、Azzouz N、Gerold P、Shams-Eldin H、Iqbal J等。恶性疟原虫:杆状病毒系统中表达的恶性疟原菌环子孢子蛋白的糖基化状态。实验寄生虫。2002;101:64–68.[公共医学][谷歌学者]
19.Kocken CH、Withers-Martinez C、Dubbeld MA、van der Wel A、Hackett F等。疟疾血型疫苗候选恶性疟原虫顶膜抗原1的高水平表达和抑制红细胞侵袭的抗体诱导。感染免疫。2002;70:4471–4476. [PMC免费文章][公共医学][谷歌学者]
20Alexeyenko A,Tamas I,Liu G,Sonnhammer EL。多蛋白质组共享的直系和非直系蛋白质的自动聚类。生物信息学。2006;22:e9–15。[公共医学][谷歌学者]
21Jothi R,Zotenko E,Tasneem A,Przytycka TM。COCO-CL:基于进化相关性的同源关系层次聚类。生物信息学。2006;22:779–788. [PMC免费文章][公共医学][谷歌学者]
22Tatusov RL、Fedorova ND、Jackson JD、Jacobs AR、Kiryutin B等。COG数据库:更新版本包括真核生物。BMC生物信息学。2003;4:41. [PMC免费文章][公共医学][谷歌学者]
23Lee Y、Sultana R、Pertea G、Cho J、Karamycheva S等。交叉参考真核生物基因组:TIGR同源基因比对(TOGA)。基因组研究。2002;12:493–502. [PMC免费文章][公共医学][谷歌学者]
24Wheeler DL、Barrett T、Benson DA、Bryant SH、Canese K等。国家生物技术信息中心的数据库资源。核酸研究。2006;34:D173–180。 [PMC免费文章][公共医学][谷歌学者]
25O'Brien KP,Remm M,Sonnhammer EL。Inparanoid:真核生物同源基因的综合数据库。核酸研究。2005;33:D476–480。 [PMC免费文章][公共医学][谷歌学者]
26O'Brien KP,Westerlund I,Sonnhammer EL。OrthoDisease:人类疾病直系同源物数据库。哼,变种。2004;24:112–119.[公共医学][谷歌学者]
27Chen F,Mackey AJ,Stoeckert CJ,Jr,Roos DS。OrthoMCL-DB:查询直系群的综合多物种集合。核酸研究。2006;34:D363–368。 [PMC免费文章][公共医学][谷歌学者]
28.Penkett CJ、Morris JA、Wood V、Bahler J.YOGY:一个基于网络的综合数据库,用于检索蛋白质同源基因和相关的基因本体术语。核酸研究。2006;34:W330–334。 [PMC免费文章][公共医学][谷歌学者]
29Samuel Lattimore B、van Dongen S、Crabbe MJ。基因芯片分析中的基因MCL。计算机生物化学。2005;29:354–359.[公共医学][谷歌学者]
30Kelleher DJ,Gilmore R.酿酒酵母寡糖转移酶是一种由Wbp1p、Swp1p和其他四种多肽组成的蛋白质复合物。生物化学杂志。1994;269:12908–12917.[公共医学][谷歌学者]
31Nomoto S、Watanabe Y、Ninomiya-Tsuji J、Yang LX、Nagai Y等。芽殖酵母和哺乳动物成纤维细胞中哺乳动物蛋白激酶C同工酶的功能分析。基因细胞。1997;2:601–614.[公共医学][谷歌学者]
32Kida Y,Uchida S,Miyazaki H,Sasaki S,Marumo F.小鼠CLC-6和CLC-7 mRNA的定位及其对酵母CLC基因突变的功能补充。组织化学细胞生物学。2001;115:189–194.[公共医学][谷歌学者]
33Yamagata K、Kato J、Shimamoto A、Goto M、Furuichi Y等。Bloom’s和Werner’s综合征基因抑制酵母sgs1突变体中的超重组:人类疾病中基因组不稳定性的含义。美国国家科学院院刊。1998;95:8733–8738. [PMC免费文章][公共医学][谷歌学者]
34Clark AB、Cook ME、Tran HT、Gordenin DA、Resnick MA等。酵母中人MutSalpha和MutSbeta复合物的功能分析。核酸研究。1999;27:736–742. [PMC免费文章][公共医学][谷歌学者]
35Garbers C、DeLong A、Deruere J、Bernasconi P、Soll D。蛋白质磷酸酶2A调节亚基A的突变影响拟南芥中生长素的运输。Embo J。1996;15:2115–2124. [PMC免费文章][公共医学][谷歌学者]
36.Frank CG、Grubenmann CE、Eyaid W、Berger EG、Aebi M等。人类ALG9基因缺陷的鉴定和功能分析:糖基化型IL先天性疾病的定义。美国人类遗传学杂志。2004;75:146–150. [PMC免费文章][公共医学][谷歌学者]
37Schwarz M,Thiel C,Lubbehusen J,Dorland B,de Koning T,等。GDP-Man缺乏:GlcNAc2-PP-寡核苷酸甘露糖基转移酶导致Ik型糖基化先天性疾病。美国人类遗传学杂志。2004;74:472–481. [PMC免费文章][公共医学][谷歌学者]
38Ballester R、Marchuk D、Boguski M、Saulino A、Letcher R等。NF1基因座编码一种与哺乳动物GAP和酵母IRA蛋白功能相关的蛋白质。单元格。1990;63:851–859.[公共医学][谷歌学者]
39Poullet P,Lin B,Esson K,Tamanoi F.神经纤维蛋白赖氨酸1423的功能意义和第二位点抑制物的特征,该抑制物可拯救该残基的突变并抑制RAS2Val-19激活的表型。分子细胞生物学。1994;14:815–821. [PMC免费文章][公共医学][谷歌学者]
40Gecz J、Shaw MA、Bellon JR、de Barros Lopes M。人类野生型SEDL蛋白在功能上补充了酵母Trs20p,但一些自然发生的SEDL突变体没有。基因。2003;320:137–144.[公共医学][谷歌学者]
41Gao XD,Wang J,Keppler-Ross S,Dean N.ERS1编码人类溶酶体胱氨酸转运体的功能同源物。费布斯J。2005;272:2497–2511.[公共医学][谷歌学者]
42Cavadini P、Gellera C、Patel PI、Isaya G。人frataxin在酿酒酵母中维持线粒体铁稳态。人类分子遗传学。2000;9:2523–2530.[公共医学][谷歌学者]
43Desmyter L、Dewaele S、Reekmans R、Nystrom T、Contreras R等。人类铁蛋白轻链在frataxin突变酵母中的表达影响衰老和细胞死亡。Exp Gerontal公司。2004;39:707–715.[公共医学][谷歌学者]
44Feiler HS、Desprez T、Santoni V、Kronenberger J、Caboche M等。高等植物拟南芥编码一种功能性CDC48同源物,在分裂和膨胀细胞中高度表达。Embo J。1995;14:5626–5637. [PMC免费文章][公共医学][谷歌学者]
45.Hsi G、Cullen LM、Moira Glerum D、Cox DW。肝豆状核变性铜转运ATP酶(ATP7B)羧基末端的功能评估。基因组学。2004;83:473–481.[公共医学][谷歌学者]
46Bussey H、Storms RK、Ahmed A、Albermann K、Allen E等。酿酒酵母第十六染色体的核苷酸序列。自然。1997;387:103–105.[公共医学][谷歌学者]
47Portmann R,Solioz M.人Wilson铜ATP酶ATP7B的纯化和功能重建。FEBS通讯。2005;579:3589–3595.[公共医学][谷歌学者]
48Sambongi Y、Wakabayashi T、Yoshimizu T、Omote H、Oka T等。Menkes/Wilson病基因同源物秀丽隐杆线虫cDNA及其在酵母CCC2基因缺失突变中的功能。生物化学杂志(东京)1997;121:1169–1175.[公共医学][谷歌学者]
49Mercer JF、Barnes N、Stevenson J、Strausak D、Llanos RM。铜诱导的cU-ATP酶贩运:铜稳态的关键机制。生物物证。2003;16:175–184.[公共医学][谷歌学者]
50Payne AS,Gitlin JD公司。menkes病蛋白的功能表达揭示了铜转运P型ATP酶之间的共同生化机制。生物化学杂志。1998;273:3765–3770.[公共医学][谷歌学者]
51Jantti J、Lahdenranta J、Olkkonen VM、Soderlund H、Keranen S.SEM1是裂手/裂足畸形候选基因Dss1的同源物,调节酵母的胞吐和假菌丝分化。美国国家科学院院刊。1999;96:909–914. [PMC免费文章][公共医学][谷歌学者]
52.Sone T,Saeki Y,Toh-e A,Yokosawa H.Sem1p是酿酒酵母26S蛋白酶体的一个新亚基。生物化学杂志。2004;279:28807–28816.[公共医学][谷歌学者]
53Morita T、Yoshimura Y、Yamamoto A、Murata K、Mori M等。大肠杆菌recA和酿酒酵母RAD51基因的小鼠同源物。美国国家科学院院刊。1993;90:6577–6580. [PMC免费文章][公共医学][谷歌学者]
54Loewen CJ、Levine TP。囊泡相关膜蛋白相关蛋白(VAP)中脂质结合蛋白的FFAT基序的一个高度保守的结合位点。生物化学杂志。2005;280:14097–14104.[公共医学][谷歌学者]
55Guzder SN,Sung P,Prakash S,Prakash L.人类着色性干皮病D组基因中的毛发碘营养不良(TTD)突变在酵母中的致死率。TTD中转录缺陷的含义。生物化学杂志。1995;270:17660–17663.[公共医学][谷歌学者]
56Sung P、Bailly V、Weber C、Thompson LH、Prakash L等。人类着色性干皮病D组基因编码DNA解旋酶。自然。1993;365:852–855.[公共医学][谷歌学者]
57Lanterman MM,Dickinson JR,Danner DJ。人类二氢硫酰胺脱氢酶中天然氨基酸取代在酿酒酵母中的功能分析。人类分子遗传学。1996;5:1643–1648.[公共医学][谷歌学者]
58McEwen RK、Dove SK、Cooke FT、Painter GF、Holmes AB等。PtdInsP激酶缺陷酵母突变体的互补分析表明,裂殖酵母pombe和小鼠Fab1p同源物是磷脂酰肌醇3-磷酸5-激酶。生物化学杂志。1999;274:33905–33912.[公共医学][谷歌学者]
59Mayordomo I,Sanz P.人胰腺葡萄糖激酶(GlkB)补充了酿酒酵母hxk2突变体的葡萄糖信号缺陷。酵母。2001;18:1309–1316.[公共医学][谷歌学者]
60Lucas ME、Ma Q、Cunningham D、Peters J、Cattanach B等。小鼠Nsdhl甾醇脱氢酶基因两种新突变的鉴定和酵母功能互补分析的开发。分子遗传学。2003;80:227–233.[公共医学][谷歌学者]
61Geisler M、Frangne N、Gomes E、Martinoia E、Palmgren MG。拟南芥的ACA4基因编码一个液泡膜钙泵,可提高酵母的耐盐性。植物生理学。2000;124:1814–1827. [PMC免费文章][公共医学][谷歌学者]
62.Schiott M、Romanowsky SM、Baekgaard L、Jakobsen MK、Palmgren MG等。正常花粉管生长和受精需要植物质膜Ca2+泵。美国国家科学院院刊。2004;101:9502–9507. [PMC免费文章][公共医学][谷歌学者]
63Kleinow T、Bhalerao R、Breuer F、Umeda M、Salchert K等。通过筛选酵母中snf4缺陷的异源多拷贝抑制剂,对拟南芥snf4同源基因进行功能鉴定。植物J。2000;23:115–122.[公共医学][谷歌学者]
64Lumpreras V,Alba MM,Kleinow T,Koncz C,Pages M。植物进化过程中SNF1相关激酶亚基之间的域融合。EMBO代表。2001;2:55–60. [PMC免费文章][公共医学][谷歌学者]
65Roje S,Wang H,McNeil SD,Raymond RK,Appling DR,等。高等植物中编码NADH依赖的亚甲基四氢叶酸还原酶cDNA的分离、表征和功能表达。生物化学杂志。1999;274:36089–36096.[公共医学][谷歌学者]
66Raymond RK,Kastanos EK,Appling DR。酿酒酵母表达两个编码亚甲基四氢叶酸还原酶同工酶的基因。生物化学与生物物理学Arch Biochem Biophys。1999;372:300–308.[公共医学][谷歌学者]
67Ton VK,Mandal D,Vahadji C,Rao R.人分泌途径Ca(2+),Mn(2+)-ATPase缺陷在Hailey-Hailey病酵母中的功能表达。生物化学杂志。2002;277:6422–6427.[公共医学][谷歌学者]
68Ton-VK,Rao R.Hailey-Hailey病突变在酵母中的表达。《皮肤病学杂志》。2004;123:1192–1194.[公共医学][谷歌学者]
69Kellermayer R.Hailey-Hailey病是酿酒酵母PMR1缺乏症的一种原发病。FEBS通讯。2005;579:2021–2025.[公共医学][谷歌学者]
70海尼什JJ。外源磷酸果糖激酶基因在酵母中的表达。FEBS通讯。1993;328:35–40.[公共医学][谷歌学者]
71Raben N、Exelbert R、Spiegel R、Sherman JB、Nakajima H等。酵母中人类突变型磷酸果糖激酶的功能表达:加拿大和瑞士法裔磷酸果糖酶缺乏症患者的遗传缺陷。美国人类遗传学杂志。1995;56:131–141. [PMC免费文章][公共医学][谷歌学者]
72Garavaglia B、Invernizzi F、Carbone ML、Viscadi V、Saracino F等。常染色体显性和隐性GTP-CH1缺陷患者的GTP-环水解酶I基因突变:四种新突变的鉴定和功能表征。J继承元疾病。2004;27:455–463.[公共医学][谷歌学者]
73Mancini R、Saracino F、Buscemi G、Fischer M、Schramek N等。编码GTP环水解酶I的人类和大肠杆菌基因对酿酒酵母中fol2缺失的补充。生物化学与生物物理研究委员会。1999;255:521–527.[公共医学][谷歌学者]
74Geraghty MT、Vaughn D、Nicholson AJ、Lin WW、Jimenez-Sanchez G等。Delta1-pyrroline 5-羧酸脱氢酶基因突变导致II型高蛋白血症。人类分子遗传学。1998;7:1411–1415.[公共医学][谷歌学者]
75Hu CA,Lin WW,Valle D.编码人类δ1-吡咯烷-5-羧酸脱氢酶cDNA的克隆、表征和表达。生物化学杂志。1996;271:9795–9800.[公共医学][谷歌学者]
76.Morgante PG、Berra CM、Nakabashi M、Costa RM、Menck CF等。拟南芥基因组中的功能XPB/RAD25冗余:AtXPB2的特征描述和表达分析。基因。2005;344:93–103.[公共医学][谷歌学者]
77Pearce DA,Sherman F.巴顿病研究用酵母模型。美国国家科学院院刊。1998;95:6915–6918. [PMC免费文章][公共医学][谷歌学者]
78Saunders RD,McLellan LI.通过酵母突变体的功能互补进行果蝇γ-谷氨酰半胱氨酸合成酶的分子克隆。FEBS通讯。2000;467:337–340.[公共医学][谷歌学者]
79Srinivasan C、Liba A、Imlay JA、Valentine JS、Gralla EB。通过全细胞电子顺磁共振测定,缺乏超氧化物歧化酶的酵母显示“游离铁”水平升高。生物化学杂志。2000;275:29187–29192.[公共医学][谷歌学者]
80Agarwal AK、Fryns JP、Auchus RJ、Garg A.锌金属蛋白酶ZMPSTE24在下颌骨发育不良中突变。人类分子遗传学。2003;12:1995–2001.[公共医学][谷歌学者]
81Schmidt WK,Tam A,Michaelis S.酵母α因子生物生成中依赖于Ste24p的N末端蛋白水解步骤的重组。生物化学杂志。2000;275:6227–6233.[公共医学][谷歌学者]
82Hofmann S、Rothbauer U、Muhlenbein N、Neupert W、Gerbitz KD等。耳聋性肌张力障碍肽1(DDP1)的C66W突变影响线粒体膜间隙中功能性DDP1.TIM13复合物的形成。生物化学杂志。2002;277:23287–23293.[公共医学][谷歌学者]
83Rothbauer U、Hofmann S、Muhlenbein N、Paschen SA、Gerbitz KD等。耳聋性肌张力障碍肽1(DDP1)在人Tim23进入线粒体内膜中的作用。生物化学杂志。2001;276:37327–37334.[公共医学][谷歌学者]
84Raymond M,Gros P,Whiteway M,Thomas DY。哺乳动物多药耐药mdr基因对酵母ste6的功能互补。科学。1992;256:232–234.[公共医学][谷歌学者]
85Boyum R,Guidotti G.ATP结合盒/多药耐药蛋白对酿酒酵母ATP流出的影响。生物化学与生物物理研究委员会。1997;230:22–26.[公共医学][谷歌学者]
86Chen Y,Beck A,Davenport C,Chen Y,Shattuck D等。TRZ1的表征,TRZ1是编码tRNase Z的人类候选前列腺癌易感性基因ELAC2的酵母同源物。BMC分子生物学。2005;6:12. [PMC免费文章][公共医学][谷歌学者]
87Peng Z、Lu Q、Verma DP。δ1-吡咯烷-5-羧酸合成酶和脯氨酸脱氢酶基因的相互调节控制着植物渗透胁迫期间和之后的脯氨酸水平。分子遗传学。1996;253:334–341.[公共医学][谷歌学者]
88查特吉A,辛格KK。尿嘧啶-DNA糖基化酶缺乏酵母表现出线粒体突变表型。核酸研究。2001;29:4935–4940. [PMC免费文章][公共医学][谷歌学者]
89Lillard-Wetherell K,Combs KA,Groden J.BLM解旋酶补体破坏了端粒酶阴性sgs1酵母中的II型端粒延长。癌症研究。2005;65:5520–5522.[公共医学][谷歌学者]
90Neff NF、Ellis NA、Ye TZ、Noonan J、Huang K等。BLM的DNA解旋酶活性对于纠正布鲁姆综合征细胞的基因组不稳定性是必要的。分子生物学细胞。1999;10:665–676. [PMC免费文章][公共医学][谷歌学者]
91Grubenmann CE、Frank CG、Kjaergaard S、Berger EG、Aebi M等。lg型糖基化先天性疾病中的ALG12甘露糖基转移酶缺陷。人类分子遗传学。2002;11:2331–2339.[公共医学][谷歌学者]
92Forsgren M、Attersand A、Lake S、Grunler J、Swiezewska E等。人类COQ2的分离和功能表达,COQ2是一种编码参与CoQ合成的聚戊烯基转移酶的基因。生物化学杂志。2004;382:519–526. [PMC免费文章][公共医学][谷歌学者]
93Okada K、Ohara K、Yazaki K、Nozaki K和Uchida N等。拟南芥胚胎发育需要编码泛醌生物合成中4-羟基苯甲酸-聚戊烯二磷酸转移酶的AtPPT1基因。植物分子生物学。2004;55:567–577.[公共医学][谷歌学者]
94Willingham S、Outeiro TF、DeVit MJ、Lindquist SL、Muchowski PJ。增强突变亨廷顿蛋白片段或α-同核蛋白毒性的酵母基因。科学。2003;302:1769–1772.[公共医学][谷歌学者]
95Xu GF,Lin B,Tanaka K,Dunn D,Wood D,等。神经纤维瘤病1型基因产物的催化域刺激ras GTPase并补充酿酒酵母ira突变体。单元格。1990;63:835–841.[公共医学][谷歌学者]
96Mamiya N,Worman HJ。丙型肝炎病毒核心蛋白与DEAD盒RNA解旋酶结合。生物化学杂志。1999;274:15751–15756.[公共医学][谷歌学者]
97Johnstone O、Deuring R、Bock R、Linder P、Fuller MT等。Belle是一种果蝇DEAD-box蛋白,是生存能力和生殖系所必需的。开发生物。2005;277:92–101.[公共医学][谷歌学者]
98Vonarx EJ,Howlett NG,Schiestl RH,Kunz BA。拟南芥AtRAD1 cDNA变体的检测和通过在酵母rad1突变体中表达的功能评估。基因。2002;296:1–9.[公共医学][谷歌学者]
99Shaag A、Walsh T、Renbaum P、Kirchhoff T、Nafa K等。功能和基因组方法揭示了一个古老的CHEK2等位基因,该等位基因与德系犹太人的乳腺癌相关。人类分子遗传学。2005;14:555–563.[公共医学][谷歌学者]
100Takeuchi M,Tada M,Saito C,Yashiroda H,Nakano A.使用酵母互补系统分离编码Sar1 GTPase的烟草cDNA并分析其在囊泡运输中的显性突变。植物细胞生理学。1998;39:590–599.[公共医学][谷歌学者]
101.Tomita S、Inoue N、Maeda Y、Ohishi K、Takeda J等。酿酒酵母Dpm1p的同源物不足以在哺乳动物细胞中合成多利考-磷酸-甘露糖。生物化学杂志。1998;273:9249–9254.[公共医学][谷歌学者]
102Lai K,Elsas LJ。过表达人UDP-葡萄糖焦磷酸化酶可以拯救半乳糖-1-磷酸尿苷转移酶缺乏的酵母。生物化学与生物物理研究委员会。2000;271:392–400.[公共医学][谷歌学者]
103Brzeski J,Podstolski W,Olczak K,Jerzmanowski A.SNF5基因家族成员拟南芥BSH基因的鉴定和分析。核酸研究。1999;27:2393–2399. [PMC免费文章][公共医学][谷歌学者]
104Song WY,Martinoia E,Lee J,Kim D,Kim DY等。一个新的富含半胱氨酸的膜蛋白家族介导拟南芥的镉抗性。植物生理学。2004;135:1027–1039. [PMC免费文章][公共医学][谷歌学者]
105Tommasini R、Vogt E、Fromenteau M、Hortensteiner S、Matile P等。拟南芥ABC转运蛋白具有谷胱甘肽结合物和叶绿素分解代谢物转运活性。工厂J。1998;13:773–780.[公共医学][谷歌学者]
106Liang F,Cunningham KW,Harper JF,Sze H.ECA1对Ca2+泵缺陷的酵母突变体进行补充,并在拟南芥中编码内质网型Ca2+-ATPase。美国国家科学院院刊。1997;94:8579–8584. [PMC免费文章][公共医学][谷歌学者]
107Covic L,Lew RR.功能互补法分离的拟南芥cDNA与丝氨酸/苏氨酸蛋白激酶具有同源性。Biochim生物物理学报。1996;1305:125–129.[公共医学][谷歌学者]
108Schmidt PJ,Ramos-Gomez M,Culotta VC。使用CCS(SOD1的铜金属伴侣)获得的超氧化物歧化酶(SOD)活性增加。生物化学杂志。1999;274:36952–36956.[公共医学][谷歌学者]
109Kataoka T、Powers S、Cameron S、Fasano O、Goldfarb M等。哺乳动物和酵母RAS基因的功能同源性。单元格。1985;40:19–26.[公共医学][谷歌学者]
110Catoni E、Desimone M、Hilpert M、Wipf D、Kunze R等。拟南芥核编码线粒体精氨酸-鸟氨酸转运体基因的表达模式。BMC植物生物学。2003;:1. [PMC免费文章][公共医学][谷歌学者]
111Krumpelman PM、Freyermuth SK、Cannon JF、Fink GR、Polacco JC。拟南芥精氨酸酶在酵母中表达的核苷酸序列。植物生理学。1995;107:1479–1480. [PMC免费文章][公共医学][谷歌学者]
112.van Wilpe S、Boumans H、Lobo-Hajdu G、Grivell LA、Berden JA。酵母bc1突变体的功能互补分析。异源和杂交蛋白质线粒体输入的研究。欧洲生物化学杂志。1999;264:825–832.[公共医学][谷歌学者]
113Schaffar G、Breuer P、Boteva R、Behrends C、Tzvetkov N等。聚谷氨酰胺扩张蛋白的细胞毒性:转录因子失活机制酵母bc1突变体的功能互补分析。异源和杂交蛋白质线粒体输入的研究。分子细胞。2004;15:95–105.[公共医学][谷歌学者]
114Wagner N,Weber D,Seitz S,Krohne G。黑腹果蝇的层粘连蛋白B受体。细胞科学杂志。2004;117:2015–2028.[公共医学][谷歌学者]
115Colussi PA、Taron CH、Mack JC、Orlean P.人和酿酒酵母dolichol磷酸甘露糖合成酶代表两类酶,但这两种酶都在葡萄裂殖酵母中起作用。美国国家科学院院刊。1997;94:7873–7878. [PMC免费文章][公共医学][谷歌学者]

文章来自PLOS ONE系列由以下人员提供多环芳烃