摘要
HUGO基因命名委员会(HGNC)正畸预测比较(HCOP)搜索工具结合了PhIGs、HomoloGene、Ensembl、Inparanoid、mouse Genome Informatics(MGI)和HGNC做出的人类、小鼠、大鼠和鸡的正畸断言,使用户能够识别特定基因的预测正畸对。HCOP资源提供了一种有用的方法来集成、比较和访问各种不同的人类矫形数据源。
HCOP搜索工具、数据和文档可在http://www.gene.ucl.ac.uk/hcop.
简介
同源基因是两个或多个物种中具有显著同源性的基因,被认为来源于一个没有重复的共同祖先基因。现在有许多基因组序列可用,确定同源关系正成为一个优先事项。HUGO基因命名委员会(HGNC)骨科预测数据库比较(HCOP,http://www.gene.ucl.ac.uk/hcop)整合了许多不同群体做出的人类、小鼠、大鼠和鸡的矫形断言。到目前为止,这些数据只能从不同的来源获得,并且缺乏一个单一的工具来比较这些数据,以确定一致的正畸预测。
查询HCOP数据库
可以使用一个或多个批准的符号Entrez Gene Ids搜索HCOP数据库[1]、HGNC ID[2],MGI ID[三]或参考序列ID[4]. 通配符“_”可用于替换单个字符,“*”或“%”可替换零个或多个字符,以搜索大量相关符号或标识符。还可以上传包含标识符列表的文件。
数据来源
HCOP中使用的数据来自系统发育推断群(PhIGs)[5],同系物[6]、EnsEmbl[7]、InParanoid[8,9]、小鼠基因组信息学(MGI)[三]和HGNC[2]. 这些数据源使用了多种计算方法[10]为了生成直系断言:PhIGs基于Ensembl数据集查看系统发育[5]; 同源基因从BLASTP开始,然后进行系统发育分析(如果可能的话,使用同分);EnsEmbl包括BLASTP和synteny证据。Paralog是由来自共同祖先的复制相关的基因,并不局限于基因组内;它们要么是在物种形成后通过基因复制事件产生的内寄生虫,要么是在基因复制后在物种形成前产生的外寄生虫。InParanoid通过使用来自两个不同物种序列的BLAST分析中的最佳点击数,将paralogs区分为inparalogs和outparalog。MGI使用计算和手动方法[11],只有HGNC手动整理所有的正形预测。HCOP将这些来源的结果合并为有用的共识预测。此前,HCOP仅限于人类和小鼠数据[12]但它最近被扩展到包括大鼠和鸡的矫形数据。我们现在也在考虑纳入更多的正形学数据源。
正交对数对在HCOP数据库中表示为Entrez基因(EG)ID对。这些是直接从MGI、HGNC、同源基因和InParoid导入的。其他数据库提供成对的信号群ID,这些ID使用信号群数据转换为EG ID。然后生成EG ID对的非退化列表,该列表整理每对EG ID、做出断言的数据库列表以及到原始数据的链接。所有其他数据都直接从Entrez Gene映射而来。数据库每周自动更新一次,尽管这些更新取决于源数据库的更新频率。
保守的共有性是一个术语,用于描述发生在一个物种特定染色体区域和第二个物种等效区域的基因。MGI小鼠和人类矫形图预测的同步染色体(http://www.informatics.jax.org/reports/homologymap/mouse_human.shtml),用于根据Entrez基因提供的染色体位置评估预测的人类/小鼠直系同源对的可能保守的共线性。请参见http://www.gene.ucl.ac.uk/nomenculature/data/humot_documentation.html#synteny网站了解更多详细信息。这有助于评估潜在直系基因的共有性,因为共有基因更有可能是真正的直系基因。其他物种的同步数据将在可用时添加。
数据库实现
HCOP数据库是一个完全索引的PostgreSQL v8.03数据库,其搜索引擎是一个查询该数据库的Perl公共网关接口(CGI)脚本。HTML::Template用于从简单的重复单元快速生成包含多个正交对数对记录的复杂表。
上述数据源提供了142372对预测的同源EGID,涵盖了18 131个基因(截至2006年7月4日)。这些EGID对被合并为一个包含47 177个正形断言的非冗余列表,以及支持每个断言的相关数据库列表。这些数据与每个基因的附加信息一起存储在HCOP数据库中。
HCOP输出
HCOP搜索结果提供了每个假定正交对数对的官方命名、序列登录号、数据库标识符、别名和染色体位置。如果所有数据库都同意正交,则会提供支持该断言的数据库列表以及指向进一步信息源的链接。然而,如果并非所有数据库都同意一致的正交曲线,则会显示所有可用预测的列表,然后用户可以根据自己的意愿解释这些预测。例如,用户可以根据识别特定同源基因对的不同来源的数量,以及基因与其预测的同源基因之间是否存在染色体联系,或者反之亦然,来评估预测的可靠性。
HCOP URL最近进行了优化,以使其更加令人难忘:http://www.gene.ucl.ac.uk/hcop现在将用户直接带到搜索工具。显示一组感兴趣基因的特定搜索结果可以通过为URL添加书签或从外部网页链接轻松返回。文档和帮助位于http://www.gene.ucl.ac.uk/nomenclature/data/humot_documentation.html.
HCOP数据的应用
人类和老鼠命名委员会的主要目标之一是制定两个物种的等效命名法(例如。荷兰皇家空军1号在人类和Klf1公司鼠标中)。HCOP最初用于生成比较文件,列出预测的人类/小鼠正交对数对。这些数据可从以下网址下载:http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/hcop_hum_mus.pl它们在识别具有不同认可命名法的人/鼠直系对数对方面已经很有价值。该资源随后被扩展,以确定大鼠和鸡的一致正形断言,并可能在适当的时候包括其他物种,允许注释和命名在其他哺乳动物物种的基因组序列可用时扩散到其他哺乳动物物种。
对HCOP数据的分析也使不同数据库所做的矫形断言之间的一致性水平得以评估。该分析发现,尽管大多数来源仅为少数基因提供了正形断言,但不同的正形数据库之间大体上一致。
不同数据库的断言之间的一致性很高,通常在98%左右。特别是在涉及的数据库使用非常不同的方法生成正形预测的情况下(例如PhIGs的系统发育方法和EnsEmbl的BLAST分析),我们可以确信HCOP提供的共识断言在大多数情况下是正确的。
HCOP搜索为96%的小鼠和大鼠基因以及97%的鸡基因确定了一个预测的人类同源基因,即使在三个或更多数据库预测了一个同源基因的情况下也是如此。相比之下,在一个或多个物种中,预测了18 131个基因中约1500个(8%)可能存在多个同源基因。其中大多数属于大基因家族,有许多密切相关的成员,例如嗅觉受体基因。在这些情况下,预测的多个“正交曲线”实际上可能代表平行曲线。当前数据集中特定基因的最大预测同源基因数为人类PRAME家族成员2的24个小鼠同源基因(PRAMEF2公司)位于1号染色体(1p36.1)的一个区域,已知该区域在人类和啮齿类动物中发生了大量重复[13]. 这项工作的一个重要结果是能够识别出自动矫正预测被证明不成功的基因,因此它们成为手动管理工作的重点。然而,应该注意的是,在某些情况下,矫正的分配目前可能不可能。
对于几个数据库来说,覆盖率有些低。在这18 131个基因中,大约83%的基因具有由六个数据库中的三个或更多数据库作出的正形断言。HGNC提供的正形断言数量最少(约6000个),而HomoloGene提供的数量最多(约56000个)。虽然HGNC的覆盖范围很小,但它的数据是唯一一组完全手动管理的数据,可以很好地检查其他小组使用的自动方法的质量。
鉴于许多数据库的覆盖面较低,以及与一些大基因家族相关的问题,完全依赖单一来源的正形预测是不明智的。为了避免这些问题,HCOP提供了一种有价值的方法来同时比较多个来源的数据。
结论
HCOP提供了一个有用的工具,可以快速获取和比较来自各种来源的正畸数据,使用户能够对最可能正确的正骨进行知情识别。在未来,它可能会扩大到涵盖更多物种,有助于我们了解整个哺乳动物物种的直系关系。
引用
请作者以以下格式引用本文和HCOP资源:“HCOP搜索工具,HUGO基因命名委员会(HGNC),生物系,伦敦大学学院,沃尔夫森学院,4 Stephenson Way,London NW1 2HE,UK(URL:http://www.gene.ucl.ac.uk/hcop)“[包括您检索引用数据的月份和年份。]
现在有许多基因组序列可用,确定同源关系正成为一个优先事项。
HUGO基因命名委员会(HGNC)正畸预测比较数据库(HCOP)整合了PhIGs、HomoloGene、Ensembl、Inparanoid、MGI和HGNC做出的人类、小鼠、大鼠和鸡的正畸断言。到目前为止,这些数据只能从不同的来源获得,并且缺乏一个单一的工具来比较这些数据,以确定一致的正畸预测。
HCOP资源,可在http://www.gene.ucl.ac.uk/hcop为整合、比较和访问这些人类矫形数据源提供了一种有用的方法。
致谢
非常感谢HGNC团队的其他成员,特别是Sue Povey教授和Fabrice Ducluzeau教授。这项工作由威康信托基金资助,作为HUMOT项目的一部分。HGNC还得到NHGRI拨款P41 HG003345和英国医学研究委员会的支持。
工具书类
, , , . Entrez Gene:NCBI以基因为中心的信息
, 核酸研究
, 2005
,卷。 33
(第D54型
-8
) , , 等HUGO基因命名数据库,2006年更新
, 核酸研究
, 2004
,卷。 34
(第D319号
-21
) , , ,等人小鼠基因组数据库(MGD):更新和增强
, 核酸研究
, 2006
,卷。 34
(第D562型
-7
) , , . NCBI参考序列(RefSeq):基因组、转录物和蛋白质的精选非冗余序列数据库
, 核酸研究
, 2005
,卷。 33
(第D501型
-4
) , . 系统发育基因簇资源:系统发育推断群(PhIGs)数据库
, BMC生物信息学
, 2006
,卷。 7
第页。 201
, , 等国家生物技术信息中心的数据库资源
, 核酸研究
, 2006
,卷。 34
(第D173型
-80
) , , 等恩森布尔2006
, 核酸研究
, 2006
,卷。 34
(第D556型
-61
) , , . 来自两两物种比较的直系木和室内样品的自动聚类
, 分子生物学杂志
, 2001
,卷。 314
(第1041
-52
) , , . Inparanoid:真核生物直向同源物的综合数据库
, 核酸研究
, 2005
,卷。 33
(第D476号
-80
) , . 人类和同源基因命名法
, 基因
, 2006
,卷。 369
(第1
-6
) , , 等小鼠基因组数据库(MGD):从基因到小鼠——小鼠生物学的社区资源
, 核酸研究
, 2005
,卷。 33
(第D471号
-5
) , , 等HCOP:HGNC正形预测比较搜索工具
, 哺乳动物基因组
, 2005
,卷。 16
(第827
-8
) , , . 人源蛋白特异性PRAME基因的复制和阳性选择
, BMC基因组学
, 2005
,卷。 6
(第120
-39
)
©作者2006。牛津大学出版社出版。有关权限,请发送电子邮件至:journals.permissions@oxfordjournals/org