摘要

HUGO基因命名委员会(HGNC)旨在为每个人类基因提供一个独特且理想意义上的名称和符号。HGNC数据库(以前称为Genew)包含超过22000份公共记录,其中包含经批准的人类基因命名法和相关信息。该数据库在过去一年中经历了重大改进,可在以下网址公开在线搜索:http://www.gene.ucl.ac.uk/cgi-bin/命名/搜索基因.pl并有一个新的自定义下载界面http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/gdlw.pl.

概述

HUGO基因命名委员会(HGNC)维护着一个独特且经批准的人类基因名称和符号数据库(1). 目前估计编码人类基因的蛋白质总数为20000-25000(2,),其中超过18000个已被指定为HGNC批准的术语。我们还将命名法用于其他特定特征,如脆弱位点和通过连锁推断的疾病位点。该命名法是手工编制的,代表黄金标准,适用于讨论或引用特定基因的所有出版物和数据库。

HGNC数据可以通过两种主要方式访问。首先,对于特定的在线搜索,HGNC数据库搜索引擎Searchgenes位于http://www.gene.ucl.ac.uk/cgi-bin/命名/搜索基因.pl具有简单和高级搜索选项。其次,可以进行自定义下载,允许用户使用我们的自定义下载脚本以自己喜欢的格式下载大量数据(http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/gdlw.pl).

HGNC数据库从Microsoft Access迁移到PostgreSQL(网址:http://www.postgresql.org/)2005年3月底。这一变化不仅意味着数据库编辑器更容易管理,大大改进了质量控制检查,还提高了编辑器和用户的搜索速度和灵活性。此外,现在公众可以自定义下载,从而可以检索精确的基因集和有关这些基因的数据。

自2004年以来的改进

重命名数据库

以前,HGNC数据库被称为Genew(1); 然而,在2005年3月从Microsoft Access更改为PostgreSQL后,决定将其更改为易于识别的“HGNC数据库”名称。Genew一词鲜为人知,这一举措似乎更符合我们分配独特而有意义的命名法的政策。HGNC识别号是与HGNC数据库中每个基因记录相关的唯一标识符,现在应使用HGNC:前缀引用。所有显示HGNC数据的主要基因组数据库,包括Entrez Gene,都采用了这种语法(4)、合奏(5)和基因卡(6).

数据库编辑

HGNC数据库在PostgreSQL 8.03版中实现。它由28个表组成,共包含50多万条记录。该数据库现在集成了独立研究人员和更大规模项目(如人类基因组测序协会)提交给HGNC的公开和机密数据。这包括我们定制的BLAST服务器的结果,使20万序列可搜索并与HGNC基因记录相互关联。

质量控制检查用于对输入的数据实施格式并检查其完整性,现在可以在不同级别上执行。首先,当编辑器试图保存修改后的记录时,数据库会检查无效格式或缺少所需数据。其次,脚本用于在发布之前检查包含新批准术语的错误记录。如果发现错误,该记录将被阻止发布到公共领域,并自动通知负责的编辑。第三,定期监测所有数据,并在质量控制网页上列出任何不一致之处。

HGNC编辑器现在可以在使用SSL加密的安全服务器上使用基于web的编辑工具远程管理数据库。所有事务都被记录下来,提供审计跟踪,SQL触发器现在用于自动向基因记录添加某些详细信息,例如记录编辑器的名称和进行修改的日期。

在线改进

HGNC数据库前端和编辑器基于web并用Perl编写。Template perl模块用于快速生成复杂的数据编辑和查看表单,其中包含来自简单重复单元的多个基因记录。此外,可以快速生成特殊用途表格,以支持HGNC数据的新项目或新应用。

使用Macromedia Dreamweaver MX2004开发的新网站模板,Searchgenes和Symbol Report Form结果格式都有了新的外观。现在很容易通过HGNC ID或批准的符号链接到特定的符号报告表,使用URL,例如http://www.gene.ucl.ac.uk/nomenclature/data/get_data.php?hgnc_id=hgnc:29http://www.gene.ucl.ac.uk/nomenclature/data/get_data.php?app_sym=ABCA1.

通过HGNC ID进行连接是优选的,并且从长远来看更可靠,因为HGNC ID对于任何给定的基因都是恒定的,而批准的符号可能会改变。当一个条目被合并到另一个条目中时,合并的条目在数据库中保持“符号撤回”状态,撤回的文本被添加到符号中,基因名称被替换为表示其已合并到的条目的文本。在极少数情况下,拆分条目时,原始HGNC ID仍与最合适的条目相关联。

自定义数据下载-基本使用

HGNC数据的预定义下载现在可从我们的自定义下载页面获得(http://www.gene.ucl.ac.uk/nomenclature/data/gdlw_index.html)纯文本和HTML格式。以前可用的静态文件下载已被淘汰,新系统已被证明更加方便和灵活,并包括改进的文档。有多种数据可用,包括批准的基因符号和名称、文献和数据库别名、染色体位置、序列登录号和基因家族名称(如适用)。链接到其他数据库中的相关条目,如Ensembl(5),杰纳特拉斯(7),基因卡(6),基因诊所/基因测试(8),IMGT(9),Entrez基因(4)、MGD(10),公共医学(11)、OMIM(11),参考序列(11),瑞士-普罗特(12),加州大学旧金山分校(13)和织女星(14)还提供了。

自定义下载页面的一个特别重要的功能是,结果是动态生成的,以便用户每次返回到保存的URL时,结果都是最新的。但是,URL还对数据的格式进行编码,以便在数据库开发和添加新字段时保留该格式。

自定义数据下载-高级使用

更高级的用户可以直接使用脚本(http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/gdlw.pl)使用简单的SQL“WHERE”子句选择HGNC数据的自定义视图。这使得能够显示特定基因组的数据。返回的数据也可能受到染色体的限制。有关此功能的文档,请访问http://www.gene.ucl.ac.uk/nomenclature/data/gdlw_patmatch.html.

用户可以指定其搜索的输出格式。“HTML”选项将提供一个简单的HTML结果表,其中包含指向HGNC基因符号报告以及外部数据库中有限的一组相关条目的超链接。“基因报告表”格式生成一系列表,每个表包含具有更多链接的单个基因的数据。“文本”输出格式对于将数据下载到制表符分隔的文件中特别有用,该文件可以进一步处理、注入其他数据库或在电子表格程序中查看。使用WHERE字段时,一个有价值的调试选项是“Show SQL”输出选项,它显示SQL查询而不执行它。

用户可以使用“PHP代码”输出选项生成嵌入到PHP文档中的代码,从而在自己的网页中直接包含特定的数据表(网址:http://www.php.net/). 此技术用于生成动态更新的基因家族报告页面(例如。http://www.gene.ucl.ac.uk/nomenclature/genefamily/abc.php). 最后,“Perl Code”格式生成一段代码,该代码使用LWP::Simple模块下载搜索中指定的数据。此选项有助于自动下载HGNC数据。同样,结果的格式由代码指定,即使在修改数据库结构时也会保持。

HGNC数据库的使用

2005年1月1日至6月30日期间,HGNC自定义下载脚本的点击量为506000次,平均每天2800次(不包括HGNC员工和主要网络爬虫的查询)。同期,Searchgenes被查询了29万次。

几乎所有(99%)的自定义下载用户都使用WHERE子句功能,而不是下载整个数据集。其中41%的人选择了纯文本输出,59%的人请求了基因报告输出,这表明下载脚本经常被用作应用程序接口(API),以向外部应用程序提供特定的HGNC数据子集。与此一致,最流行的搜索是由HGNC ID指定的单个记录(78%)或批准的符号(18%)。

可以使用关键字为“LIKE”或“ILIKE”的不精确查询词或关键字为“IN”的不准确查询词返回多个基因记录,以标识与查询列表匹配的记录。只有不到1%的搜索使用了这些不精确的术语,这再次表明使用下载脚本作为API。需要指出的是,这些不精确的查询对于同时下载、查看或链接到一组感兴趣的记录(例如属于特定基因组的记录)很有价值。

未来发展方向

在不久的将来,HGNC网站将提供一个在线表单,用于直接向数据库提交序列,以简化数据流。此外,Searchgenes将被改进的搜索工具、新字段(如名称别名)和其他字段(如位点类型)取代,这些字段目前仅在可下载的数据集中可用。

结论

这里描述的开发提供了急需的自动化,并为数据库灵活性和敏捷性的持续改进开辟了道路。因此,HGNC数据库现在更能满足编辑和社区的需求。

引用

请作者以以下格式引用本文和数据库:“HGNC数据库,HUGO基因命名委员会(HGNC),伦敦大学学院生物系,沃尔夫森学院,4 Stephenson Way,London NW1 2HE,UK(URL:http://www.gene.ucl.ac.uk/cgi-bin/nomenclature/searchgenes.pl)’. [包括您检索引用数据的月份和年份。]

非常感谢HGNC编辑Varsha Khodiyar博士、Ruth Lovering博士、Kate Sneddon博士、Mathew Wright博士和Connie Talbot Jr博士,他们的准确策划和对细节的关注确保了基因记录的有效性。HGNC的工作得到了NHGRI拨款P41 HG003345、英国医学研究委员会和威康信托基金的支持。JISC提供资金支付本文的开放存取出版费用。

利益冲突声明。未声明。

参考文献

1

Wain,H.M.、Lush,M.J.、Ducluzeau,F.、Khodiyar,V.K.、Povey,S。

2004
基因:人类基因命名数据库,2004年更新
核酸研究
.
32
D255型
–D257

2

Larsson,T.P.、Murray,C.G.、Hill,T.、Fredriksson,R.、Schioth,H.B。

2005
比较当前RefSeq、Ensembl和EST数据库用于基因计数和基因发现
FEBS信函
.
579
690
–698

国际人类基因组测序协会。

2004
完成人类基因组的常染色序列
自然
431
931
–945

4

Maglott,D.、Ostell,J.、Pruitt,K.D.、Tatusova,T。

2005
Entrez Gene:NCBI以基因为中心的信息
核酸研究
.
33
D54型
–D58

5

Hubbard,T.,Andrews,D.,Caccamo,M.,Cameron,G.,Chen,Y.,Clamp,M.、Clarke,L.、Coates,G.、Cox,T.、Cunningham,F.等人。

2005
2005年合奏
核酸研究
.
33
D447号
–D453

6

Safran,M.、Chalifa-Caspi,V.、Shmueli,O.、Lapidot,M.,Rosen,N.、Shmoish,M.和Adato,A.、Peter,I.、Lancet,D。

2003
魏茨曼科学研究所的人类基因中心数据库:基因卡、UDB、CroW 21和HORDE
核酸研究
.
31
142
–146

7

J.弗雷扎尔。

1998
Genatlas数据库、基因和发育缺陷
C.R.学院。科学。
321
805
–817

8

Pagon,R.A.、Tarczy-Hornoch,P.、Baskin,P.K.、Edwards,J.E.、Covington,M.L.、Espeseth,M.、Beahler,C.、Bird,T.D.、Popovich,B.、Nesbitt,C.等人。

2002
GeneTests-GeneClinics:面向日益增长的受众的基因测试信息
哼,哑巴
.
19
501
–509

9

勒弗朗克,M.-P。

2003
IMGT,国际ImMunoGeneTics数据库
核酸研究
.
31
307
–310

10

Eppig,J.T.、Bult,C.J.、Kadin,J.A.、Richardson,J.E.、Blake,J.A.,Anagostopoulos,A.、Baldarelli,R.M.、Baya,M.、Beal,J.S.、Bello,S.M.等人。

2005
小鼠基因组数据库(MGD):从基因到小鼠——小鼠生物学的社区资源
核酸研究
.
33
D471号
–D475

11

Wheeler,D.L.,Barrett,T.,Benson,D.A.,Bryant,S.H.,Canese,K.,Church,D.M.,DiCuccio,M.,Edgar,R.,Federhen,S.,Helmberg,W.等人。

2005
国家生物技术信息中心的数据库资源
核酸研究
.
33
第39页
–D45

12

Boeckmann,B.,Bairoch,A.,Apweiler,R.,Blatter,M.-C.,Estreicher,A.,Gasteiger,E.,Martin,M.J.,Michoud,K.,O'Donovan,C.,Phan,I.等人。

2003
2003年SWISS-PROT蛋白质知识库及其补充TrEMBL
核酸研究
.
31
365
–370

13

Karolchik,D.、Baertsch,R.、Diekhans,M.、Furey,T.S.、Hinrichs,A.、Lu,Y.T.、Roskin,K.M.、Schwartz,M.,Sugnet,C.W.、Thomas,D.J.等人。

2003
UCSC基因组浏览器数据库
核酸研究
.
31
51
–54

14

Ashurst,J.L.,Chen,C.K.,Gilbert,J.G.R.,Jekosch,K.,Keenan,S.,Meidl,P.,Searle,S.M.,Stalker,J.,Storey,R.,Trevanion,S.等人。

2005
Vertabrate基因组注释(织女星)数据库
核酸研究
.
33
D459天
–465

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。