摘要

国际敲除小鼠联合会(IKMC)旨在通过基因靶向和小鼠胚胎干细胞(ES)中的基因捕获相结合,使小鼠中的所有蛋白编码基因发生突变,并使产生的资源随时可供研究界使用。IKMC数据库和门户网站(网址:www.knockoutmouse.org)作为IKMC数据的中央公共网站,有助于协调和优先处理联合体内的工作。研究人员可以获取有关IKMC敲除载体、ES细胞和小鼠的特定基因的最新信息,并通过链接访问相应的存储库,从中可以订购相应的IKMC产品。研究人员还可以使用该网站指定靶向基因,或者表明靶向基因应该得到高度重视。IKMC数据库向其他社区数据库提供数据,并具有与其他社区数据库的广泛互连功能。

简介

小鼠是生物医学研究中的首要动物模型,因为它与人类关系密切,并且易于进行详细的遗传、分子和表型分析。随着小鼠基因组序列的可用性,人们提出了系统地突变ES细胞中所有小鼠蛋白编码基因的建议,从而以高时间和高成本效益的方式为未来生物医学研究创造宝贵的基因突变资源(12). 作为回应,启动了三个主要的小鼠淘汰项目:由美国国立卫生研究院资助的KOMP(淘汰小鼠项目);由欧洲委员会(EC)资助的EUCOMM(EUropean Conditional Mouse Mutagenesis Program)和由加拿大基因组公司资助的NorCOMM(NorCOMM)。这三个项目组成了国际敲除老鼠联盟()第四个小组,德克萨斯基因组医学研究所(TIGM),很快加入了这项大规模的合作努力(4).

IKMC门户网站(网址:www.knockoutmouse.org)由国家卫生研究院资助的KOMP-DCC(KOMP-Data Coordination Center)项目和欧盟资助的I-DCC(International-Data协调中心)项目共同开发和维护。它是所有IKMC数据和资源的官方和中央入口点。IKMC门户网站和数据库的主要目标是(i)提供基础设施,以选择和优先考虑IKMC生产中心的靶向基因,(ii)促进工作协调和跟踪IKMC内的进展,以及(iii)使研究界能够随时访问所有数据,以及分发IKMC产品的存储库的链接。KOMP库正在分发KOMP靶向载体、ES细胞和小鼠(网址:www.komp.org); 欧洲小鼠突变细胞库的EUCOMM载体和ES细胞系(网址:www.eummcr.org); 欧洲小鼠突变体档案(EMMA)的EUCOMM小鼠(5); 多伦多表型基因组学中心的NorCOMM靶向载体、ES细胞和小鼠(www.phenogenomics.ca网站)和TIGM基因捕捉来自TIGM的ES细胞和小鼠(6).

IKMC数据库

统一和注释的主基因列表

基因靶向载体的设计需要详细了解基因模型,即基因的内含子/外显子结构。虽然在许多情况下,存在来自不同基因组注释管道的基因预测的一对一映射(Ensembl、Vega、NCBI)(7–9),也有大量基因的基因模型不一致。有些基因只能由一种资源或基因组区域预测,其中一个管道预测一种和另一种基因模型。因此,IKMC工作的比较、协调和整合需要一个统一的小鼠基因和基因模型目录(图1). MGI保存了参考小鼠基因组的基因组特征目录,该目录结合了Ensembl、哈瓦那和NCBI的基因组注释(10). 冲突注释的解决是通过MGI、哈瓦那、Ensembl和NCBI基因组注释和管理团队成员之间的密切持续合作完成的。IKMC数据库利用并促进了这项工作。IKMC基因列表每天与MGI基因目录同步,从而为协调和集成查询功能提供了基础。然后,用来自各种外部资源的信息对统一主列表上的基因进行注释,这些信息有助于协调和优先处理IKMC项目内部和之间的工作。注释包括,例如,属于CCDS(一致性编码序列集)的基因(11)因此具有高可信的基因模型,具有OMIM中疾病条目的人类同源基因(12),IGTC(国际基因陷阱联盟)捕获的基因(13)或通过TIGM,MGI中报告突变的基因,以及通过国际小鼠菌株资源(IMSR)可获得突变ES细胞或小鼠的基因(14).

进入IKMC数据库的信息流示意图。IKMC数据库和门户网站有助于IKMC参与者之间的基因选择、优先排序和协调(紫色阴影)。数据每天更新。IKMC的主基因列表通过与MGI数据库中表示的基因同步来维护。MGI非冗余小鼠基因目录是通过比较和统一来自Ensembl、Vega和NCBI(蓝色阴影)的基因组注释建立的。然后,IKMC数据库中的基因记录将使用来自许多资源的附加信息进行注释,包括MGI、NCBI(CCDS)、IMSR、IGTC和IKMC生产中心和存储库。
图1。

进入IKMC数据库的信息流示意图。IKMC数据库和门户网站有助于IKMC参与者之间的基因选择、优先排序和协调(紫色阴影)。数据每天更新。IKMC的主基因列表通过与MGI数据库中表示的基因同步来维护。MGI非冗余小鼠基因目录是通过比较和统一来自Ensembl、Vega和NCBI(蓝色阴影)的基因组注释建立的。然后,IKMC数据库中的基因记录将使用来自许多资源的附加信息进行注释,包括MGI、NCBI(CCDS)、IMSR、IGTC和IKMC生产中心和存储库。

基于所有注释标准,向IKMC项目负责人提供计算实用程序,以促进基因的协调选择,并将靶向项目分配给特定的KOMP、EUCOMM和NorCOMM生产中心。IKMC数据库跟踪每个生产管道中每个基因的基因分配、靶向项目及其状态,以及IKMC存储库中的产品可用性。所有这些信息以及与外部资源的相关链接每天都会更新,并通过公共IKMC web界面随时可用(见下文)。

靶向载体和突变等位基因信息

IKMC靶向库是IKMC数据库的一个组件,它存储了可用产品的目录和IKMC程序生成的突变等位基因的核苷酸级描述。项目参与者直接在内部网站上提交数据,网址为www.knockoutmouse.org/targ_rep网站,或以编程方式将数据批量上传到存储库中。对于输入目录的每个靶向载体和ES细胞克隆,储存库存储并呈现注释的突变等位基因序列、靶向载体和突变等位基因的可下载图像,以及由配送中心和小鼠生产设施对突变ES细胞进行的任何QC。突变等位基因序列旨在帮助研究人员设计自己的实验,并验证他们收到的IKMC产品。图像的质量可以用于出版物,ES细胞克隆的质量控制信息清楚地表明对克隆进行了哪些分析,从而明确了最终用户的尽职调查水平。

无论敲除程序如何,所有IKMC突变体的突变等位基因信息都以“相同”的统一格式存储和呈现。信息在三个地方公开:IKMC门户网站的“详细信息”部分(见下文),等位基因页面(图4)以及任何客户端的DAS-Track,包括Ensembl基因组浏览器。

IKMC门户网站:访问IKMC数据和资源

IKMC网站(网址:www.knockoutmouse.org)是IKMC数据和资源的中心入口点。该门户提供了关于每个联合体成员以及IKMC等位基因类型和靶向策略的一般信息。主页提供了一个表格,总结了当前进度和可下载的数据报告。截至2010年8月,IKMC倡议的状态如所示图2最重要的是,该网站具有搜索和浏览功能,使研究人员能够确定他们感兴趣的基因是否被IKMC锁定,以及这些项目的当前状态。用户可以方便地查找相应靶向载体和突变等位基因的详细分子结构,以及可订购哪些靶向载体、ES细胞或小鼠。

截至2010年8月,IKMC工作进展总结。迄今为止,IKMC已经产生了14 737个蛋白编码基因的突变ES细胞系。该表显示了靶向载体、突变ES细胞和突变小鼠准备分发的基因数量。
图2。

截至2010年8月,IKMC工作进展总结。迄今为止,IKMC已经产生了14 737个蛋白编码基因的突变ES细胞系。该表显示了靶向载体、突变ES细胞和突变小鼠准备分发的基因数量。

查询返回表格摘要,其中列出了与查询匹配的每个基因的一条记录(图3). 每个记录都包含IKMC基因敲除尝试的高级摘要,指示哪些程序正在处理该基因,以及每个程序最高级的靶向努力的状态,并提供更多详细信息的链接。还提供了靶向载体、突变ES细胞和小鼠的可用性,以及分发相应IKMC产品的存储库的链接。此外,查询摘要列出了其他资源(IMSR、IGTC和MGI),这些资源报告了感兴趣基因的其他突变ES细胞或小鼠,以及相应站点上相应条目的数量和链接。

 查询摘要和详细信息页面。查询摘要(顶部)显示与查询匹配的每个基因的一条记录。人们可以通过基因符号、各种基因ID和基因组坐标进行查询。同义词匹配也会返回,匹配的原因在基因列中指明。基因列显示官方基因符号,链接到MGI的相应基因页面。提供了到基因组浏览器和其他外部站点的基因特异性链接。通过关注“表达兴趣”链接,研究人员可以为靶向实验提供基因选择和优先顺序方面的投入。IKMC Knockout Attempts列列出了所有对该基因起作用的IKMC程序。显示了每个计划的最高级目标定位工作的状态,并带有指向更多详细信息的链接。IKMC产品的可用性通过指向相应IKMC存储库的订单链接指示。其他资源栏显示了IMSR、IGTC和MGI报告的突变ES细胞和小鼠的数量,并链接到这些站点的相应条目。详细信息页面(底部)列出了给定基因的所有IKMC敲除尝试。首先显示最高级的项目。可用的产品由相应存储库的订单链接指示。点击“Allele Details”链接(项目状态栏右侧)打开一个图形显示,显示项目生成的突变等位基因的特征。“查看此项目”链接可提供更全面的靶向载体和突变等位基因信息(图4)。
图3。

查询摘要和详细信息页面。查询摘要(顶部)显示与查询匹配的每个基因的一条记录。人们可以通过基因符号、各种基因ID和基因组坐标进行查询。同义词匹配也会返回,匹配的原因在基因列中指明。基因列显示官方基因符号,链接到MGI的相应基因页面。提供了到基因组浏览器和其他外部站点的基因特定链接。通过“表达兴趣”链接,研究人员可以为靶向实验的基因选择和优先排序提供输入。IKMC Knockout Attempts列列出了所有对该基因起作用的IKMC程序。显示了每个计划的最高级目标定位工作的状态,并带有指向更多详细信息的链接。IKMC产品的可用性通过指向相应IKMC存储库的订单链接指示。其他资源栏显示了IMSR、IGTC和MGI报告的突变ES细胞和小鼠的数量,并链接到这些站点的相应条目。详细信息页面(底部)列出了给定基因的所有IKMC敲除尝试。首先显示最高级的项目。可用产品通过指向相应存储库的订单链接指示。点击“Allele Details”链接(项目状态栏右侧)打开一个图形显示,显示项目生成的突变等位基因的特征。“查看此项目”链接可提供更全面的靶向载体和突变等位基因信息(图4).

“详细信息”页面(图3)列出了所有IKMC对感兴趣基因的敲除尝试。可以使用不同的靶向策略来突变基因,从而产生多个靶向项目。将显示每个项目的生产管道状态,并通过指向相应存储库的订单链接指示产品的可用性。一旦为特定项目建立了靶向载体,也会提供详细载体和突变等位基因信息的链接。这些等位基因页面(目前可用于KOMP和EUCOMM;不久将添加NorCOMM)说明了靶向载体的分子特征,并描述了ES细胞在序列水平上的突变(图4). 因此,研究人员可以在订购特定IKMC产品之前确定靶向载体和突变ES细胞和小鼠的确切性质。

 屏幕截图显示了IKMC网站上提供的详细靶向载体和等位基因信息。所示的例子是条件就绪/敲除第一等位基因(3,20)。显示了靶向载体的显著分子特征和ES细胞中产生的突变等位基因,包括同源臂、FRT和loxP位点以及用于质量控制的引物的位置。集合外显子ID链接到基因组坐标信息。GenBank文件的链接提供了序列水平上的靶向载体和突变等位基因信息。
图4。

显示IKMC网站上提供的详细靶向载体和等位基因信息的屏幕截图。所示的例子是条件就绪/敲除第一个等位基因(20). 显示了靶向载体的显著分子特征和ES细胞中产生的突变等位基因,包括同源臂、FRT和loxP位点以及用于质量控制的引物的位置。集合外显子ID链接到基因组坐标信息。GenBank文件的链接提供了序列水平的靶向载体和突变等位基因信息。

基因选择的社区输入

鼓励研究人员提名靶向基因,或要求对特定基因给予高度优先权。这可以通过使用每个IKMC门户网站页面导航栏上的“提名基因”实用程序,并单击单个基因记录中显示的“提名”或“表达兴趣”链接来完成。截至2010年8月4日,已收到科学界对1188个基因的1377项提名。

向其他社区资源导出IKMC数据

IKMC数据库向UCSC提供突变等位基因信息的定期更新GFF文件(15)和MGI基因组浏览器,用于显示IKMC等位基因轨迹。此外,目标存储库还为任何感兴趣的客户端(尤其是Ensembl web浏览器)提供DAS跟踪服务(通过Wellcome Trust Sanger Institute DAS服务器)。UCSC、MGI和ENSEMBL基因组浏览器上的等位基因轨迹采用彩色编码,以指示每个目标项目的状态,并链接回IKMC门户网站上的更多信息。IKMC等位基因信息在MGI中注册,并与MGI合作建立官方等位基因ID和命名。官方等位基因ID为来自IKMC靶向ES细胞和小鼠研究的生物数据提供了重要的整合点。可从IKMC门户网站下载所有KOMP和EUCOMM靶向等位基因的报告(http://www.knockoutmouse.org/download)和MGI的ftp站点(ftp://ftp.informatics.jax.org/pub/reports/index.html#pheo).

用户支持

IKMC门户网站通过在线文档和专门的用户支持人员为用户提供支持。可以通过导航栏中的常见问题链接和单击网页上显示的问号来访问联机文档。可以使用导航栏中的“Contact IKMC”实用程序联系我们的用户支持人员。

未来发展

IKMC数据库和网站将继续发展。我们将继续扩展和增强载体和突变等位基因信息的表示。目前,该信息可用于EUCOMM和KOMP程序中的目标变种,其格式结合了图形视图和序列特征文件。包括来自NorCOMM的目标等位基因信息,并在其基因组背景中添加突变等位基因的图形表示,是重要的未决任务。我们还正在完成其他大规模靶向项目的靶向等位基因信息存储,如桑格研究所microRNA敲除项目(MirKO)和EUTRACC联盟产生的表位标记等位基因(网址:www.eutracc.eu). 我们的目的是扩大靶向库,以包括大规模项目产生的小鼠中所有未来可公开获得的靶向等位基因。

通过TIGM、EUCOMM和NorCOMM程序对IKMC基因陷阱等位基因进行表征,以及在dbGSS库中保存序列标签的其他基因陷阱,现在以基因陷阱数据库的形式接近完成。基因陷阱等位基因的特征使用改良的Unitrap(16)序列标记映射和聚类算法。这些基因陷阱等位基因的定义不仅通过将多个基因陷阱浓缩为表达相同融合转录物的簇来简化基因陷阱数据的表示,但也允许我们使用已经为靶向突变开发的相同方法提供突变等位基因序列和图形。完成后,基因陷阱数据库将构成IKMC数据库的另一个组件,其等位基因信息将由IKMC门户网站与目标突变信息一起提供。

我们当前和未来工作的一个特别令人兴奋的方面是,通过使用BioMart技术,将IKMC靶向等位基因与其他来源的额外生物信息整合在一起(17). 在IKMC网站的“原型”选项卡上可以找到BioMart门户原型(www.knockoutmouse.org/martsearch网站). 目前,该门户将有关IKMC小鼠敲除资源的信息与许多其他相关数据集相结合,包括来自MGI和Ensembl的基因信息、来自EurExpress的基因表达数据(网址:www.eurexpress.org),Europhenome的表型数据(18)和EMMA中的鼠标分布信息。开发GXD基因表达信息的BioMarts的工作正在进行中(19),生物化学途径和人类疾病的关联。通过BioMart接口的数据表示、集成和查询功能将得到完善,并将添加来自其他资源的数据。该功能将进一步增强IKMC数据的效用,并有助于实现IKMC资源在未来生物医学研究中的巨大潜力。

技术信息

IKMC数据库在PostgreSQL 8.3.7版中实现。使用Hibernate用Python和Java编写软件,将IKMC基因列表与MGI基因目录、加载注释和加载管道状态重新同步。网站静态内容是使用Drupal提供的,Drupal是一个开源内容管理平台,动态搜索功能是使用PHP和Apache Solr/Lucene索引实现的。每天从PostgreSQL数据库刷新索引。

目标存储库(http://www.knockoutmouse/targ_rep)是使用Ruby on Rails应用程序框架用Ruby编写的,带有MySQL数据库后端。原型BioMart门户(位于http://www.knockoutmouse.org/martsearch网站)是使用Sinatra应用程序框架用Ruby编写的,搜索引擎组件由Apache Solr和各个BioMarts提供支持。

基金

欧洲委员会:项目编号223592;国家卫生研究院、国家人类基因组研究所:批准号HG004074。开放获取费用的资金:欧洲委员会:项目编号223592;国家卫生研究院拨款HG004074。

利益冲突声明。未声明。

致谢

我们要感谢来自不同IKMC项目的所有同事,感谢他们为IKMC门户网站项目提供了他们的数据,并感谢他们的合作和富有成效的互动。特别感谢Infejinelo Onyiah对绘制矢量和等位基因图像的代码所做的贡献。我们要感谢IKMC指导委员会成员和IKMC项目顾问为IKMC门户网站的开发提供了宝贵的意见和反馈。最后,我们要感谢UCSC和Ensembl在其基因组浏览器上显示IKMC等位基因轨迹,以及为IKMC门户网站提供数据的所有外部资源。

参考文献

1
奥斯丁
人物配对关系
电池
JF公司
布拉德利
一个
布坎
M(M)
卡佩基
M(M)
柯林斯
可行性研究
鸽子
WF公司
迪克
G公司
迪梅基
S公司
Eppig公司
JT公司
淘汰鼠标项目
自然遗传学。
2004
,卷。 
36
(第
921
-
924
)
2
奥韦克斯
J型
阿夫纳
P(P)
牛蒡
R(右)
巴拉比奥
一个
打球
R(右)
巴瓦西德
M(M)
伯尔尼
一个
布拉德利
一个
棕色
S公司
卡莫利特
P(P)
小鼠基因组诱变计划的欧洲维度
自然遗传学。
2004
,卷。 
36
(第
925
-
927
)
国际老鼠淘汰联合会;柯林斯
可行性研究
罗桑
J型
香肠
W公司
一只老鼠
单元格
2007
,卷。 
128
(第
9
-
13
)
4
柯林斯
可行性研究
芬内尔
右侧
罗桑
J型
香肠
W公司
国际敲除鼠协会的新合作伙伴
单元格
2007
,卷。 
129
第页。 
235
 
5
威尔金森
P(P)
森格洛娃
J型
马泰尼
R(右)
CK公司
苏拉
G公司
尿素-Vid
一个
费塞尔
S公司
哈根
M(M)
马西米
M(M)
皮克福德
K(K)
EMMA–国际科学界的小鼠突变资源
核酸研究。
2010
,卷。 
38
(第
D570型
-
D576型
)
6
汉森
总经理
马克西奇
直流
伯内特
MB(MB)
迪翁
公里
里希特
LJ公司
芬内尔
右侧
沙子
自动变速箱
赞布罗维茨
英国石油公司
阿布因
一个
C57BL/6N小鼠胚胎干细胞的大规模基因捕获
基因组研究。
2008
,卷。 
18
(第
1670
-
1679
)
7
哈伯德
TJ公司
阿肯
BL公司
艾琳
S公司
球鞋
B类
比尔
K(K)
布拉金
E类
布伦特
S公司
Y(Y)
克拉彭
P(P)
克拉克
L(左)
合奏2009
核酸研究。
2009
,卷。 
37
(第
D690型
-
D697型
)
8
威尔明
LG公司
吉尔伯特
JG公司
K(K)
特雷瓦尼翁
S公司
哈伯德
T型
哈罗
JL公司
脊椎动物基因组注释(织女星)数据库
核酸研究。
2008
,卷。 
36
(第
D753号
-
D760型
)
9
赛耶斯
电子战
巴雷特
T型
本森
陆军部
布莱恩特
上海
卡内塞
K(K)
切特弗宁
V(V)
教堂
DM公司
迪库乔
M(M)
埃德加
R(右)
费德亨
S公司
国家生物技术信息中心的数据库资源
核酸研究。
2009
,卷。 
37
(第
D5型
-
第15天
)
10
Bult(灯泡)
希杰
卡丁
青年成就组织
理查森
JE公司
布莱克
青年成就组织
Eppig公司
JT公司
小鼠基因组数据库组
小鼠基因组数据库:增强和更新
核酸研究。
2010
,卷。 
38
(第
D586型
-
D592型
)
11
普鲁特
杜兰特
哈罗
J型
哈特
无线电高度表
沃林
C类
迪坎
M(M)
马格洛特
博士
塞尔
S公司
法雷尔
厘米
洛夫兰
JE公司
吕夫
BJ公司
共识编码序列(CCDS)项目:确定人类和小鼠基因组的共同蛋白质编码基因集
基因组研究。
2009
,卷。 
19
(第
1316
-
1323
)
12
Amberger公司
J型
博基尼
加利福尼亚州
斯科特
空军
哈马斯
一个
麦库西克的人类孟德尔在线遗传(OMIM)
核酸研究。
2009
,卷。 
37
(第
D793号
-
第796页
)
13
北欧
AS公司
PJ公司
康克林
BR
考克斯
成人影片
哈珀
加利福尼亚州
希克斯
GG公司
科科斯群岛
约翰
SJ公司
川本
M(M)
线路接口单元
S公司
国际基因陷阱联盟网站:所有公开的小鼠基因陷阱细胞系的门户
核酸研究。
2006
,卷。 
34
(第
D642号
-
D648型
)
14
Eppig公司
JT公司
条纹
M(M)
寻找老鼠:国际老鼠菌株资源(IMSR)
趋势Genet。
1999
,卷。 
15
(第
81
-
82
)
15
瑞德
B类
卡鲁契克
D类
库恩
马来西亚令吉
韩礼士
AS公司
茨威格
AS公司
葛田
PA公司
迪坎
M(M)
史密斯
韩国
罗圣朋
韩国
雷尼
BJ公司
UCSC基因组浏览器数据库:更新2010
核酸研究。
2010
,卷。 
38
(第
D613型
-
D619号
)
16
罗马
G公司
萨尔迪耶洛
M(M)
科贝利斯
G公司
克鲁兹
P(P)
拉戈
G公司
桑格斯
R(右)
斯塔普卡
E类
UniTrap资源:生物学家优化使用基因陷阱克隆的工具
核酸研究。
2008
,卷。 
36
(第
D741型
-
746
)
17
史沫特莱
D类
海德尔
S公司
球鞋
B类
荷兰
R(右)
伦敦
D类
托里森
G公司
卡斯普日克
一个
BioMart–简化生物查询
BMC基因组学
2009
,卷。 
10
第页。 
22
 
18
摩根
H(H)
贝克
T型
布莱克
一个
盖茨
H(H)
亚当斯
N个
德布齐
G公司
勒布朗
S公司
伦格
C类
迈尔
H(H)
梅尔文
D类
EuroPhenome:高通量小鼠表型数据存储库
核酸研究。
2010
,卷。 
38
(第
D577型
-
585
)
19
史密斯
厘米
手指
金华
哈亚米祖
TF公司
麦克里特
IJ公司
Eppig公司
JT公司
卡丁
青年成就组织
理查森
JE公司
林瓦尔德
M(M)
小鼠基因表达数据库(GXD):2007年更新
核酸研究。
2007
,卷。 
35
(第
D618型
-
623
)
20
泰斯塔
G公司
沙夫特
J型
主席范德胡芬
F类
玻璃工
S公司
阿纳斯塔西亚迪斯
K(K)
Y(Y)
赫尔曼
T型
施特雷梅尔
W公司
斯图尔特
空军
一种可靠的多功能敲除第一等位基因lacZ表达报告盒
起源
2004
,卷。 
38
(第
151
-
158
)
这是一篇根据知识共享署名非商业许可条款分发的开放获取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看进一步的通知。