摘要
COSMIC公司(http://www.sanger.ac.uk/宇宙)收集关于人类癌症体细胞突变的全面信息。版本v48(2010年7月)描述了近542000个肿瘤样本中超过136000个编码突变;在记录的18490个基因中,4803个(26%)有一个或多个突变。对83个主要癌症基因和49个融合基因对(今年有19个新的癌症基因和30个新的融合基因对)进行了全面的科学文献收集,而且这个数字还在不断增加。其中的关键是TP53,现在可以通过与IARC p53数据库合作获得。除了来自英国桑格研究所癌症基因组项目(CGP)和癌症基因组图谱项目(TCGA)的数据外,现在还策划了大型系统屏幕。现在主要的网站升级使这些数据更容易挖掘,有了许多新的选择过滤器和图形。生物集市现在可以实现更自动化的数据挖掘,并与其他生物数据库集成。基因组特征注释已成为一个重要的焦点;COSMIC已经开始策划全基因组重测序实验,开发新的网页、导出格式和图形样式。随着所有基因组信息最近更新到GRCh37,COSMIC整合了许多不同类型的突变信息,并与Ensembl和其他数据资源建立了更紧密的联系。
简介
COSMIC旨在收集、管理、组织和展示世界上有关癌症体细胞突变的信息,并以各种有用的方式免费提供,最容易通过其网站访问(http://www.sanger.ac.uk/宇宙). 如前所述(1,2),COSMIC将从科学文献中手动收集的癌症突变数据与英国桑格研究所癌症基因组项目(CGP)的输出相结合。通过癌症基因普查选择基因进行全面文献收集(http://www.sanger.ac.uk/genetics/CGP/Census网站/)重点关注编码域中的小点突变突变,最近还包括基因融合突变。在全癌症基因组测序时代,现在可以描述肿瘤样本的全基因组体细胞突变内容,包括结构重排和非编码变体。COSMIC目前正在将这些信息集成到数据库中,为来自CGP实验室和最近出版物的样本提供完整的编码和基因组变体注释。
数据库内容
多年来,COSMIC数据库描述了许多癌症样本中关键癌症基因的体细胞突变,最近还包括了基因融合和结构重排注释。如前所述,系统的大部分基本功能都得到了维护(1,2),包括肿瘤表型的命名系统和突变的HGVS语法。在过去的一年中,COSMIC中针对19个新的癌症基因收集了完整的突变细节,总共有83个完全收集的最新癌症基因,其中大多数是点突变的;策划的融合基因对数量也翻了一番,达到49对。除此之外,为将大量外部资源和出版物纳入COSMIC所做的重大努力也提高了数据库的覆盖面。最重要的是,关键癌症基因TP53的突变谱现已包括在内;与IARC馆长合作(三),IARC p53数据库R14的大多数版本现在在COSMIC中可用。此外,TCGA大规模癌症表征项目的所有体细胞突变注释现在都包括在内(4)和许多重要的系统候选基因筛选出版物中的结果一样(5–7). 去年,COSMIC总共添加了47000多个编码突变注释,以及53000多个非编码突变。数据库的当前内容(v482010年7月)显示在表1.
表1。COSMIC数据库v48的总内容,2010年7月发布
Curated数据类型. | 固化数据计数. |
---|
实验 | 2 760 220 |
肿瘤 | 541 928 |
突变 | 136 326 |
工具书类 | 10 383 |
基因 | 18 490 |
保险丝 | 4946 |
结构变体 | 2307 |
整个癌症基因组 | 29 |
Curated数据类型. | 固化数据计数. |
---|
实验 | 2 760 220 |
肿瘤 | 541 928 |
突变 | 136 326 |
工具书类 | 10 383 |
基因 | 18 490 |
保险丝 | 4946 |
结构变体 | 2307 |
整个癌症基因组 | 29 |
表1。COSMIC数据库v48的总内容,2010年7月发布
Curated数据类型. | 固化数据计数. |
---|
实验 | 2 760 220 |
肿瘤 | 541 928 |
突变 | 136 326 |
工具书类 | 10 383 |
基因 | 18 490 |
保险丝 | 4946 |
结构变体 | 2307 |
整个癌症基因组 | 29 |
Curated数据类型. | 固化数据计数. |
---|
实验 | 2 760 220 |
肿瘤 | 541 928 |
突变 | 136 326 |
工具书类 | 10 383 |
基因 | 18 490 |
保险丝 | 4946 |
结构变体 | 2307 |
整个癌症基因组 | 29 |
随着COSMIC中基因组背景的增加,该系统已扩展到涵盖整个基因组中体细胞突变的完整注释,包括所有编码和非编码突变、结构重排和基因融合。CONAN系统中也存在链接(http://www.sanger.ac.uk/cgi-bin/genetics/CGP/cghviewer/CghHome.cgi)用于拷贝号变量注释。最完整和最详细的基因组注释来自CGP实验室(8,9)但除此之外,大规模系统候选基因筛选的策划(5,6,7)和全基因组分析(10)从科学文献开始。现在,COSMIC中有20个肿瘤样本的全基因组注释。前26个样本,主要是乳腺癌肿瘤,代表低覆盖率配对扫描,以碱基对分辨率表征体细胞结构重排(11). 两个样本(恶性黑色素瘤和小细胞肺癌细胞系)进行了全基因组重测序,提供了更广泛的注释(8,9). 描述了点突变和小插入/缺失,数百个位于编码域,数千个位于内含子或基因间。包括结构变异和CNV,这些样本被总结在一个更复杂的电路图中,呈现出描述点突变类型和对任何编码域的影响的环(图1). 最后,马尔迪斯等. (10)描述单个AML样本的全基因组重测序(以及进一步队列的后续特征);这是第一次从文献中进行基因组分析。所有非编码变体和结构重排仅以GRCh37坐标来描述,而编码突变则以基因组来描述,以及它们影响的CDS和肽中的坐标。
![圆形图总结了细胞系NCI-H209的全部体细胞突变内容。同心环总结了不同类型突变的数据。从内到外,核心显示结构重组;染色体内为绿色,染色体间为紫色。下一个环显示了直方图形式的染色体拷贝数,内部的红色斑块表示LOH区域。此外,还显示了几个单碱基编码替换环(黑色瓷砖显示剪接位点突变、红色停止着色、紫色非同义和灰色同义变化)。内部深橙色和外部浅橙色直方图分别表示非编码突变、纯合子和杂合子突变的相对频率。在染色体指示剂前的最后一个环中,indels显示为绿色;浅绿色表示插入和深绿色缺失。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/39/suppl_1/10.1093_nar_gkq929/2/m_gkq929f1.jpeg?Expires=1721563224&Signature=Gy1LOW9Blh9MB7h~5HT9Pc4BUJza9ZrUZbDbA~isVoUu8F4CmXjBABn37-x8Si5GKCSiuXRcBsk7PFQdji~me~zS7FBU80GyauCsp1uvEroH~R0o2BoyrcpCFjRNSWwjhTWJ5vpPOMfSkFlEj0O2sPXgDRDWpMh5o3Xv0HmCB13z71JHmtuV162Ts0tgbp9Q0FJnoha3g~-~Qxi9afn9FrVKkxBqeaDfMwbEBXnp892J7KkywhOY-KP5L7AOazm4FIcKzB3phEBRMgRnWcqmRkV7p2Jcp2VzejI-vu0gIX1oT-yRQWjmtt1bblPz2BO8UlJlmYlIJdWXWbhykwVF8w__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图1。
圆形图总结了细胞系NCI-H209的全部体细胞突变内容。同心环总结了不同类型突变的数据。从内到外,核心显示结构重组;染色体内为绿色,染色体间为紫色。下一个环显示了直方图形式的染色体拷贝数,内部的红色斑块表示LOH区域。此外,还显示了几个单碱基编码替换环(黑色瓷砖显示剪接位点突变、红色停止着色、紫色非同义和灰色同义变化)。内部深橙色和外部浅橙色直方图分别表示非编码突变、纯合子和杂合子突变的相对频率。在染色体指示剂前的最后一个环中,indels显示为绿色;浅绿色表示插入,深绿色表示删除。
数据访问
COSMIC网站位于http://www.sanger.ac.uk/宇宙/。虽然保持了按基因和组织类型导航COSMIC数据库的能力,但它已经发展到更容易挖掘。基因直方图页面,以图形方式总结基因编码序列上的体细胞突变(例如。图2),仍然是大多数数据导航系统的核心。现在有多种方法可用于筛选数据,形成专门的查询。在每种情况下,都会重新生成图像,并针对所选的选项重新计算突变谱和组织特异性频率:(i)单击图形或输入CDS坐标,放大到所需的基因区域;(ii)点击初级组织类型提供选择特殊表型的方法;和(iii)在左侧导航栏中(左侧图2),可以使用更多的过滤器,包括根据突变类型(替换、删除等;错义、无义、移码等)、样本来源(细胞系、原发肿瘤)、躯体状态(突变是确认的躯体还是不可用的正常组织)的限制和系统筛选(这些结果是作为更大的全基因组候选基因筛选或基因组重测序研究的一部分产生的吗)。同时使用多个过滤器,可以建立一个非常具体的查询,重点关注基因/表型和数据内容的准确要求。通过扩展这个选择过程,我们已经开始以饼图的形式生成摘要图,饼图既概述了所选数据,又通过一键自动化选择过程将链接提供给子集。在柱状图页面上的“分布”按钮下最初有两个这样的摘要(图3):第一个提供了按突变类型分类的突变计数,第二个显示了按来源(细胞系、原发肿瘤或未知)分类的突变样本。在每种情况下,“更多详细信息”链接都提供了选项,可以使用指定的选择重新生成柱状图页面,或者以表格形式查看完整数据,以电子表格格式导出。除了在基因水平上进行突变谱分析外,COSMIC还开始在样本水平上进行谱分析。对于具有大量突变数据的样本,可以使用突变谱直方图(图4)显示样本编码突变的序列中的核苷酸交换频率摘要。这可以在样本概览页面上找到,其中多个选项卡便于检查每个样本的许多数据类型。
![TP53的基因直方图页面。直方图显示了基因CDS(x轴)上突变的相对频率(y轴)。在x轴刻度条下面是复杂的替换突变,然后是简单的删除(蓝色三角形)和插入(红色三角形)。在此项下,可以使用缩放选项。左侧显示了新的专门化过滤器,提供了许多查询选项。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/39/suppl_1/10.1093_nar_gkq929/2/m_gkq929f2.jpeg?Expires=1721563224&Signature=UPD8XyrsyoEHZRx~Ukikr3b4ARXw2PwNn4~AViIr75bVX1c5U~4W~YX91t6MbgiaL7cFlJe7yNkrwR4tNd9VX2NgX68NR8ogsvI4o~sgPgCac86hSggQwU7DzLiWcl4okaEYgYlQNiMkIFMqvyFSmsEdOncaNGLm2re9k20PKYVHED3FcYMuOe4WlQs~KlrAaPTstPZBXaW6H5vnawKM8cjr7OwB8oFxlrWtMUKwkSiEYwEPPteIrusKVdoubkxHSjjSsQK50Ihu-wlJmCO4sMahhJAgt~aGHI9e0CQJI~s1muPKS6XuN-a8dKLq0L78MXsY8Uf77heJLIaWeRvC2w__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图2。
TP53的基因直方图页面。直方图显示了突变的相对频率(年-轴)穿过基因的CDS(x个-轴)。下面是x个-轴刻度条是复杂的替换突变,其次是简单的删除(蓝色三角形)和插入(红色三角形)。在此项下,可以使用缩放选项。左侧显示了新的专门化过滤器,提供了许多查询选项。
![饼图(此处显示TP53基因)越来越多地用于COSMIC中复杂光谱数据的汇总。目前,有两人正在直播,还有更多人即将到场。上图(a)显示了所有观察到的突变类型的分解,下图(b)显示了突变样本的来源分解。总数量略有不同,因为一些样本有一个以上的突变,因此在(b)中计数一次,但在(a)中计数两次或更多。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/39/suppl_1/10.1093_nar_gkq929/2/m_gkq929f3.jpeg?Expires=1721563224&Signature=Dc1xYeUI-0TbwnNjvFIBb~weBhncas~Pd3u4Yl4iZNjnCFhMgh0qiSq834l5PIeIvPIO1ADiv7rnKOs3UX0qUIdPXSH1xldSo1TODSKFHg53kgCBgunA10odv7hGuYTci0aDuIENq~ovROq~k~IpdJr4e4Bha~0i5afvQaqM2qQFsuV-jvH4LsjY0BdK82VQU4q-m6JwayXMwkW07vltfkcAlQxaDcreCgRAzBuoNNwjsFHEnQboAcoPiGLkEDeyrjiezfwKXgTYrQi73R1hHKX9EANtrzaGYZ7ZpCpy30SKFggWQokCN6eEaUQA-GVBMgtFgX7EcMVkd0elgUwtlA__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图3。
饼图(此处显示TP53基因)越来越多地用于COSMIC中复杂光谱数据的汇总。目前有两个正在直播,还有更多即将播出。顶部图表(一)显示了所有观察到的突变类型的分解(b)显示了变异样本的来源细分。总数量略有不同,因为一些样本有一个以上的突变,因此在(b)中计数一次,但在(a)中计数两次或更多。
![全基因组重测序样本COLO-829的突变谱直方图显示其编码突变谱中C:G>T:A事件的过度表达,反映了恶性黑色素瘤常见紫外线照射导致DNA损伤的特征性特征。](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/nar/39/suppl_1/10.1093_nar_gkq929/2/m_gkq929f4.jpeg?Expires=1721563224&Signature=WiqXPmi-cYmBsv6WLGrznC74Stvn-LIDL5BfdxG3JlKgQZsV7AoFMD2DkmRxM8wz-4sHhuRsIAnDsfbOImXaLTWCcjCqay-GlJaURa2HRnO-fBapbR3pRIdd28cNXY9hVXSz7L9QTKHV3O6~rN1FSiKGYdl0pFzMbTE04CHlwRq82zyj4dlKyhWI0od7stgs2vRSHwgdgDZ4uMlxppqv2WyKMTlIVr8RMeEHwdFTBdQjAIz7~QWOC~lvwIrhrzKGyYQil2ymnZYuV4jpo2u9p~Je4HYXdRiLi05ZgYXImrGJqyF9vDQfyP7oYZCXwvFiWVhBpFSaWFvRUtNMPHKYWA__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)
图4。
全基因组重测序样本COLO-829的突变谱直方图显示其编码突变谱中C:G>T:A事件的过度表达,反映了恶性黑色素瘤常见紫外线照射导致DNA损伤的特征性特征。
虽然该网站已被构建为尽可能用户友好,但一个新的Biomart(12)已提供,强调灵活性(可在http://www.sanger.ac.uk/genetics/CGP/cosmic/biomart/martview/). 该系统提供基因、组织和突变的所有可用选项作为下拉菜单,并提供所选数据的表格报告,这些数据可再次以电子表格格式导出,以供脱机调查使用。
数据集成和互操作性
人们越来越重视癌症全基因组的重新排序,作为回应,我们已将所有基因组坐标升级为GRCh37。这使我们可以开始更直接地与Ensembl基因组浏览器集成(网址:www.ensembl.org). 有关83个精选基因的数据已从COSMIC上传到Ensembl数据库中,这使得COSMIC数据可以作为“Somatic_SNV”注释(区分体细胞癌突变和标准SNP)直接并入Ensemble网页。这些页面显示了局部序列上下文中的COSMIC突变,并在基因的所有Ensembl转录本上进行了注释。还包括Ensembl的GenomeView网络系统的链接,提供突变基因的视图和完整的基因组注释。返回COSMIC的链接已仔细纳入Ensembl网站,以提供更详细和专业的数据视图。COSMIC的完整数据集最初于2010年8月发布,预计很快就会发布。
许多其他外部项目也得到了我们整合COSMIC数据的支持,包括Intogen(http://www.intogen.org/home),UniProt公司(http://www.ebi.ac.uk/uniprot)和Pfam(http://pfam.sanger.ac.uk). 更多的人使用FTP站点的导出来扩展现有系统(例如CGWB;网址:https://cgwb.nci.nih.gov),或开发新的,例如,作为所选数据子集的集成资源(例如,CanProVar;http://bioinfo.vanderbilt.edu/canprovar(生物信息网)). 进一步的外部项目已将COSMIC的搜索功能集成到其系统中,解释远程搜索查询的结果以供本地检查,并链接回COSMIC网站(例如ONIX;网址:http://www.ncri-onix.org.uk). 已经为COSMIC体细胞突变开发了一个稳定的识别系统,以允许外部数据库轻松链接回适当的COSMIC记录。COSMIC中的所有突变都被分配了一个“COSM”id(COSMIC体细胞突变标识符),该id在COSMIC释放期间保持稳定。Ensembl是第一个成功使用COSM-id的外部数据库,当使用COSMIC注释突变时,我们要求其他数据库维护此标识符。
未来的工作
COSMIC中的数据将不断更新,以保持现有的管理基因,并包括新的完全管理基因——这项工作将继续进行。在一项研究中,大规模候选基因筛选可以包含20000多个基因,在筛选过程中也添加了越来越多的基因。更重要的是,越来越多的研究详细说明了整个癌症基因组的全重测序;虽然前几款已经在COSMIC发布,但预计这将成为COSMIC开发的主要重点。虽然基因组数据已经从COSMIC导出到ICGC(网址:www.icgc.org),COSMIC还应导入ICGC验证的体细胞突变数据,以与其他地方收集的基因组进行聚合,从而最大限度地扩大COSMIC数据库的癌症基因组覆盖范围。
为了有效地查询日益庞大的信息量,正在开发新的工具,提供COSMIC目前无法提供的新功能。已经计划在2010年末发布嵌入COSMIC的GBrowse系统。GBrowse公司(13)是一个功能齐全且非常灵活的基因组浏览器,为了在COSMIC中工作,它已经填充了完整的基因组注释,COSMIC数据可以在基因组环境中轻松导航。它将COSMIC中当前可用的大多数数据合并到一个窗口中,包括所有基因结构和序列、所有点突变、结构重排和拷贝数畸变。除了改进COSMIC的基因组背景外,还正在为主要的基因中心系统构建一个新的分析套件。与现有的变异型饼图类似(图3),正在设计新的图表和表格,以根据诸如碱基对序列更改或插入/删除大小等约束显示突变信息。这些功能将特别强大,因为它们将使用所有专门化过滤器,如前所述,这些过滤器用于深入检查基因直方图页面。COSMIC项目已经运行了9年多,并得到了更多支持。作为一种稳定和全面的资源,它现在面临着注释和整合来自许多新来源的大量体细胞突变数据的挑战,继续使其方便、免费地提供给研究界。
基金
Wellcome信托基金根据拨款参考号077012/Z/05/Z支持这项工作。开放存取费用的资金来源:WellcomeTrust。
利益冲突声明。未声明。
致谢
我们要感谢Magali Olivier为解释IARC p53 R14数据库上传到COSMIC提供的大量帮助。
参考文献
1, , , , , , , , , 等COSMIC(癌症体细胞突变目录):研究人类癌症获得性突变的资源
, 核酸研究。
, 2010
,卷。 38
(第D652型
-D657号
) 2, , , , , , , , , . 癌症体细胞突变目录(COSMIC)
, 货币。协议。嗯,遗传学。
, 2008
三, , , , , , . 突变型p53功能特性对TP53突变模式和肿瘤表型的影响:来自IARC TP53数据库最新发展的教训
, 嗯,变种人。
, 2007
,卷。 28
(第622
-629
) 4癌症基因组图谱研究网络
全面的基因组特征定义了人类胶质母细胞瘤基因和核心通路
, 自然
, 2008
,卷。 455
(第1061
-1068
) 5, , , , , , , , , 等人类乳腺癌和结直肠癌的一致性编码序列
, 科学类
, 2006
,卷。 314
(第268
-274
) 6, , , , , , , , , 等人类多形性胶质母细胞瘤的整合基因组分析
, 科学类
, 2008
,卷。 321
(第1807
-1812
) 7, , , , , , , , , 等体细胞突变影响肺腺癌的关键途径
, 自然
, 2008
,卷。 455
(第1069
-1075
) 8, , , , , , , , , 等具有烟草暴露复杂特征的小细胞肺癌基因组
, 自然
, 2010
,卷。 463
(第184
-190
) 9, , , , , , , , , 等人类癌症基因组体细胞突变的综合目录
, 自然
, 2009
,卷。 463
(第191
-196
) 10, , , , , , , , , 等急性髓系白血病基因组测序发现复发突变
, 北英格兰。医学杂志。
, 2009
,卷。 361
(第1058
-1066
) 11, , , , , , , , , 等人类乳腺癌基因组中体细胞重排的复杂景观
, 自然
, 2009
,卷。 462
(第1005
-1010
) 12, , , , , . BioMart中央门户–统一访问生物数据
, 核酸研究。
, 2009
,卷。 37
(第第23周
-第27周
) 13, , , , , , , , , 等通用基因组浏览器:模型生物系统数据库的构建块
, 基因组研究。
, 2002
,卷。 12
(第1599
-1610
)
©作者2010。牛津大学出版社出版。
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/2.5)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。