癌细胞。作者手稿;PMC 2019年3月12日提供。
以最终编辑形式发布为:
预防性维修识别码:PMC5926201型
美国国立卫生研究院:美国国家卫生研究院940011
癌症体细胞突变的系统功能注释
,1中,17 ,2,17 ,三,17 ,1 ,2,4 ,5 ,6 ,2 ,5 ,1 ,1 ,7 ,5 ,5 ,5 ,5 ,8 ,9,10 ,6 ,1 ,1 ,三 ,2 ,三 ,三 ,三 ,三 ,8 ,9,10,11 ,6,12 ,三 ,13,14 ,2 ,1 ,1中,15,16 ,5 ,三,18 ,三,4,18 ,2,三,4,18和三
Patrick Kwok-Shing Ng
1德克萨斯大学安德森癌症中心个性化癌症治疗研究所,美国德克萨斯州休斯顿,邮编77030
李军(Jun Li)
2美国得克萨斯州休斯顿市得克萨斯大学MD安德森癌症中心生物信息学和计算生物学系,邮编77030
康金贞
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
单绍
1德克萨斯大学安德森癌症中心个性化癌症治疗研究所,美国德克萨斯州休斯顿,邮编77030
胡晨
2美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系,邮编77030
4美国德克萨斯州休斯顿贝勒医学院定量和计算生物科学研究生课程,邮编77030
Yiu Huen Tsang先生
5美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系,邮编77030
Sohini Sengupta公司
6美国密苏里州圣路易斯华盛顿大学医学系肿瘤科,邮编63108
王子兴
2美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系,邮编77030
文卡塔·赫曼贾尼学院
5美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系,邮编77030
理查德·特兰
1德克萨斯大学安德森癌症中心个性化癌症治疗研究所,美国德克萨斯州休斯顿,邮编77030
斯蒂芬妮·索维托
1德克萨斯大学安德森癌症中心个性化癌症治疗研究所,美国德克萨斯州休斯顿,邮编77030
Darlan Conterno米努西
7美国德克萨斯州休斯顿市德克萨斯大学安德森癌症中心遗传学系,邮编77030
丹妮拉·莫雷诺
5美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系,邮编77030
凯萨琳·孔
5美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系,邮编77030
Turgut Dogruluk公司
5美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系,邮编77030
恒裕路
5美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系,邮编77030
高建炯
8Marie-Joseée和Henry R.Kravis分子肿瘤学中心,纪念斯隆-凯特琳癌症中心,纽约,纽约10065,美国
科林·托凯姆
9美国马里兰州巴尔的摩约翰霍普金斯大学生物医学工程系,邮编:21218
10美国马里兰州巴尔的摩约翰霍普金斯大学计算医学研究所,邮编:21218
丹尼尔·崔周
6美国密苏里州圣路易斯华盛顿大学医学系肿瘤科,邮编63108
琥珀·M·约翰逊
1德克萨斯大学安德森癌症中心个性化癌症治疗研究所,美国德克萨斯州休斯顿,邮编77030
贾曾
1德克萨斯大学安德森癌症中心个性化癌症治疗研究所,美国德克萨斯州休斯顿,邮编77030
卡曼·卡曼·叶
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
镇林居
2美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系,邮编77030
马修·韦斯特
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
余双兴
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
李永生
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
克里斯托弗·维拉诺
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
尼古拉斯·舒尔茨
8Marie-Joseée和Henry R.Kravis分子肿瘤学中心,纪念斯隆-凯特琳癌症中心,纽约,纽约10065,美国
雷切尔·卡钦
9美国马里兰州巴尔的摩约翰霍普金斯大学生物医学工程系,邮编:21218
10美国马里兰州巴尔的摩约翰霍普金斯大学计算医学研究所,邮编:21218
11美国马里兰州巴尔的摩市约翰·霍普金斯医学院肿瘤科,邮编:21287
李丁
6美国密苏里州圣路易斯华盛顿大学医学系肿瘤科,邮编63108
12美国密苏里州圣路易斯华盛顿大学Siteman癌症中心,邮编63108
陆一玲
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
Lydia Wai Ting Cheung女士
13香港大学深圳研究与创新学院,中国深圳
14香港特别行政区薄扶林香港大学LKS医学院生物医学学院
Ken Chen(肯·陈)
2美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系,邮编77030
凯纳·R·肖
1德克萨斯大学安德森癌症中心个性化癌症治疗研究所,美国德克萨斯州休斯顿,邮编77030
Meric-Bernstam基金会
1德克萨斯大学安德森癌症中心个性化癌症治疗研究所,美国德克萨斯州休斯顿,邮编77030
15德克萨斯大学安德森癌症中心乳腺外科肿瘤系,美国德克萨斯州休斯顿77030
16德克萨斯大学安德森癌症中心癌症研究治疗系,德克萨斯州休斯顿,邮编77030,美国
肯尼思·斯科特
5美国得克萨斯州休斯敦贝勒医学院分子与人类遗传学系,邮编77030
宋毅
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
尼迪·萨赫尼
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
4美国德克萨斯州休斯顿贝勒医学院定量和计算生物科学研究生课程,邮编77030
韩亮
2美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系,邮编77030
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
4美国德克萨斯州休斯顿贝勒医学院定量和计算生物科学研究生课程,邮编77030
戈登·米尔斯
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
1德克萨斯大学安德森癌症中心个性化癌症治疗研究所,美国德克萨斯州休斯顿,邮编77030
2美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系,邮编77030
三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系,邮编77030
4美国德克萨斯州休斯顿贝勒医学院定量和计算生物科学研究生课程,邮编77030
5美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系,邮编77030
6美国密苏里州圣路易斯华盛顿大学医学系肿瘤科,邮编63108
7美国德克萨斯州休斯顿市德克萨斯大学安德森癌症中心遗传学系,邮编77030
8Marie-Joseée和Henry R.Kravis分子肿瘤学中心,纪念斯隆-凯特琳癌症中心,纽约,纽约10065,美国
9美国马里兰州巴尔的摩约翰霍普金斯大学生物医学工程系,邮编:21218
10美国马里兰州巴尔的摩约翰霍普金斯大学计算医学研究所,邮编:21218
11美国马里兰州巴尔的摩市约翰·霍普金斯医学院肿瘤科,邮编:21287
12美国密苏里州圣路易斯华盛顿大学Siteman癌症中心,邮编63108
13香港大学深圳研究与创新学院,中国深圳
14香港特别行政区薄扶林香港大学LKS医学院生物医学学院
15德克萨斯大学医学博士安德森癌症中心乳腺外科肿瘤系,美国德克萨斯州休斯顿,邮编77030
16德克萨斯大学安德森癌症中心癌症研究治疗系,德克萨斯州休斯顿,邮编77030,美国
17这些作者对这项研究做出了同样的贡献
18共同回应作者
介绍
下一代测序技术,包括最近的联合项目,如癌症基因组图谱(TCGA),已经确定了数千种不同癌症类型的独特突变和融合(癌症基因组图谱研究等,2013年). 在癌症组织中观察到的突变可能会产生不同的功能效应,从致癌激活到肿瘤抑制,到没有明显的功能影响。重要的是,在同一基因中观察到了不同的突变,通常取决于肿瘤的情况(Chang等人,2016;Kandoth等人,2013年;Yi等人,2017年). 传统的基因敲除或敲除方法无法解决同一基因中不同突变引起的不同功能影响。即使是研究最活跃的癌症基因,如PIK3CA公司,只有一小部分在肿瘤中识别出的变体具有功能特征(Cheung等人,2011年;Dogruluk等人,2015年). 发展和实施癌症治疗和改善患者护理的一个关键挑战是区分因果驱动突变和非致病性乘客变体,并阐明其致癌机制(Sahni等人,2013年;斯科特和鲍尔斯,2016年;Takiar等人,2017年). 因此,迫切需要以系统的方式对大量意义未知的癌症变异株(VUS)进行功能表征。
已经开发了十多种计算算法,根据频率、保守性和3D蛋白质结构预测癌症突变的功能影响(卡特和卡钦,2014年;Porta-Pardo等人,2017年). 然而,这些方法的结果差异很大,其准确性往往有限,并且没有“金标准”来严格评估其预测能力。此外,计算算法只能识别一般影响,而无法精确定位特定突变的详细功能影响。传统的实验研究只能以低效的方式描述少量变体。这至少部分是由于在敏感的功能分析系统中难以创建、表达和表征大量的特异性突变体。
最近的几项研究使用系统方法对大量VUS进行了功能表征,包括混合(在体外和体内)战略(Berger等人,2016年;Kim等人,2016年; Kohsaka等人,2017年),代表了该领域的重大进展。然而,混合分析中具有不同活性的突变之间的竞争仍然是一个关键问题。强大的驾驶员可能会在人才库中占据主导地位,并与许多活动水平较低的其他人竞争,这会降低检测的敏感性。此外,体内分析需要耗费大量时间和资源。因此,有必要开发更敏感、有效和系统的方法来评估特定的体细胞突变如何以及在多大程度上促进癌症的发展。
结果
通用功能基因组平台的开发
为了说明VUS的功能影响,我们开发了一个适度吞吐量功能基因组平台。与体内其他研究中使用的“混合形式”筛选,我们的平台使用在体外该系统将时间-结果间隔缩短至约6周,并避免了识别弱驾驶人的强激活突变的潜在掩蔽效应。我们的平台包括四个主要步骤:(1)从大规模患者队列数据中选择体细胞突变;(2) 用HiTMMoB方法生成条形码表达克隆并进行序列确认(Tsang等人,2016); (3)在体外筛选两种生长因子依赖性细胞模型,以生成突变和融合基因的一致功能注释;(4)通过反相蛋白阵列(RPPA)对选定突变进行功能蛋白质组分析(Li等人,2017) ()。
功能基因组平台和测试的癌症突变概述(A) 突变(muts)、相应的野生型(WT)和融合基因是从TCGA项目和MD Anderson癌症中心患者数据库中选择的。克隆由HiTMMoB方法生成,并在在体外用Ba/F3和MCF10A细胞模型进行生长因子依赖性细胞活力测定。根据这些结果,将突变和野生型变异体分为功能类别。生成稳定表达所选突变的MCF10A细胞系,用于反相蛋白阵列(RPPA)分析。每一步都会标注突变、野生型和融合结构的数量。(B) 饼图显示了OncoKB或个性化癌症治疗(PCT)或PubMed文献中注释的突变在所有1049个测试突变中的比例。(C) 条形图显示了测试突变数量最多的前10个基因的突变文献覆盖率,如OncoKB、PCT或PubMed中注释的每个基因的测试突变百分比所示。另请参阅图S1和表S1。
我们的主要突变列表基于33种癌症类型的TCGA突变数据集,包括选定的临床可操作基因的复发突变(如表皮生长因子受体,PIK3CA公司,巴西航空公司,和ERBB2号机组). 该列表进一步扩展,选择了更多潜在药物基因的突变,如PTEN公司,行走,PDGFRA公司和FGFR2型在MD Anderson癌症中心患者数据库中确定。我们使用HiTTMoB技术产生了1049个突变和95个野生型慢病毒结构体,并对所有结构体进行了全长测序,以确认模板(野生型)克隆中未引入意外突变(表S1). 通过将我们的突变列表与公开的基于知识的突变注释数据库OncoKB进行比较,我们估计了有多少我们测试的突变在文献中没有注释(Chakravarty等人,2017年)和个性化癌症治疗(PCT)(Kurnit等人,2017年)重要的是,只有21.3%的突变(使用OncoKB)和18.4%(使用PCT)以前被注释过,22.8%的突变是通过PubMed中的文本挖掘发现的(). 在调查的前10个突变基因中,文献覆盖率在0-40.3%之间,平均为19.1%(). 总之,所提供的资源提供了超过1000个突变的功能注释,包括超过800个VUS。
为了研究筛选个体突变是否可以克服混合格式中高活性驱动突变的潜在掩蔽效应,我们对29个基因进行了平行混合筛选和个体筛选PIK3CA公司突变体和野生型PIK3CA公司在Ba/F3细胞系中体内和在体外设置(图S1). Ba/F3细胞依赖白细胞介素-3(IL-3)进行生长和增殖,但在发生致癌事件时可以转化为IL-3独立性,这有助于检测影响细胞增殖和生存的驱动突变(Warmuth等人,2007年)。PIK3CA公司K111德尔克在集合和个体中具有最强的激活突变得分在体外格式。在混合格式中还对另外6个突变进行了评分,其中5个突变也以单独格式捕获。值得注意的是,当筛选为单个突变时,仅对10个突变(例如E39K、G106V和I112N)进行了评分(即野生型变化>2倍)(图S1A). 对于体内池格式(图S1B),发现3个突变(E110delE、K111delK和C604R)的富集度低于在体外混合筛查,这与检测驾驶员突变的更高灵敏度一致在体外.进一步测试是否掩盖了中等活性致癌突变的影响体内筛查,G106V,一名中等驾驶人在个人中得分在体外筛选,单独测试体内,带有PIK3CA公司K111德尔克和野生型PIK3CA公司作为控件。表达K111delK的Ba/F3的肿瘤生长最强,而野生型对应物在实验期间未形成肿瘤(图S1C). 与个人一致在体外经筛选,G106V诱导的肿瘤生长弱于K111delK,但其肿瘤形成效应明显强于野生型。因此,对突变进行个体评估可以提高个体畸变的敏感性和随后的分类。
接下来,我们使用慢病毒方法,与野生型对应物以及每个屏幕中的阴性和阳性实验对照物,平行测试IL-3依赖性Ba/F3细胞和EGF和胰岛素依赖性MCF10A细胞(非肿瘤性乳腺上皮细胞系)中的候选细胞(STAR方法)。我们的假设是,激活突变(也称为“驱动因素”)将在缺乏依赖性生长因子的情况下赋予细胞生存优势;而非功能性突变,也被称为“乘客”,则不会。我们将野生型基因和突变分为不同的功能类别。总之,我们获得了Ba/F3细胞中1042个突变和94个野生型基因的合格功能注释,以及MCF10A细胞中951个突变和95个野生型的基因(表S1)。
基因组重排引起的融合基因可能是驱动因素和重要的治疗靶点。我们使用改良的HiTTMoB方法从人类癌症中鉴定出93个融合体(Li等人,2017)并评估了他们在我们平台上的活动。其中,与绿色荧光蛋白(GFP)阴性对照(NC)相比,15个融合蛋白增加了增殖(表S1). 这提供了大量融合基因的功能注释,并突出了平台的多功能性。
野生型基因和突变的功能分类
我们根据Ba/F3和MCF10A模型的细胞活性数据分别注释了野生型基因和突变。为了在不同的屏幕上进行准确的比较,相应的野生型控制总是与每个批次中感兴趣的突变并行运行。决策树的第一步(图S2A)正在注释野生型基因,通过将活力测量值与每个实验批次中运行的GFP/mCherry/Luciferase(NC)进行比较,将野生型基因分为三类(阳性、无效和阴性)。如果野生型基因的平均细胞活力高于NC,则将其归类为阳性(例如。,表皮生长因子受体在两种模型中);如果野生型基因的细胞活力低于NC,则将其归类为阴性(例如。,PTEN公司在两种模型中);否则,该基因被归类为无影响(例如。,BRAF公司Ba/F3和PIK3CA公司MCF10A中)。接下来,通过比较细胞生存信号和相应的野生型基因来注释突变。对于阳性野生型基因,如果在同一实验的同一时间点突变的细胞活力高于野生型基因的细胞活力,则将突变注释为激活;如果这些突变的细胞活力测量值分别与相应的野生型结构相似或更低,则标记为中性或失活。对于失活突变,过度表达突变的细胞的存活率低于NC,因此将其标注为抑制性,以表明突变可能会潜在地抑制细胞存活率,而不是简单地失活野生型功能。对于无效的野生型基因,突变以同样的方式被注释为激活、中性或抑制。对于阴性野生型基因,如果其细胞活性分别与野生型构建物的细胞活性没有差异或高于野生型构建体的细胞活性,则将突变分为中性突变或非抑制突变。在非抑制性突变中,如果突变的细胞活力高于NC,则将其注释为激活,以区别于使抑癌基因失活的典型非抑制性变异。因此,激活阴性野生型基因的突变会积极促进细胞生长/增殖,而不是缓解野生型基因对细胞的抑制作用。此外,对于某些基因,例如ERBB4号机组,CDH1型和印尼盾1,所测试的突变和相应的野生型结构在细胞模型中均未显示任何活性(激活或抑制)。我们无法确定细胞模型是否对基因产物没有反应,或者突变功能与野生型没有区别。因此,我们将这些野生型基因及其突变注释为非信息性。值得注意的是,非形成性突变并不一定是非功能性的,因为如果在其他模型系统中进行评估,它们可能会表现出功能性效应。
我们对1049个突变进行了功能注释,包括923个错义突变、74个indel突变和25个无义突变(). 此外,包括27个跨多个基因的沉默突变,作为注释的对照。整个数据集由95个基因组成,包括21个基因,每个基因有10个以上的突变(). 四个主要的临床可操作癌症基因等位序列,表皮生长因子受体,BRAF公司,PIK3CA公司和ERBB2,贡献了479个突变。对于PTEN公司已知的抑癌基因,以及PIK3R1,一种具有肿瘤抑制特性的基因(Cheung等人,2011年),包括更多indel和无义突变。在Ba/F3细胞中,14、10和8个野生型基因分别被注释为阳性、无效和阴性(). 在MCF10A细胞中发现了一个类似的模式,有更多阳性基因:29、13和7个野生型基因分别被注释为阳性、无效和阴性(). 值得注意的是,在Ba/F3和MCF10A模型中,62和45个基因分别被归类为非形成性基因。使用共识注释的非信息性基因数量减少到40个,如果该基因在两个模型中有功能,则重新分类。非形成基因数量的另一个潜在影响因素是,由于评估的非形成基因突变中位数只有2个,因此只检测了少数突变。据推测,这个问题可以通过包括更多突变、更多细胞系和正交功能分析来解决。
野生型基因和突变的功能注释综述(A) 括号中显示了测试的错义(紫色)、indel(橙色)、无义(红色)和沉默(白色)突变的数量。(B) 图中显示了21个基因中每个基因测试的突变类型的分布,这些基因的突变>10个。(C,D)基于生长因子非依赖性细胞活性测定结果,给出了Ba/F3(蓝色)和MCF10A(红色)细胞系模型中野生型基因(C)和突变(D)的功能注释。(E) 括号中显示了每个功能注释中的突变数。排除了Ba/F3和MCF10A模型中11个具有非决定性功能注释的突变。另请参见图S2和表S2。
对于单个突变,我们在Ba/F3模型中注释了228个激活突变、532个中性突变、32个失活突变、31个非抑制突变和4个抑制突变(). 同样,我们在MCF10A模型中注释了231个激活突变、539个中性突变、80个失活突变、22个非抑制突变和5个抑制突变(). 在两种细胞模型中,753个突变具有信息性注释,570个(75.7%)具有一致的功能调用(图S2B). 两个模型之间的突变水平一致性可能被低估了,因为不一致的一个主要原因是两个模型之间野生型基因活性的差异。例如,BRAF公司和ERBB2号机组野生型基因在MCF10A细胞中高度活跃(即阳性),但在Ba/F3细胞中无作用。此外,野生型基因的高活性缩小了观察MCF10A模型中激活突变的窗口。例如,BRAF公司第731S页,BRAF公司T599_V600英寸和ERBB2号机组V659E型在MCF10A中被注释为中性,但在Ba/F3中被激活。然而,由于BRAF公司和ERBB2号机组野生型基因被注释为对Ba/F3细胞没有影响,我们无法在Ba/F3模型中观察到任何失活突变。例如,BRAF公司D594高/交流/电压和ERBB2号机组V308万在MCF10A中称为失活,而在Ba/F3中称为中性。为了更详细地估计这两个细胞模型的一致性,我们进一步将数据集分为两组:具有一致野生型注释的突变和没有一致野生型注解的突变(图S2C和S2D). 突变注释的一致性率,一致野生型组为79.6%,不一致野生型为73.3%。
我们基于“或门”逻辑,通过结合Ba/F3和MCF10A模型的功能注释,为每个突变或野生型基因生成了一致的功能注释。简言之,无论哪种细胞模型中的异常是功能性的(即野生型基因的阳性和阴性;突变的激活、失活、抑制和非抑制),我们都会在共识注释中使用该调用。总之,我们对1049个独特突变进行了一致的功能注释()和95个野生型基因(表S1)。
病毒感染率和转基因表达是影响突变功能结果的关键因素。为了确定它们对我们的功能注释的影响,我们在独立实验中测量了用于感染的病毒滴度和转基因的mRNA表达。我们观察到不同功能注释组之间的病毒滴度或转基因表达水平没有显著差异(图S2E和S2F),证实其变化相对较小。更重要的是,我们的功能注释与这些因素无关。
我们严格评估了功能注释的再现性。首先,我们检查了五个实验对照组(mCherry和GFP/Luc,PIK3CA公司野生型,M1043I和H1047R)。在Ba/F3模型中,两个阴性对照组在所有60个实验中均未表现出活性,而PIK3CA公司如之前的研究报告所述,野生型M1043I和H1047R分别表现出弱、中等和强活性(Dogruluk等人,2015年),60次实验中有57-59次(95-98%)(图S2G). 在MCF10A模型中,阴性对照组在所有57个实验中均未表现出活性,而PIK3CA公司野生型和两个突变体在大多数实验中表现出预期的活性(77-88%)(图S2H). 其次,我们对34个选择的突变和相应的野生型进行了独立重复实验,对4个等位基因序列中的每个序列进行了不同的功能注释,BRAF公司,表皮生长因子受体,PIK3CA公司和ERBB2号机组(表S2). 基于该子集,再现性为92.5%。第三,对于表皮生长因子受体突变,我们将我们的Ba/F3功能注释与最近一项研究(Kohsaka等人,2017)中使用类似的在体外arrayed方法,发现一致率为90.5%(图S2I). 总之,这些结果突出了我们的方法所做的函数注释的健壮性。
高灵敏度功能性突变注释
我们将我们的注释与两项已发表研究的结果进行了比较(Berger等人,2016年,Kim等人,2016年)涉及的体内共用屏幕。在两个Berger中检测到的21种突变中只有3种等。我们在伯杰的平台是积极的等. (图S3A,表S3)而我们的平台从体内合并筛选加上15个激活的额外突变。在两个Kim中检测到14个重叠突变中只有4个等。我们的平台在Kim中是积极的(>1%的阅读量)等。(图S3B,表S3)我们的平台捕获了所有4个阳性重叠突变,并将另外7个突变归类为激活突变。这些结果表明,基于个体突变的功能筛查在识别激活突变方面更为敏感,包括众所周知的,重要的是,弱到中度激活突变。
由于可以直接与之比较的突变数量有限体内综合筛选研究,我们将注释调用(仅激活和中性突变)与OncoKB进行了比较(Chakravarty等人,2017年)它将突变分为致癌、可能致癌、很可能中性和非决定性。在OncoKB和我们的数据集中标注的193个突变中,OncoKB只有阳性标注(即致癌/可能致癌),而我们的数据集既有阳性(即激活/阳性)方向,也有阴性(如失活和抑制)方向。为了提供准确的比较,在比较中排除了负面注释。在187个共享注释突变中()在我们的数据集中,94种致癌突变中有76种(80.9%)和79种可能致癌突变之中有57种(72.2%)被注释为激活。OncoKB和我们的数据集之间的差异可能由不同的实验条件或上下文相关的功能效应引起。例如,ERBB3号机组V104M版本OncoKB是否致癌,这是因为它只有在与野生型共表达时才能激活信号传导并诱导细胞存活ERBB2号机组(Jaiswal等人,2013年). 此外,OncoKB中14个可能的中性突变中有6个在我们的数据集中被注释为激活。根据激活程度,我们进一步将激活突变分为强激活突变、中等激活突变和弱激活突变,与细胞活性测定中相应野生型基因的激活程度相比较。有趣的是,强激活突变在致癌类别中更为丰富(Fisher精确检验,p<0.01),并且从致癌到可能致癌和可能中性的比例逐渐降低。我们利用这两种基因的突变效应进行了类似的分析体内筛选研究(图S3C). 我们还发现了其他证据,支持绝大多数已发现的弱激活突变(表S3). 这些结果进一步表明,我们的平台对捕获突变功能和相关信息具有很高的敏感性。
我们的功能注释与文献数据和计算预测的比较(A) 我们的激活和中性突变(非冷却)在体外平台结果与OncoKB注释的致癌、可能致癌和可能中性突变进行了比较。显示了每个类别中突变的百分比。与相应的野生型基因相比,激活突变根据激活程度进一步分为强、中、弱三类。条形图上的数字表示每组的突变数。(B) 本研究中基于函数调用的21种常用计算算法的ROC曲线,AUC得分为前5名算法。(C) 三种3D计算算法中激活突变的丰富。条形图上的数字表示每组的突变数,p<10-5。请参阅图S3和表S3。
由于缺乏大规模实验数据,用于预测突变效应的计算算法的系统评估受到了限制。我们测试了21种常用于注释的计算算法作为参考标准(). 接收机工作特性(ROC)分析表明,21种算法在ROC曲线(AUC)下的面积为49.7%至76.0%。排名前三的算法是CanDrA plus(Mao等人,2013年)(AUC:76.0%),CHASM(Wong等人,2011年)(AUC:73.4%)和VEST3(Carter等人,2013年)(AUC:72.9%)。尽管这些计算算法达到了一定程度的准确性,但没有一个算法能够完全重现我们的实验结果。除了主要基于基因或蛋白质序列信息的传统预测算法外,最近还开发了使用3D信息的计算预测。因此,我们测试了3D预测算法检测到的簇中的突变是否比不在簇中的更容易激活。我们将855个带有信息功能注释的错义突变与来自3D热点的TCGA突变数据集的3D聚类预测进行了比较(Gao等人,2017年),热点3D(牛等,2016)和HotMAPS(Tokheim等人,2016年). 我们使用所有三个预测观察到3D簇中激活突变的显著富集(Fisher精确检验,p<2.2×10-16,)。
我们进一步研究了我们的功能注释与一些常见突变特性的关联,包括蛋白质中的突变位置、突变频率和氨基酸保守性。正如预期的那样,位于蛋白质结构域、热点位置或保守氨基酸中的突变更有可能发挥作用(图S3D-H). 我们还发现,相对表面可及性较低的氨基酸突变(即倾向于位于蛋白质3D结构的核心内)或导致氨基酸电荷从正变为负的氨基酸突变更有可能是功能性的(图S3G和S3H). 这些结果支持了蛋白质生物物理学与功能突变相关的先前工作(Bustamante等人,2000年;Wang和Moult,2001年)。
注释突变的功能蛋白质组分析
突变下游的信号异常告诉我们突变的生物学功能,并可以阐明相关的治疗脆弱性。我们对256个MCF10A细胞系进行了功能蛋白质组分析,这些细胞系使用含有304个抗体的RPPA稳定表达不同突变(包括69个特异性靶向翻译后修饰事件的抗体)。在RPPA分析之前,通过qPCR在RNA水平验证所有细胞系引入突变的表达。重要的是,与转录物一致,在蛋白质水平上也观察到构建体的过度表达(图S4A). 我们首先关注的是BRAF公司和表皮生长因子受体等位基因序列,以评估RPPA分析是否可以捕获同一基因内不同突变的功能注释。我们根据使用所有分析蛋白的样本之间的蛋白质表达相似性,对特定突变相对于表达参考突变的品系的影响进行排序。我们发现,根据细胞中表达的所有蛋白质的模式,具有相同注释的突变倾向于在基于等级的图谱中聚集在一起(). 接下来,我们对不同基因的所有突变进行了无监督聚类分析,以评估全球信号模式。我们发现突变分为6个主要簇,主要基于起源基因()。BRAF公司突变和ERBB2号机组突变形成了自己的簇,并且表皮生长因子受体突变形成两个簇(EGFR1和EGFR2)表明信号通路被不同的表皮生长因子受体突变是明显的。相反,PI3K信号通路基因的大多数突变(PIK3CA公司,PIK3CB公司和PTEN公司)在同一簇中组合在一起,表明信号通路发生了共同的改变。这有点令人惊讶,因为PTEN公司作为抑癌剂和PIK3CA公司和PIK3CB公司致癌,可能是由于PTEN公司与野生型基因相比,突变可能显示功能增强。
MCF10A选择性突变的功能蛋白质组分析(A,B)一个等级顺序图,显示每种蛋白的总体反相蛋白分析(RPPA)蛋白表达模式BRAF公司相对于…的突变BRAF公司L584F型(A) 或每个表皮生长因子受体相对于…的突变表皮生长因子受体G719D型(B) ●●●●。斯皮尔曼秩相关性是根据所有蛋白质的轮廓计算出来的,突变体是根据其功能注释进行颜色编码的。(C) 对268株稳定过度表达所选突变的MCF10A细胞系进行RPPA无监督聚类分析。簇名称在要素轨迹的顶行中进行注释。基因名称和功能调用也显示在功能跟踪中。右侧突出显示了跨簇的关键差异表达蛋白。(D) 不同集群之间的差异细胞周期途径活动。(E) PI3K簇中激活突变和非激活突变之间的PI3K/Akt通路活性差异。(F) BRAF簇中激活突变和非激活突变之间的EMT通路活性差异。(D-F)中间线表示中值,方框的顶部和底部表示第25和75百分位,胡须表示第10和90百分位。另请参见图S4和表S4。
我们观察到稳定系中靶蛋白的激活和下游信号靶点的相关激活。例如,p-B-Raf p-RAF1和p-MEK1的高表达水平与BRAF公司突变;p-EGFR、p-SHP-2和p-Stat3的高表达水平与表皮生长因子受体突变;高水平的p-Akt或p-HER2与PIK3CA公司突变和ERBB2号机组突变。有趣的是,在携带BRAF公司BRAF簇中的突变,表皮生长因子受体表皮生长因子受体突变1集群,ERBB2号机组ERBB2簇和所有簇的突变PIK3CA公司,PIK3CB公司和PTEN公司突变。我们还发现由p-S6、p-mTOR和p-4EBP1定义的mTOR信号在BRAF公司和表皮生长因子受体突变细胞系。
PI3K簇内的所有突变(PIK3CA公司,PIK3CB公司和PTEN公司突变)显示高水平的p-Chk2,令人惊讶的是,Bcl2和IGFRb。三个人PTEN公司集群中的移码突变体表现出PTEN蛋白水平降低,并且与高p-Akt、p-S6和p-mTOR水平相关,与PIK3CA公司突变。三PIK3CA公司突变(E39K、R38C和I112N)与其余的PIK3CA公司突变,且未显示Bcl2、IGFRb和p-Akt的高表达。相反,p-NF-κB和p-YAP的高表达水平表明这些突变是信号转导的变体(即新变体)。引人注目的是,我们的发现与p110α(由PIK3CA公司)和p110β(由编码PIK3CB公司)调节不同的信号级联(Thorpe等人,2017年)。
我们还根据通路得分进行通路分析,这表明通路信号活动(Akbani等人,2014年). 在不同的集群中,细胞周期评分存在显著差异:PI3K和EGFR2集群显示出最高的细胞周期得分,而EGFR1混合类得分最低(,表S4). 在PI3K簇内,激活突变显示出比其他突变更高的PI3K通路活性(); 在BRAF群集中,激活突变显示出比其他突变更高的上皮-间充质转化得分(). 多条通路显示两个EGFR簇之间的活性差异(图S4B). 这些结果说明了RPPA分析在阐明驾驶员突变对通路活动的功能影响方面的实用性。
分析表皮生长因子受体和BRAF公司突变等位基因系列
表皮生长因子受体和BRAF公司是最重要的临床可操作基因之一,其突变状态已被常规用于指导临床癌症治疗。我们评估了这些基因中每一个的>120个突变(,图S5,表S1)在这两种细胞模型中,有助于为现有临床治疗药物开发新的预测性生物标记物。
分析表皮生长因子受体和BRAF公司突变等位基因序列(A) 的功能注释表皮生长因子受体(顶部)和BRAF公司(底部)等位序列。仅显示序列的复发突变。棒棒糖图显示了测试突变的频率(基于TCGA和GENIE数据库)和位置。在heatmap(从上到下)中,一致性功能注释、OncoKB注释、3D结构簇计算预测(HotSpot3D、HotMAPs)、基于人群(VEST)的癌灶(CanDrA)、突变评估器和热点预测(基于Chang等人,2016年)显示了本研究中测试的突变。(B) 激活突变的结构簇表皮生长因子受体(左)和BRAF公司(右)。突变标签的填充颜色和边框颜色分别表示OncoKB注释和我们的一致功能注释。另请参见图S5。
对于表皮生长因子受体,我们使用我们的平台筛选了138个突变,包括12个indel、1个移码和8个沉默突变(,图S5A). 我们鉴定了71个激活突变,包括已知的驱动热点突变A289D/T/V、G719A/C/D/S和L858R。在这些突变中,有34个已在OncoKB中注释,34个中有32个(94.1%)被归类为致癌或可能致癌。其余37个激活突变未在OncoKB中注释。因此,我们的研究很可能使该治疗相关基因中潜在驱动突变的数量增加了一倍。重要的是,在表皮生长因子受体不太可能对针对EGFR的治疗药物产生敏感性,从而提高我们对患者进行分层以获得适当治疗方案的能力。此外,与非热点突变相比,我们发现热点突变在测试细胞系中起作用的可能性增加了2倍以上(,图S5AFisher精确检验,p<0.001)。然而,发现的大多数激活突变仍然是低频率的,这突出表明需要对癌症组织中发现的罕见突变进行功能注释。我们的数据还表明,一些罕见的功能突变仅由3D预测算法检测到,而不是由传统算法检测到。例如,L62R既没有在OncoKB中进行注释,也没有被归类为热点(,图S5A). 虽然在线性蛋白序列中远离任何已知的驱动因素,但基于HotMAPS和HotSpot3D预测,L62R与三个致癌突变(R108K、T263P和A289V)聚集在一起()。
由于外显子19缺失和外显子21突变(L858R)是FDA批准的转移性非小细胞肺癌阿法替尼和埃洛替尼的预测生物标记物,外显子19-21的任何其他激活突变可能是这些药物的潜在预测生物标记。我们使用我们的平台检测了7个外显子19 indels和25个错义突变(外显子19,20)(图S5A). 所有7个indels和12个错义突变(第19外显子2个,第21外显子10个)都被激活,包括L858R,这表明它们有潜力作为EGFR酪氨酸激酶抑制剂的预测生物标记物。除了外显子19中的缺失外,外显子20中的3个缺失被注释为激活。因此,这些新发现的突变应被视为EGFR抑制剂的潜在预测生物标记物。
对于BRAF公司,我们筛选了129个突变,包括7个indel、2个移码和2个沉默突变(,图S5B). 其中,54个突变被注释为激活,包括众所周知的V600突变。在OncoKB注释的31个畸变中,29个(93.5%)被注释为致癌和可能致癌,其余23个突变为UVS。类似表皮生长因子受体虽然在热点中观察到激活突变的富集,但一些功能性突变不是热点。从3D预测来看,在一组已知的驱动基因突变中发现了新的激活突变(例如L613F和S467L),但它们在线性序列中相距甚远(). BRAF抑制剂(vemurafenib或dabrafenib)单独或与MEK抑制剂(trametinib)联合治疗黑色素瘤是FDA批准的BRAF公司V600型突变。由于几个激活突变与V600在同一结构簇中(),使用V600聚集激活突变作为BRAF抑制剂预测生物标记物的可能性值得进一步评估。
探索癌症体细胞突变功能效应的门户网站
为了便于广泛使用我们的资源,我们开发了一个用户友好、交互式和开放访问的门户网站FASMIC(F类有功能的A类注释S公司自动的M(M)中的变异C类ancer),用于全面查询和可视化与突变相关的数据(http://bioinformatics.mdanderson.org/main/FASMIC). 我们所有检测的突变都在FASMIC中进行了筛选,目前包括六个模块:摘要、3D结构、文献、突变频率、功能预测和蛋白质表达(). 要查找突变,用户可以首先在输入框中查询其基因符号,然后选择匹配的基因以显示所有相关突变(). 所有查询到的突变都显示在一个表格视图中,以及每个突变的基本信息,例如基因名称、基因组位置、氨基酸变化和功能注释。表下有六个模块。i) “摘要”显示所选突变的详细信息,包括基因组构建版本、基因组坐标、核苷酸变化、变体分类、变体类型和功能注释。ii)“3D结构”使用动态3D动画来显示3D蛋白质结构中被查询突变的位置(). iii)“突变频率”在条形图中显示从TCGA突变数据中获得的突变频率(). iv)“功能预测”提供由流行计算算法进行的功能预测(). v) 与野生型基因相比,“蛋白质表达”提供了因突变而改变的MCF10A系的丰富蛋白质表达数据,有助于解释突变的特定功能后果(). vi)“PubMed”在列表视图中提供所有相关PubMed-参考。该门户还提供支持功能注释的细胞存活率数据。
FASMIC门户概述(A) 数据门户摘要。(B) 的突变表表皮生长因子受体(C)p110α的3D蛋白质结构(由PIK3CA公司)残基K111以红色突出显示。(D)不同癌症类型的突变频率条形图。(E) 表中显示了各种计算算法的功能预测,破坏性突变以深红色突出显示。(F)表皮生长因子受体与野生型基因相关的突变体显示在分类散点图中。
讨论
使用高通量功能筛查突变体内以汇总的形式进行的筛查已经确定了一些罕见的致癌突变。然而,尚不清楚结果是否受到不同驾驶员活动突变之间竞争的影响。体内对个体突变的筛选已被证明可以识别弱突变(Kim等人,2016年)但它太耗时且劳动密集,无法用于筛查大量突变。为了解决这些问题并获得合理的吞吐量,我们在适度吞吐量平台中单独测试了突变。与OncoKB相比,我们的平台捕获了更多已知的致癌突变(80.9%)体内合并筛选(30.3%和40.9%)(Berger等人,2016年,Kim等人,2016年) (,图S3C). 此外,肿瘤抑制基因的突变,如PTEN公司和CDKN2A基因可以在我们的平台上放映,但不能在体内筛选设置。在我们的平台上,PTEN公司和CDKN2A基因野生型基因显示细胞生长受到抑制。共24个PTEN公司经检测的突变中,9个截断突变和12个错义突变导致野生型基因失去抑制特性。类似于CDKN2A基因,在评估的4个突变中,唯一的移码突变(L78Hfs*41)导致野生型基因的抑制性丧失。我们的数据清楚地表明,我们的平台可以筛选选定的肿瘤抑制基因的功能突变。
功能注释中的敏感性和特异性是一种权衡。随着捕获激活突变的敏感性增加,我们平台的一个担忧是潜在的假阳性。在本研究中,我们评估了27个沉默突变的功能效应,其中没有一个与相应的野生型不同,表明其具有较高的特异性。此外,只有我们捕获的六个激活突变在OncoKB中被注释为可能是中性的。然而,OncoKB是一个纯粹基于文献的数据库,它严重偏向于致癌突变,可能存在的中性突变数量有限。我们平台的假阳性率评估不能仅用OncoKB数据库进行,应在将来可用的其他基于实验的功能注释数据库中进行。总的来说,75.7%的突变功能注释在Ba/F3和MCF10A模型之间是一致的,这限制了假阳性的可能性。只有在Ba/F3模型中发现的22个弱激活突变在MCF10A模型中未被确认为激活,这表明它们是潜在的假阳性。为了评估我们对这22个突变的功能注释,我们从基于知识的数据库(OncoKB和PCT)、计算预测(CanDrA和CHASM,这是基于我们数据的最佳执行算法)和3D预测(HotMAPS和HotSpot3D)中寻找支持其激活特性的证据。在22个弱激活突变中,至少有一个证据来源(STAR方法和表S3). 因此,从我们的平台获得的潜在假阳性注释的数量可能低至301个激活突变中的4个(1.3%)。此外,最近的一项研究(Watanabe-Smith等人,2017年)提示转染弱激活突变的Ba/F3细胞在IL-3充满条件下长时间培养时,可以获得外源基因的额外突变。重要的是,我们的每个结构都来自单个克隆,并在使用前进行了测序,这限制了结构中预先存在突变的可能性。此外,转导后未添加IL-3,我们的检测仅限于3周,这进一步降低了获得性突变的可能性。
我们认识到我们平台的其他局限性。首先,平台中测试的基因大小受到4.5kb慢病毒包装限制。第二,一些突变的影响可能在很大程度上取决于肿瘤的背景。为了限制这种担忧,我们采用了两种具有完全不同遗传背景的细胞模型,进一步的研究表明,Ba/F3和MCF10A的结果可以在相关的人类细胞系和异种移植模型中大致得到重述(Cheung等人,2014年;Dogruluk等人,2015年;Liang等人,2012年). 我们的数据表明,Ba/F3模型中的24个非信息基因在MCF10A模型中具有信息性,而MCF10A模型中的6个非信息性基因在Ba/F3模式中具有信息。众所周知的抑癌基因印尼盾1在我们的平台上进行了测试,野生型基因和所有测试的突变都没有活性。这表明,一些基因需要在其他肿瘤组织特异性环境中进行评估,以阐明其功能。这些基因或突变的功能效应在我们的平台上可能会被忽略。第三,我们只评估了对细胞活力和增殖的影响。然而,这些都是癌症的标志,是大多数治疗方法的关键目标。最后,我们注意到合并筛查,特别是体内联合筛查在规模和成本以及捕捉肿瘤微环境的影响方面都有好处。因此,我们的方法和联合筛选方法是互补的,共同为研究界提供了最有价值的信息。