Systematic Functional Annotation of Somatic Mutations in Cancer

Patrick Kwok-Shing Ng; Jun Li; Kang Jin Jeong; Shan Shao; Hu Chen; Yiu Huen Tsang; Sohini Sengupta; Zixing Wang; Venkata Hemanjani Bhavana; Richard Tran; Stephanie Soewito; Darlan Conterno Minussi; Daniela Moreno; Kathleen Kong; Turgut Dogruluk; Hengyu Lu; Jianjiong Gao; Collin Tokheim; Daniel Cui Zhou; Amber M. Johnson; Jia Zeng; Carman Ka Man Ip; Zhenlin Ju; Matthew Wester; Shuangxing Yu; Yongsheng Li; Christopher P. Vellano; Nikolaus Schultz; Rachel Karchin; Li Ding; Yiling Lu; Lydia Wai Ting Cheung; Ken Chen; Kenna R. Shaw; Funda Meric-Bernstam; Kenneth L. Scott; Song Yi; Nidhi Sahni; Han Liang; Gordon B. Mills

doi:10.1016/j.ccell.2018.01.021

癌细胞。作者手稿；PMC 2019年3月12日提供。

以最终编辑形式发布为：

癌细胞。2018年3月12日；33（3）:450–462.e10。

数字对象标识：2016年10月10日/j.cell.2018.01.021

预防性维修识别码：PMC5926201型

美国国立卫生研究院：美国国家卫生研究院940011

PMID：29533785

癌症体细胞突变的系统功能注释

Patrick Kwok Shing Ng（吴国成）,^1中，¹⁷ 李军（Jun Li）,^2,¹⁷ 康金贞,^三，¹⁷ 单绍,¹ 胡晨,^2,⁴ Yiu Huen Tsang先生,⁵ Sohini Sengupta公司,⁶ 王子兴,² 文卡塔·赫曼贾尼学院,⁵ 理查德·特兰,¹ 斯蒂芬妮·索维托,¹ 达兰·孔特诺·米努西,⁷ 丹妮拉·莫雷诺,⁵ 凯萨琳·孔,⁵ Turgut Dogruluk公司,⁵ 恒裕路,⁵ 高建炯,⁸ 科林·托凯姆,^9,¹⁰ 丹尼尔·崔周,⁶ 琥珀·M·约翰逊,¹ 贾曾,¹ 卡曼·卡曼·叶,^三镇林居,² 马修·韦斯特,^三双星余,^三李永生,^三克里斯托弗·维拉诺,^三尼古拉斯·舒尔茨,⁸ 雷切尔·卡钦,^9,^10,¹¹ 李丁,^6,¹² 陆一玲,^三张惠婷,^13,¹⁴ Ken Chen（肯·陈）,² 凯纳·R·肖,¹ Meric-Bernstam基金会,^1中，^15,¹⁶ 肯尼思·斯科特,⁵ 宋毅,^三，¹⁸ 尼迪·萨赫尼,^三，^4,¹⁸ 韩亮,^2,^三，^4,¹⁸和戈登·米尔斯^三

Patrick Kwok-Shing Ng

¹德克萨斯大学安德森癌症中心个性化癌症治疗研究所，美国德克萨斯州休斯顿，邮编77030

查找文章依据Patrick Kwok-Shing Ng

李军（Jun Li）

²美国得克萨斯州休斯顿市得克萨斯大学MD安德森癌症中心生物信息学和计算生物学系，邮编77030

查找文章依据李军（Jun Li）

康金贞

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

查找文章依据康金贞

单绍

¹德克萨斯大学安德森癌症中心个性化癌症治疗研究所，美国德克萨斯州休斯顿，邮编77030

查找文章依据单绍

胡晨

²美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系，邮编77030

⁴美国德克萨斯州休斯顿贝勒医学院定量和计算生物科学研究生课程，邮编77030

查找文章依据胡晨

Yiu Huen Tsang先生

⁵美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系，邮编77030

查找文章依据Yiu Huen Tsang先生

Sohini Sengupta公司

⁶美国密苏里州圣路易斯华盛顿大学医学系肿瘤科，邮编63108

查找文章依据Sohini Sengupta公司

王子兴

²美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系，邮编77030

查找文章依据王子兴

文卡塔·赫曼贾尼学院

⁵美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系，邮编77030

查找文章依据文卡塔·赫曼贾尼学院

理查德·特兰

¹德克萨斯大学安德森癌症中心个性化癌症治疗研究所，美国德克萨斯州休斯顿，邮编77030

查找文章依据理查德·特朗

斯蒂芬妮·索维托

¹德克萨斯大学安德森癌症中心个性化癌症治疗研究所，美国德克萨斯州休斯顿，邮编77030

查找文章依据斯蒂芬妮·索维托

Darlan Conterno米努西

⁷美国德克萨斯州休斯顿市德克萨斯大学安德森癌症中心遗传学系，邮编77030

查找文章依据达兰·孔特诺·米努西

丹妮拉·莫雷诺

⁵美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系，邮编77030

查找文章依据丹妮拉·莫雷诺

凯萨琳·孔

⁵美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系，邮编77030

查找文章依据凯萨琳·孔

Turgut Dogruluk公司

⁵美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系，邮编77030

查找文章依据土尔古特·多鲁鲁克

恒裕路

⁵美国德克萨斯州休斯顿贝勒医学院分子与人类遗传学系，邮编77030

查找文章依据恒裕路

高建炯

⁸Marie-Joseée和Henry R.Kravis分子肿瘤学中心，纪念斯隆-凯特琳癌症中心，纽约，纽约10065，美国

查找文章依据高建炯

科林·托凯姆

⁹美国马里兰州巴尔的摩约翰霍普金斯大学生物医学工程系，邮编：21218

¹⁰美国马里兰州巴尔的摩约翰霍普金斯大学计算医学研究所，邮编：21218

查找文章依据科林·托凯姆

丹尼尔·崔周

⁶美国密苏里州圣路易斯华盛顿大学医学系肿瘤科，邮编63108

查找文章依据丹尼尔·崔周

琥珀·M·约翰逊

¹德克萨斯大学安德森癌症中心个性化癌症治疗研究所，美国德克萨斯州休斯顿，邮编77030

查找文章依据琥珀·M·约翰逊

贾曾

¹德克萨斯大学安德森癌症中心个性化癌症治疗研究所，美国德克萨斯州休斯顿，邮编77030

查找文章依据贾曾

卡曼·卡曼·叶

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

查找文章依据卡曼·卡曼·叶

镇林居

²美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系，邮编77030

查找文章依据朱振林

马修·韦斯特

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

查找文章依据马修·韦斯特

余双兴

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

查找文章依据双星余

李永生

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

查找文章依据李永生

克里斯托弗·维拉诺

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

查找文章依据克里斯托弗·维拉诺

尼古拉斯·舒尔茨

⁸Marie-Joseée和Henry R.Kravis分子肿瘤学中心，纪念斯隆-凯特琳癌症中心，纽约，纽约10065，美国

查找文章依据尼古拉斯·舒尔茨

雷切尔·卡钦

⁹美国马里兰州巴尔的摩约翰霍普金斯大学生物医学工程系，邮编：21218

¹⁰美国马里兰州巴尔的摩约翰霍普金斯大学计算医学研究所，邮编：21218

¹¹美国马里兰州巴尔的摩市约翰·霍普金斯医学院肿瘤科，邮编：21287

查找文章依据雷切尔·卡钦

李丁

⁶美国密苏里州圣路易斯华盛顿大学医学系肿瘤科，邮编63108

¹²美国密苏里州圣路易斯华盛顿大学Siteman癌症中心，邮编63108

查找文章依据李丁

陆一玲

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

查找文章依据陆一玲

Lydia Wai Ting Cheung女士

¹³香港大学深圳研究与创新学院，中国深圳

¹⁴香港特别行政区薄扶林香港大学LKS医学院生物医学学院

查找文章依据Lydia Wai Ting Cheung女士

Ken Chen（肯·陈）

²美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系，邮编77030

查找文章依据Ken Chen（肯·陈）

凯纳·R·肖

¹德克萨斯大学安德森癌症中心个性化癌症治疗研究所，美国德克萨斯州休斯顿，邮编77030

查找文章依据凯纳·R·肖

Meric-Bernstam基金会

¹德克萨斯大学安德森癌症中心个性化癌症治疗研究所，美国德克萨斯州休斯顿，邮编77030

¹⁵德克萨斯大学安德森癌症中心乳腺外科肿瘤系，美国德克萨斯州休斯顿77030

¹⁶德克萨斯大学安德森癌症中心癌症研究治疗系，德克萨斯州休斯顿，邮编77030，美国

查找文章依据Meric-Bernstam基金会

肯尼思·斯科特

⁵美国得克萨斯州休斯敦贝勒医学院分子与人类遗传学系，邮编77030

查找文章依据肯尼思·斯科特

宋毅

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

查找文章依据宋毅

尼迪·萨赫尼

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

⁴美国德克萨斯州休斯顿贝勒医学院定量和计算生物科学研究生课程，邮编77030

查找文章依据尼迪·萨赫尼

韩亮

²美国德克萨斯州休斯顿市得克萨斯大学安德森癌症中心生物信息学和计算生物学系，邮编77030

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

⁴美国德克萨斯州休斯顿贝勒医学院定量和计算生物科学研究生课程，邮编77030

查找文章依据韩亮

戈登·米尔斯

^三美国德克萨斯州休斯顿市德州大学安德森癌症中心系统生物学系，邮编77030

查找文章依据戈登·米尔斯

作者信息版权和许可信息 PMC免责声明

关联数据

补充资料: 1:表S1，与 图1。本研究中检测的基因组畸变。以Excel文件提供。
表S2，与 图2。在独立重复实验中测试的选定突变和野生型。以Excel文件提供。
表S3，与 图3。关于图S3A至S3C中提及的突变和Ba/F3中弱激活突变的更多信息。以Excel文件提供。
表S4，与 图4。Pathway分数成员和权重。以Excel文件提供。
NIHMS940011-补充-1.pdf（170万）
GUID:91712A44-786D-4568-A7F0-F724D70BBAE8
2
NIHMS940011增补-2.xlsx（227000）
GUID:D6C305BF-9A6B-4C3D-A165-A336A281D14B
三。
NIHMS940011补充-3.xlsx（12公里）
GUID:D0A35124-94FE-469A-B4C9-18F5CC816F07
4
NIHMS940011增补-4.xlsx（18千）
GUID:18FA17AE-6C6A-4351-8794-0CE0CB553776
5
NIHMS940011增补-5.xlsx（12公里）
GUID:4EDA67B3-70FC-4754-AAD1-45670C586661

总结

绝大多数癌症体细胞突变的功能影响尚不清楚，这是实施精确肿瘤学的关键知识差距。在这里，我们报道了一个中等吞吐量功能基因组平台的开发，该平台包括高效的突变产生、使用两种生长因子依赖性细胞模型的敏感生存能力分析，以及选择畸变的信号作用的功能蛋白质组学分析。我们应用该平台注释了1000多个基因组畸变，包括基因扩增、点突变、indels和基因融合，潜在地使临床可操作基因的驱动突变数量加倍。此外，该平台具有足够的敏感性，可以识别出薄弱的驱动因素。我们的数据可以通过用户友好的公共数据门户访问(http://bioinformatics.mdanderson.org/main/FASMIC). 我们的研究将促进生物标记物发现、预测算法改进和药物开发。

图形摘要

Ng等人开发了一个中等吞吐量功能基因组平台，并使用它注释了1000多个意义不明的癌症变体。该方法足够敏感，可以识别出弱驱动因素，可能使临床可操作基因中的驱动因素突变数量加倍。

介绍

下一代测序技术，包括最近的联合项目，如癌症基因组图谱（TCGA），已经确定了数千种不同癌症类型的独特突变和融合(癌症基因组图谱研究等，2013年). 在癌症组织中观察到的突变可能会产生不同的功能效应，从致癌激活到肿瘤抑制，到没有明显的功能影响。重要的是，在同一基因中观察到了不同的突变，通常取决于肿瘤的情况(Chang等人，2016；Kandoth等人，2013年；Yi等人，2017年). 传统的基因敲除或敲除方法无法解决同一基因中不同突变引起的不同功能影响。即使是研究最活跃的癌症基因，如PIK3CA公司，只有一小部分在肿瘤中识别出的变体具有功能特征(Cheung等人，2011年；Dogruluk等人，2015年). 发展和实施癌症治疗和改善患者护理的一个关键挑战是区分因果驱动突变和非致病性乘客变体，并阐明其致癌机制(Sahni等人，2013年；斯科特和鲍尔斯，2016年；Takiar等人，2017年). 因此，迫切需要以系统的方式对大量意义未知的癌症变异株（VUS）进行功能表征。

已经开发了十多种计算算法，根据频率、保守性和3D蛋白质结构预测癌症突变的功能影响(卡特和卡钦，2014年；Porta-Pardo等人，2017年). 然而，这些方法的结果差异很大，其准确性往往有限，并且没有“金标准”来严格评估其预测能力。此外，计算算法只能识别一般影响，而无法精确定位特定突变的详细功能影响。传统的实验研究只能以低效的方式描述少量变体。这至少部分是由于在敏感的功能分析系统中难以创建、表达和表征大量的特异性突变体。

最近的几项研究使用系统方法对大量VUS进行了功能表征，包括混合(在体外和体内)战略(Berger等人，2016年；Kim等人，2016年; Kohsaka等人，2017年），代表了该领域的重大进展。然而，混合分析中具有不同活性的突变之间的竞争仍然是一个关键问题。强大的驾驶员可能会在人才库中占据主导地位，并与许多活动水平较低的其他人竞争，这会降低检测的敏感性。此外，体内分析需要耗费大量时间和资源。因此，有必要开发更敏感、有效和系统的方法来评估特定的体细胞突变如何以及在多大程度上促进癌症的发展。

结果

通用功能基因组平台的开发

为了说明VUS的功能影响，我们开发了一个适度吞吐量功能基因组平台。与体内其他研究中使用的“混合形式”筛选，我们的平台使用在体外该系统将时间-结果间隔缩短至约6周，并避免了识别弱驾驶人的强激活突变的潜在掩蔽效应。我们的平台包括四个主要步骤：（1）从大规模患者队列数据中选择体细胞突变；（2）用HiTMMoB方法生成条形码表达克隆并进行序列确认(Tsang等人，2016); （3）在体外筛选两种生长因子依赖性细胞模型，以生成突变和融合基因的一致功能注释；（4）通过反相蛋白阵列（RPPA）对选定突变进行功能蛋白质组分析(Li等人，2017) (图1A)。

在单独的窗口中打开

图1

功能基因组平台和测试的癌症突变概述

（A）突变（muts）、相应的野生型（WT）和融合基因是从TCGA项目和MD Anderson癌症中心患者数据库中选择的。克隆由HiTMMoB方法生成，并在在体外用Ba/F3和MCF10A细胞模型进行生长因子依赖性细胞活力测定。根据这些结果，将突变和野生型变异体分为功能类别。生成稳定表达所选突变的MCF10A细胞系，用于反相蛋白阵列（RPPA）分析。每一步都会标注突变、野生型和融合结构的数量。（B）饼图显示了OncoKB或个性化癌症治疗（PCT）或PubMed文献中注释的突变在所有1049个测试突变中的比例。（C）条形图显示了测试突变数量最多的前10个基因的突变文献覆盖率，如OncoKB、PCT或PubMed中注释的每个基因的测试突变百分比所示。另请参阅图S1和表S1。

我们的主要突变列表基于33种癌症类型的TCGA突变数据集，包括选定的临床可操作基因的复发突变（如表皮生长因子受体,PIK3CA公司,巴西航空公司，和ERBB2号机组). 该列表进一步扩展，选择了更多潜在药物基因的突变，如PTEN公司,行走,PDGFRA公司和FGFR2型在MD Anderson癌症中心患者数据库中确定。我们使用HiTTMoB技术产生了1049个突变和95个野生型慢病毒结构体，并对所有结构体进行了全长测序，以确认模板（野生型）克隆中未引入意外突变(表S1). 通过将我们的突变列表与公开的基于知识的突变注释数据库OncoKB进行比较，我们估计了有多少我们测试的突变在文献中没有注释(Chakravarty等人，2017年)和个性化癌症治疗（PCT）(Kurnit等人，2017年)重要的是，只有21.3%的突变（使用OncoKB）和18.4%（使用PCT）以前被注释过，22.8%的突变是通过PubMed中的文本挖掘发现的(图1B). 在调查的前10个突变基因中，文献覆盖率在0-40.3%之间，平均为19.1%(图1C). 总之，所提供的资源提供了超过1000个突变的功能注释，包括超过800个VUS。

为了研究筛选个体突变是否可以克服混合格式中高活性驱动突变的潜在掩蔽效应，我们对29个基因进行了平行混合筛选和个体筛选PIK3CA公司突变体和野生型PIK3CA公司在Ba/F3细胞系中体内和在体外设置(图S1). Ba/F3细胞依赖白细胞介素-3（IL-3）进行生长和增殖，但在发生致癌事件时可以转化为IL-3独立性，这有助于检测影响细胞增殖和生存的驱动突变(Warmuth等人，2007年)。PIK3CA公司^{K111德尔克}在集合和个体中具有最强的激活突变得分在体外格式。在混合格式中还对另外6个突变进行了评分，其中5个突变也以单独格式捕获。值得注意的是，当筛选为单个突变时，仅对10个突变（例如E39K、G106V和I112N）进行了评分（即野生型变化>2倍）(图S1A). 对于体内池格式(图S1B)，发现3个突变（E110delE、K111delK和C604R）的富集度低于在体外混合筛查，这与检测驾驶员突变的更高灵敏度一致在体外.进一步测试是否掩盖了中等活性致癌突变的影响体内筛查，G106V，一名中等驾驶人在个人中得分在体外筛选，单独测试体内，带有PIK3CA公司^{K111德尔克}和野生型PIK3CA公司作为控件。表达K111delK的Ba/F3的肿瘤生长最强，而野生型对应物在实验期间未形成肿瘤(图S1C). 与个人一致在体外经筛选，G106V诱导的肿瘤生长弱于K111delK，但其肿瘤形成效应明显强于野生型。因此，对突变进行个体评估可以提高个体畸变的敏感性和随后的分类。

接下来，我们使用慢病毒方法，与野生型对应物以及每个屏幕中的阴性和阳性实验对照物，平行测试IL-3依赖性Ba/F3细胞和EGF和胰岛素依赖性MCF10A细胞（非肿瘤性乳腺上皮细胞系）中的候选细胞（STAR方法）。我们的假设是，激活突变（也称为“驱动因素”）将在缺乏依赖性生长因子的情况下赋予细胞生存优势；而非功能性突变，也被称为“乘客”，则不会。我们将野生型基因和突变分为不同的功能类别。总之，我们获得了Ba/F3细胞中1042个突变和94个野生型基因的合格功能注释，以及MCF10A细胞中951个突变和95个野生型的基因(表S1)。

基因组重排引起的融合基因可能是驱动因素和重要的治疗靶点。我们使用改良的HiTTMoB方法从人类癌症中鉴定出93个融合体(Li等人，2017)并评估了他们在我们平台上的活动。其中，与绿色荧光蛋白（GFP）阴性对照（NC）相比，15个融合蛋白增加了增殖(表S1). 这提供了大量融合基因的功能注释，并突出了平台的多功能性。

野生型基因和突变的功能分类

我们根据Ba/F3和MCF10A模型的细胞活性数据分别注释了野生型基因和突变。为了在不同的屏幕上进行准确的比较，相应的野生型控制总是与每个批次中感兴趣的突变并行运行。决策树的第一步(图S2A)正在注释野生型基因，通过将活力测量值与每个实验批次中运行的GFP/mCherry/Luciferase（NC）进行比较，将野生型基因分为三类（阳性、无效和阴性）。如果野生型基因的平均细胞活力高于NC，则将其归类为阳性（例如。，表皮生长因子受体在两种模型中）；如果野生型基因的细胞活力低于NC，则将其归类为阴性（例如。，PTEN公司在两种模型中）；否则，该基因被归类为无影响（例如。，BRAF公司Ba/F3和PIK3CA公司MCF10A中）。接下来，通过比较细胞生存信号和相应的野生型基因来注释突变。对于阳性野生型基因，如果在同一实验的同一时间点突变的细胞活力高于野生型基因的细胞活力，则将突变注释为激活；如果这些突变的细胞活力测量值分别与相应的野生型结构相似或更低，则标记为中性或失活。对于失活突变，过度表达突变的细胞的存活率低于NC，因此将其标注为抑制性，以表明突变可能会潜在地抑制细胞存活率，而不是简单地失活野生型功能。对于无效的野生型基因，突变以同样的方式被注释为激活、中性或抑制。对于阴性野生型基因，如果其细胞活性分别与野生型构建物的细胞活性没有差异或高于野生型构建体的细胞活性，则将突变分为中性突变或非抑制突变。在非抑制性突变中，如果突变的细胞活力高于NC，则将其注释为激活，以区别于使抑癌基因失活的典型非抑制性变异。因此，激活阴性野生型基因的突变会积极促进细胞生长/增殖，而不是缓解野生型基因对细胞的抑制作用。此外，对于某些基因，例如ERBB4号机组,CDH1型和印尼盾1，所测试的突变和相应的野生型结构在细胞模型中均未显示任何活性（激活或抑制）。我们无法确定细胞模型是否对基因产物没有反应，或者突变功能与野生型没有区别。因此，我们将这些野生型基因及其突变注释为非信息性。值得注意的是，非形成性突变并不一定是非功能性的，因为如果在其他模型系统中进行评估，它们可能会表现出功能性效应。

我们对1049个突变进行了功能注释，包括923个错义突变、74个indel突变和25个无义突变(图2A). 此外，包括27个跨多个基因的沉默突变，作为注释的对照。整个数据集由95个基因组成，包括21个基因，每个基因有10个以上的突变(图2B). 四个主要的临床可操作癌症基因等位序列，表皮生长因子受体,BRAF公司,PIK3CA公司和ERBB2，贡献了479个突变。对于PTEN公司已知的抑癌基因，以及PIK3R1，一种具有肿瘤抑制特性的基因(Cheung等人，2011年)，包括更多indel和无义突变。在Ba/F3细胞中，14、10和8个野生型基因分别被注释为阳性、无效和阴性(图2C). 在MCF10A细胞中发现了一个类似的模式，有更多阳性基因：29、13和7个野生型基因分别被注释为阳性、无效和阴性(图2C). 值得注意的是，在Ba/F3和MCF10A模型中，62和45个基因分别被归类为非形成性基因。使用共识注释的非信息性基因数量减少到40个，如果该基因在两个模型中有功能，则重新分类。非形成基因数量的另一个潜在影响因素是，由于评估的非形成基因突变中位数只有2个，因此只检测了少数突变。据推测，这个问题可以通过包括更多突变、更多细胞系和正交功能分析来解决。

在单独的窗口中打开

图2

野生型基因和突变的功能注释综述

（A）括号中显示了测试的错义（紫色）、indel（橙色）、无义（红色）和沉默（白色）突变的数量。（B）图中显示了21个基因中每个基因测试的突变类型的分布，这些基因的突变>10个。（C，D）基于生长因子非依赖性细胞活性测定结果，给出了Ba/F3（蓝色）和MCF10A（红色）细胞系模型中野生型基因（C）和突变（D）的功能注释。（E）括号中显示了每个功能注释中的突变数。排除了Ba/F3和MCF10A模型中11个具有非决定性功能注释的突变。另请参见图S2和表S2。

对于单个突变，我们在Ba/F3模型中注释了228个激活突变、532个中性突变、32个失活突变、31个非抑制突变和4个抑制突变(图2D). 同样，我们在MCF10A模型中注释了231个激活突变、539个中性突变、80个失活突变、22个非抑制突变和5个抑制突变(图2D). 在两种细胞模型中，753个突变具有信息性注释，570个（75.7%）具有一致的功能调用(图S2B). 两个模型之间的突变水平一致性可能被低估了，因为不一致的一个主要原因是两个模型之间野生型基因活性的差异。例如，BRAF公司和ERBB2号机组野生型基因在MCF10A细胞中高度活跃（即阳性），但在Ba/F3细胞中无作用。此外，野生型基因的高活性缩小了观察MCF10A模型中激活突变的窗口。例如，BRAF公司^第731S页,BRAF公司^{T599_V600英寸}和ERBB2号机组^V659E型在MCF10A中被注释为中性，但在Ba/F3中被激活。然而，由于BRAF公司和ERBB2号机组野生型基因被注释为对Ba/F3细胞没有影响，我们无法在Ba/F3模型中观察到任何失活突变。例如，BRAF公司^{D594高/交流/电压}和ERBB2号机组^V308万在MCF10A中称为失活，而在Ba/F3中称为中性。为了更详细地估计这两个细胞模型的一致性，我们进一步将数据集分为两组：具有一致野生型注释的突变和没有一致野生型注解的突变(图S2C和S2D). 突变注释的一致性率，一致野生型组为79.6%，不一致野生型为73.3%。

我们基于“或门”逻辑，通过结合Ba/F3和MCF10A模型的功能注释，为每个突变或野生型基因生成了一致的功能注释。简言之，无论哪种细胞模型中的异常是功能性的（即野生型基因的阳性和阴性；突变的激活、失活、抑制和非抑制），我们都会在共识注释中使用该调用。总之，我们对1049个独特突变进行了一致的功能注释(图2E)和95个野生型基因(表S1)。

病毒感染率和转基因表达是影响突变功能结果的关键因素。为了确定它们对我们的功能注释的影响，我们在独立实验中测量了用于感染的病毒滴度和转基因的mRNA表达。我们观察到不同功能注释组之间的病毒滴度或转基因表达水平没有显著差异(图S2E和S2F)，证实其变化相对较小。更重要的是，我们的功能注释与这些因素无关。

我们严格评估了功能注释的再现性。首先，我们检查了五个实验对照组（mCherry和GFP/Luc，PIK3CA公司野生型，M1043I和H1047R）。在Ba/F3模型中，两个阴性对照组在所有60个实验中均未表现出活性，而PIK3CA公司如之前的研究报告所述，野生型M1043I和H1047R分别表现出弱、中等和强活性(Dogruluk等人，2015年)，60次实验中有57-59次（95-98%）(图S2G). 在MCF10A模型中，阴性对照组在所有57个实验中均未表现出活性，而PIK3CA公司野生型和两个突变体在大多数实验中表现出预期的活性（77-88%）(图S2H). 其次，我们对34个选择的突变和相应的野生型进行了独立重复实验，对4个等位基因序列中的每个序列进行了不同的功能注释，BRAF公司,表皮生长因子受体,PIK3CA公司和ERBB2号机组(表S2). 基于该子集，再现性为92.5%。第三，对于表皮生长因子受体突变，我们将我们的Ba/F3功能注释与最近一项研究（Kohsaka等人，2017）中使用类似的在体外arrayed方法，发现一致率为90.5%(图S2I). 总之，这些结果突出了我们的方法所做的函数注释的健壮性。

高灵敏度功能性突变注释

我们将我们的注释与两项已发表研究的结果进行了比较(Berger等人，2016年,Kim等人，2016年)涉及的体内共用屏幕。在两个Berger中检测到的21种突变中只有3种等。我们在伯杰的平台是积极的等. (图S3A，表S3)而我们的平台从体内合并筛选加上15个激活的额外突变。在两个Kim中检测到14个重叠突变中只有4个等。我们的平台在Kim中是积极的（>1%的阅读量）等。(图S3B，表S3)我们的平台捕获了所有4个阳性重叠突变，并将另外7个突变归类为激活突变。这些结果表明，基于个体突变的功能筛查在识别激活突变方面更为敏感，包括众所周知的，重要的是，弱到中度激活突变。

由于可以直接与之比较的突变数量有限体内综合筛选研究，我们将注释调用（仅激活和中性突变）与OncoKB进行了比较(Chakravarty等人，2017年)它将突变分为致癌、可能致癌、很可能中性和非决定性。在OncoKB和我们的数据集中标注的193个突变中，OncoKB只有阳性标注（即致癌/可能致癌），而我们的数据集既有阳性（即激活/阳性）方向，也有阴性（如失活和抑制）方向。为了提供准确的比较，在比较中排除了负面注释。在187个共享注释突变中(图3A)在我们的数据集中，94种致癌突变中有76种（80.9%）和79种可能致癌突变之中有57种（72.2%）被注释为激活。OncoKB和我们的数据集之间的差异可能由不同的实验条件或上下文相关的功能效应引起。例如，ERBB3号机组^V104M版本OncoKB是否致癌，这是因为它只有在与野生型共表达时才能激活信号传导并诱导细胞存活ERBB2号机组(Jaiswal等人，2013年). 此外，OncoKB中14个可能的中性突变中有6个在我们的数据集中被注释为激活。根据激活程度，我们进一步将激活突变分为强激活突变、中等激活突变和弱激活突变，与细胞活性测定中相应野生型基因的激活程度相比较。有趣的是，强激活突变在致癌类别中更为丰富（Fisher精确检验，p<0.01），并且从致癌到可能致癌和可能中性的比例逐渐降低。我们利用这两种基因的突变效应进行了类似的分析体内筛选研究(图S3C). 我们还发现了其他证据，支持绝大多数已发现的弱激活突变(表S3). 这些结果进一步表明，我们的平台对捕获突变功能和相关信息具有很高的敏感性。

在单独的窗口中打开

图3

我们的功能注释与文献数据和计算预测的比较

（A）我们的激活和中性突变（非冷却）在体外平台结果与OncoKB注释的致癌、可能致癌和可能中性突变进行了比较。显示了每个类别中突变的百分比。与相应的野生型基因相比，激活突变根据激活程度进一步分为强、中、弱三类。条形图上的数字表示每组的突变数。（B）本研究中基于函数调用的21种常用计算算法的ROC曲线，AUC得分为前5名算法。（C）三种3D计算算法中激活突变的丰富。条形图上的数字表示每组的突变数，p<10^-5。请参阅图S3和表S3。

由于缺乏大规模实验数据，用于预测突变效应的计算算法的系统评估受到了限制。我们测试了21种常用于注释的计算算法作为参考标准(图3B). 接收机工作特性（ROC）分析表明，21种算法在ROC曲线（AUC）下的面积为49.7%至76.0%。排名前三的算法是CanDrA plus(Mao等人，2013年)（AUC:76.0%），CHASM(Wong等人，2011年)（AUC:73.4%）和VEST3(Carter等人，2013年)（AUC:72.9%）。尽管这些计算算法达到了一定程度的准确性，但没有一个算法能够完全重现我们的实验结果。除了主要基于基因或蛋白质序列信息的传统预测算法外，最近还开发了使用3D信息的计算预测。因此，我们测试了3D预测算法检测到的簇中的突变是否比不在簇中的更容易激活。我们将855个带有信息功能注释的错义突变与来自3D热点的TCGA突变数据集的3D聚类预测进行了比较(Gao等人，2017年)，热点3D(牛等，2016)和HotMAPS(Tokheim等人，2016年). 我们使用所有三个预测观察到3D簇中激活突变的显著富集（Fisher精确检验，p<2.2×10^-16,图3C)。

我们进一步研究了我们的功能注释与一些常见突变特性的关联，包括蛋白质中的突变位置、突变频率和氨基酸保守性。正如预期的那样，位于蛋白质结构域、热点位置或保守氨基酸中的突变更有可能发挥作用(图S3D-H). 我们还发现，相对表面可及性较低的氨基酸突变（即倾向于位于蛋白质3D结构的核心内）或导致氨基酸电荷从正变为负的氨基酸突变更有可能是功能性的(图S3G和S3H). 这些结果支持了蛋白质生物物理学与功能突变相关的先前工作(Bustamante等人，2000年；Wang和Moult，2001年)。

注释突变的功能蛋白质组分析

突变下游的信号异常告诉我们突变的生物学功能，并可以阐明相关的治疗脆弱性。我们对256个MCF10A细胞系进行了功能蛋白质组分析，这些细胞系使用含有304个抗体的RPPA稳定表达不同突变（包括69个特异性靶向翻译后修饰事件的抗体）。在RPPA分析之前，通过qPCR在RNA水平验证所有细胞系引入突变的表达。重要的是，与转录物一致，在蛋白质水平上也观察到构建体的过度表达(图S4A). 我们首先关注的是BRAF公司和表皮生长因子受体等位基因序列，以评估RPPA分析是否可以捕获同一基因内不同突变的功能注释。我们根据使用所有分析蛋白的样本之间的蛋白质表达相似性，对特定突变相对于表达参考突变的品系的影响进行排序。我们发现，根据细胞中表达的所有蛋白质的模式，具有相同注释的突变倾向于在基于等级的图谱中聚集在一起(图4A和4B). 接下来，我们对不同基因的所有突变进行了无监督聚类分析，以评估全球信号模式。我们发现突变分为6个主要簇，主要基于起源基因(图4C)。BRAF公司突变和ERBB2号机组突变形成了自己的簇，并且表皮生长因子受体突变形成两个簇（EGFR₁和EGFR₂)表明信号通路被不同的表皮生长因子受体突变是明显的。相反，PI3K信号通路基因的大多数突变(PIK3CA公司,PIK3CB公司和PTEN公司)在同一簇中组合在一起，表明信号通路发生了共同的改变。这有点令人惊讶，因为PTEN公司作为抑癌剂和PIK3CA公司和PIK3CB公司致癌，可能是由于PTEN公司与野生型基因相比，突变可能显示功能增强。

在单独的窗口中打开

图4

MCF10A选择性突变的功能蛋白质组分析

（A，B）一个等级顺序图，显示每种蛋白的总体反相蛋白分析（RPPA）蛋白表达模式BRAF公司相对于…的突变BRAF公司^L584F型（A）或每个表皮生长因子受体相对于…的突变表皮生长因子受体^G719D型（B） ●●●●。斯皮尔曼秩相关性是根据所有蛋白质的轮廓计算出来的，突变体是根据其功能注释进行颜色编码的。（C）对268株稳定过度表达所选突变的MCF10A细胞系进行RPPA无监督聚类分析。簇名称在要素轨迹的顶行中进行注释。基因名称和功能调用也显示在功能跟踪中。右侧突出显示了跨簇的关键差异表达蛋白。（D）不同集群之间的差异细胞周期途径活动。（E） PI3K簇中激活突变和非激活突变之间的PI3K/Akt通路活性差异。（F） BRAF簇中激活突变和非激活突变之间的EMT通路活性差异。（D-F）中间线表示中值，方框的顶部和底部表示第25和75百分位，胡须表示第10和90百分位。另请参见图S4和表S4。

我们观察到稳定系中靶蛋白的激活和下游信号靶点的相关激活。例如，p-B-Raf p-RAF1和p-MEK1的高表达水平与BRAF公司突变；p-EGFR、p-SHP-2和p-Stat3的高表达水平与表皮生长因子受体突变；高水平的p-Akt或p-HER2与PIK3CA公司突变和ERBB2号机组突变。有趣的是，在携带BRAF公司BRAF簇中的突变，表皮生长因子受体表皮生长因子受体突变₁集群，ERBB2号机组ERBB2簇和所有簇的突变PIK3CA公司,PIK3CB公司和PTEN公司突变。我们还发现由p-S6、p-mTOR和p-4EBP1定义的mTOR信号在BRAF公司和表皮生长因子受体突变细胞系。

PI3K簇内的所有突变(PIK3CA公司,PIK3CB公司和PTEN公司突变）显示高水平的p-Chk2，令人惊讶的是，Bcl2和IGFRb。三个人PTEN公司集群中的移码突变体表现出PTEN蛋白水平降低，并且与高p-Akt、p-S6和p-mTOR水平相关，与PIK3CA公司突变。三PIK3CA公司突变（E39K、R38C和I112N）与其余的PIK3CA公司突变，且未显示Bcl2、IGFRb和p-Akt的高表达。相反，p-NF-κB和p-YAP的高表达水平表明这些突变是信号转导的变体（即新变体）。引人注目的是，我们的发现与p110α（由PIK3CA公司)和p110β（由编码PIK3CB公司)调节不同的信号级联(Thorpe等人，2017年)。

我们还根据通路得分进行通路分析，这表明通路信号活动(Akbani等人，2014年). 在不同的集群中，细胞周期评分存在显著差异：PI3K和EGFR₂集群显示出最高的细胞周期得分，而EGFR₁混合类得分最低(图4D,表S4). 在PI3K簇内，激活突变显示出比其他突变更高的PI3K通路活性(图4E); 在BRAF群集中，激活突变显示出比其他突变更高的上皮-间充质转化得分(图4F). 多条通路显示两个EGFR簇之间的活性差异(图S4B). 这些结果说明了RPPA分析在阐明驾驶员突变对通路活动的功能影响方面的实用性。

分析表皮生长因子受体和BRAF公司突变等位基因系列

表皮生长因子受体和BRAF公司是最重要的临床可操作基因之一，其突变状态已被常规用于指导临床癌症治疗。我们评估了这些基因中每一个的>120个突变(图5,图S5，表S1)在这两种细胞模型中，有助于为现有临床治疗药物开发新的预测性生物标记物。

在单独的窗口中打开

图5

分析表皮生长因子受体和BRAF公司突变等位基因序列

（A）的功能注释表皮生长因子受体（顶部）和BRAF公司（底部）等位序列。仅显示序列的复发突变。棒棒糖图显示了测试突变的频率（基于TCGA和GENIE数据库）和位置。在heatmap（从上到下）中，一致性功能注释、OncoKB注释、3D结构簇计算预测（HotSpot3D、HotMAPs）、基于人群（VEST）的癌灶（CanDrA）、突变评估器和热点预测（基于Chang等人，2016年)显示了本研究中测试的突变。（B）激活突变的结构簇表皮生长因子受体（左）和BRAF公司（右）。突变标签的填充颜色和边框颜色分别表示OncoKB注释和我们的一致功能注释。另请参见图S5。

对于表皮生长因子受体，我们使用我们的平台筛选了138个突变，包括12个indel、1个移码和8个沉默突变(图5A,图S5A). 我们鉴定了71个激活突变，包括已知的驱动热点突变A289D/T/V、G719A/C/D/S和L858R。在这些突变中，有34个已在OncoKB中注释，34个中有32个（94.1%）被归类为致癌或可能致癌。其余37个激活突变未在OncoKB中注释。因此，我们的研究很可能使该治疗相关基因中潜在驱动突变的数量增加了一倍。重要的是，在表皮生长因子受体不太可能对针对EGFR的治疗药物产生敏感性，从而提高我们对患者进行分层以获得适当治疗方案的能力。此外，与非热点突变相比，我们发现热点突变在测试细胞系中起作用的可能性增加了2倍以上(图5A,图S5AFisher精确检验，p<0.001）。然而，发现的大多数激活突变仍然是低频率的，这突出表明需要对癌症组织中发现的罕见突变进行功能注释。我们的数据还表明，一些罕见的功能突变仅由3D预测算法检测到，而不是由传统算法检测到。例如，L62R既没有在OncoKB中进行注释，也没有被归类为热点(图5A,图S5A). 虽然在线性蛋白序列中远离任何已知的驱动因素，但基于HotMAPS和HotSpot3D预测，L62R与三个致癌突变（R108K、T263P和A289V）聚集在一起(图5B)。

由于外显子19缺失和外显子21突变（L858R）是FDA批准的转移性非小细胞肺癌阿法替尼和埃洛替尼的预测生物标记物，外显子19-21的任何其他激活突变可能是这些药物的潜在预测生物标记。我们使用我们的平台检测了7个外显子19 indels和25个错义突变（外显子19,20）(图S5A). 所有7个indels和12个错义突变（第19外显子2个，第21外显子10个）都被激活，包括L858R，这表明它们有潜力作为EGFR酪氨酸激酶抑制剂的预测生物标记物。除了外显子19中的缺失外，外显子20中的3个缺失被注释为激活。因此，这些新发现的突变应被视为EGFR抑制剂的潜在预测生物标记物。

对于BRAF公司，我们筛选了129个突变，包括7个indel、2个移码和2个沉默突变(图5A,图S5B). 其中，54个突变被注释为激活，包括众所周知的V600突变。在OncoKB注释的31个畸变中，29个（93.5%）被注释为致癌和可能致癌，其余23个突变为UVS。类似表皮生长因子受体虽然在热点中观察到激活突变的富集，但一些功能性突变不是热点。从3D预测来看，在一组已知的驱动基因突变中发现了新的激活突变（例如L613F和S467L），但它们在线性序列中相距甚远(图5B). BRAF抑制剂（vemurafenib或dabrafenib）单独或与MEK抑制剂（trametinib）联合治疗黑色素瘤是FDA批准的BRAF公司^V600型突变。由于几个激活突变与V600在同一结构簇中(图5B)，使用V600聚集激活突变作为BRAF抑制剂预测生物标记物的可能性值得进一步评估。

探索癌症体细胞突变功能效应的门户网站

为了便于广泛使用我们的资源，我们开发了一个用户友好、交互式和开放访问的门户网站FASMIC(F类有功能的A类注释S公司自动的M（M）中的变异C类ancer），用于全面查询和可视化与突变相关的数据(http://bioinformatics.mdanderson.org/main/FASMIC). 我们所有检测的突变都在FASMIC中进行了筛选，目前包括六个模块：摘要、3D结构、文献、突变频率、功能预测和蛋白质表达(图6A). 要查找突变，用户可以首先在输入框中查询其基因符号，然后选择匹配的基因以显示所有相关突变(图6B). 所有查询到的突变都显示在一个表格视图中，以及每个突变的基本信息，例如基因名称、基因组位置、氨基酸变化和功能注释。表下有六个模块。i） “摘要”显示所选突变的详细信息，包括基因组构建版本、基因组坐标、核苷酸变化、变体分类、变体类型和功能注释。ii）“3D结构”使用动态3D动画来显示3D蛋白质结构中被查询突变的位置(图6C). iii）“突变频率”在条形图中显示从TCGA突变数据中获得的突变频率(图6D). iv）“功能预测”提供由流行计算算法进行的功能预测(图6E). v）与野生型基因相比，“蛋白质表达”提供了因突变而改变的MCF10A系的丰富蛋白质表达数据，有助于解释突变的特定功能后果(图6F). vi）“PubMed”在列表视图中提供所有相关PubMed-参考。该门户还提供支持功能注释的细胞存活率数据。

在单独的窗口中打开

图6

FASMIC门户概述

（A）数据门户摘要。（B）的突变表表皮生长因子受体（C）p110α的3D蛋白质结构（由PIK3CA公司)残基K111以红色突出显示。（D）不同癌症类型的突变频率条形图。（E）表中显示了各种计算算法的功能预测，破坏性突变以深红色突出显示。（F）表皮生长因子受体与野生型基因相关的突变体显示在分类散点图中。

讨论

使用高通量功能筛查突变体内以汇总的形式进行的筛查已经确定了一些罕见的致癌突变。然而，尚不清楚结果是否受到不同驾驶员活动突变之间竞争的影响。体内对个体突变的筛选已被证明可以识别弱突变(Kim等人，2016年)但它太耗时且劳动密集，无法用于筛查大量突变。为了解决这些问题并获得合理的吞吐量，我们在适度吞吐量平台中单独测试了突变。与OncoKB相比，我们的平台捕获了更多已知的致癌突变（80.9%）体内合并筛选（30.3%和40.9%）(Berger等人，2016年,Kim等人，2016年) (图3A,图S3C). 此外，肿瘤抑制基因的突变，如PTEN公司和CDKN2A基因可以在我们的平台上放映，但不能在体内筛选设置。在我们的平台上，PTEN公司和CDKN2A基因野生型基因显示细胞生长受到抑制。共24个PTEN公司经检测的突变中，9个截断突变和12个错义突变导致野生型基因失去抑制特性。类似于CDKN2A基因，在评估的4个突变中，唯一的移码突变（L78Hfs*41）导致野生型基因的抑制性丧失。我们的数据清楚地表明，我们的平台可以筛选选定的肿瘤抑制基因的功能突变。

功能注释中的敏感性和特异性是一种权衡。随着捕获激活突变的敏感性增加，我们平台的一个担忧是潜在的假阳性。在本研究中，我们评估了27个沉默突变的功能效应，其中没有一个与相应的野生型不同，表明其具有较高的特异性。此外，只有我们捕获的六个激活突变在OncoKB中被注释为可能是中性的。然而，OncoKB是一个纯粹基于文献的数据库，它严重偏向于致癌突变，可能存在的中性突变数量有限。我们平台的假阳性率评估不能仅用OncoKB数据库进行，应在将来可用的其他基于实验的功能注释数据库中进行。总的来说，75.7%的突变功能注释在Ba/F3和MCF10A模型之间是一致的，这限制了假阳性的可能性。只有在Ba/F3模型中发现的22个弱激活突变在MCF10A模型中未被确认为激活，这表明它们是潜在的假阳性。为了评估我们对这22个突变的功能注释，我们从基于知识的数据库（OncoKB和PCT）、计算预测（CanDrA和CHASM，这是基于我们数据的最佳执行算法）和3D预测（HotMAPS和HotSpot3D）中寻找支持其激活特性的证据。在22个弱激活突变中，至少有一个证据来源（STAR方法和表S3). 因此，从我们的平台获得的潜在假阳性注释的数量可能低至301个激活突变中的4个（1.3%）。此外，最近的一项研究(Watanabe-Smith等人，2017年)提示转染弱激活突变的Ba/F3细胞在IL-3充满条件下长时间培养时，可以获得外源基因的额外突变。重要的是，我们的每个结构都来自单个克隆，并在使用前进行了测序，这限制了结构中预先存在突变的可能性。此外，转导后未添加IL-3，我们的检测仅限于3周，这进一步降低了获得性突变的可能性。

我们认识到我们平台的其他局限性。首先，平台中测试的基因大小受到4.5kb慢病毒包装限制。第二，一些突变的影响可能在很大程度上取决于肿瘤的背景。为了限制这种担忧，我们采用了两种具有完全不同遗传背景的细胞模型，进一步的研究表明，Ba/F3和MCF10A的结果可以在相关的人类细胞系和异种移植模型中大致得到重述(Cheung等人，2014年；Dogruluk等人，2015年；Liang等人，2012年). 我们的数据表明，Ba/F3模型中的24个非信息基因在MCF10A模型中具有信息性，而MCF10A模型中的6个非信息性基因在Ba/F3模式中具有信息。众所周知的抑癌基因印尼盾1在我们的平台上进行了测试，野生型基因和所有测试的突变都没有活性。这表明，一些基因需要在其他肿瘤组织特异性环境中进行评估，以阐明其功能。这些基因或突变的功能效应在我们的平台上可能会被忽略。第三，我们只评估了对细胞活力和增殖的影响。然而，这些都是癌症的标志，是大多数治疗方法的关键目标。最后，我们注意到合并筛查，特别是体内联合筛查在规模和成本以及捕捉肿瘤微环境的影响方面都有好处。因此，我们的方法和联合筛选方法是互补的，共同为研究界提供了最有价值的信息。

Star方法

试剂和资源共享联系人

有关资源和试剂的更多信息和请求，请直接联系首席联系人韩亮，并由其完成(1gnaiLH下的总人数)。

实验模型和主题细节

组织培养细胞

LentiX-293T细胞（Clontech）在含有5%FBS和1×非必需氨基酸的DMEM（含高糖、谷氨酰胺和丙酮酸钠）中培养。LentiX-293T细胞用于制造慢病毒。Ba/F3细胞是依赖外源性IL-3维持细胞生存的小鼠B前悬浮细胞。Ba/F3细胞的生长培养基是含有1×GlutaMAX、5%FBS和1ng/ml小鼠IL-3的晚期RPMI。Ba/F3的检测培养基为不含IL-3的生长培养基。MCF10A细胞是人类非肿瘤性乳腺上皮细胞，依赖外源性EGF和胰岛素进行增殖。MCF10A细胞的生长培养基为含有5%HS、20 ng/ml EGF、0.5 mg/ml氢化可的松、100 ng/ml霍乱毒素、10μg/ml胰岛素、1×Pen/strep的DMEM/F12培养基。MCF10A细胞的检测培养基是含有100 ng/ml霍乱毒素和52 ng/ml牛垂体提取物（BPE）（Lonza#CC-4009）的MEBM基础培养基（Lonza#CC-3151）。

方法详细信息

HiTMMoB构建慢病毒载体

如前所述，通过高通量突变和分子条形码（HiTMMoB）技术，用pHAGE-EF1α-GFP或pHAGE_EF1α-PURO骨架构建了条形码野生型、突变、融合基因和对照慢病毒载体(Dogruluk等人，2015年；Tsang等人，2016年; Lu等人，2017年）。使用的ORF条目克隆来自Life Technologies或ORFeome 8.1(http://horfdb.dfci.harvard.edu/). 所有ORF序列显示在表S1。所有突变克隆在分析之前都进行了全长测序，以确保与模板ORF相比没有引入不需要的突变。突变和野生型构建物可通过Addgene与癌症研究社区共享。

Ba/F3和MCF10A生长因子独立性分析

为了评估候选细胞的功能，我们使用了两种生长因子依赖性细胞模型，Ba/F3和MCF10A细胞模型。这两种细胞类型都停止增殖，并在缺乏所需因子的情况下死亡。其基本原理是，在缺乏所需生长因子的情况下，“驱动”突变将赋予细胞生存和增殖优势，而“乘客”突变则不会。将突变候选基因与不同类型的对照组一起放入两种细胞模型中。首先，两个实验阴性对照（GFP、mCherry或荧光素酶）和三个实验阳性对照(PIK3CA公司具有不同活性（即野生型<M1043I<H1047R）的野生型、M1043I和H1047R）用作技术控制，以检查实验是否表现良好。其次，在同一实验中，对突变及其对应的野生型对应物进行了平行评估，后者决定了细胞模型中基因的基本活性。第三，对于选定的基因，沉默和文献报道的驱动突变被分别用作额外的对照，以确定基因的基础活性和激活活性。总共有1049个突变被分批检测，每个批次多达33个突变。在每个实验（即批次）中，包括5个实验对照组（2个阴性和3个阳性）和相应的野生型克隆。如果可能，还包括其他沉默和基因特异性阳性突变。

对于每个实验，从单个菌落新鲜制备突变体和野生型基因的pHAGE构建体，并用于产生用于Ba/F3和MCF10A转导的慢病毒。通过转染pHAGE和两种包装质粒（psPAX2和pMD2.G）在LentiX-293T细胞中生成慢病毒。转染细胞的培养基在转染后16小时刷新。转染后3天，用0.45μM滤纸过滤，收集病毒。在聚brene（最终浓度：8μg/ml）存在下，以1000×g的浓度旋转接种Ba/F3细胞（60万细胞）3小时。旋转后，细胞以24孔平板格式重新悬浮在Ba/F3分析介质中。对于MCF10A细胞，在转导前1天将5000个细胞接种到96个培养板中，并在聚brene（最终浓度：2.7μg/ml）的存在下以906×g的浓度接种转导2小时。用MCF10A分析培养基进行旋转接种后刷新培养基。将转导的细胞在37°C下培养3周。在3周的分析期间，在4个时间点（每隔3或4天）测量Ba/F3和MCF10A细胞的细胞活力。突变的功能注释基于与相应野生型克隆的比较(图S2A)。

体内合并筛选

通过慢病毒将条形码突变和野生型对应物分别转导到Ba/F3细胞中，并将转导的细胞在嘌呤霉素选择性条件下扩增一周，直到达到足够的细胞注射到小鼠。将细胞注射到小鼠体内。根据肿瘤的大小，在50天内采集肿瘤。对条形码进行排序。与注射当天的输入相比，收获的肿瘤中相应条形码的富集显示了突变的致癌性。

OncoKB注释、文献挖掘和计算预测的比较

将我们的函数注释与上一个进行比较体内研究(Berger等人，2016年；Kim等人，2016年)，我们首先确定了我们的平台和之前的研究中常见的突变，其中分别有21个和14个共享突变。为了将我们的注释与OncoKB进行比较，我们从http://onckb.org，并鉴定出193个常见突变，其中95个是致癌的，83个可能致癌的和15是可能中立为了将我们的功能注释与常用算法预测的突变影响进行比较，我们测试了21种算法的913个点突变。除了CanDrA plus和CHASM(Douville等人，2013年)，我们从dbNSFP获得了其他19个算法(刘等，2016). ROC曲线是根据dbNSFP中定义的排名得分生成的。

为了评估文献中是否报告了任何给定的突变，我们使用基因符号和氨基酸变化作为关键词来查询PubMed。我们计算了在特定基因中报告的测试突变的比例。此外，还包括OncoKB和PCT数据库管理的突变进行比较。

反向蛋白质阵列

用PBS洗涤细胞颗粒两次，并将其溶解（1%Triton X-100，50 mM HEPES，pH 7.4，150 mM NaCl，1.5 mM MgCl₂1 mM EGTA、100 mM NaF、10 mM焦磷酸钠、1 mM Na_三VO（旁白）₄、10%甘油、蛋白酶和磷酸酶抑制剂）。蛋白质浓度调节为1-1.5μg/μl，并用1%十二烷基硫酸钠变性。细胞裂解物被连续两倍稀释5倍（从未稀释到1:16稀释），并以11×11的格式排列在含硝化纤维素的载玻片上。样品通过CSA扩增法用抗体进行检测，并通过DAB比色反应进行可视化。

在平板扫描仪上扫描幻灯片，生成16位tiff图像。通过Array-Pro Analyzer识别tiff图像中的斑点并量化密度。通过从载玻片（抗体）的“标准曲线”（Supercurve）插入每个稀释曲线来确定每个样品的相对蛋白质水平。超级曲线是使用R（“超级曲线拟合”，http://bioinformatics.mdanderson.org/Software/supercurve). 各稀释曲线均采用logistic回归模型进行拟合。这拟合了一条曲线，使用载玻片上的所有样本（即稀释系列），将信号强度作为响应变量，稀释步骤作为自变量。使用非参数单调递增B样条模型绘制拟合曲线（“超曲线”），其中包括y轴上的信号强度和x轴上每个蛋白质的相对log2浓度。在此过程中，在模型拟合之前，对原始光斑强度数据进行了调整，以纠正空间偏差。每张幻灯片都会返回一个质量控制指标，以帮助确定幻灯片的质量：如果0-1分制的分数小于0.8，则该幻灯片被删除。在大多数情况下，重复染色以获得高质量分数。

然后用中值磨光法对每组载玻片的蛋白质浓度进行归一化，通过使用所有抗体实验的中值表达水平的线性表达值对样本进行校正，以计算每个样本的负载校正因子。这些值（以日志形式给出₂值）定义为超曲线日志₂（原始）值。所有数据点均归一化为蛋白质负荷。

路径得分分析

对于每个样品j个在一条小路上k、，路径得分(S公司_千焦)根据z分数计算(Z轴_我)每个蛋白质成员的我使用公式(Akbani等人，2014年)，如下所述，其中W公司_ki公司是每种蛋白质的重量我在路上k、和‖P（P）_k个‖表示通路中的蛋白质数量k、。通路蛋白成员及其相应的重量是从先前的研究中获得的。

{S公司}_{k个 j个} = \frac{\sum_{我 = 1}^{‖ {P（P）}_{K（K）} ‖} ({Z轴}_{k个 我 j个} \cdot {W公司}_{k个 我})}{\sum_{我 = 1}^{‖ {P（P）}_{K（K）} ‖} | {W公司}_{k个 我} |}

癌症突变的文本挖掘

为了评估文献中是否报告了特定突变，我们使用基因符号和氨基酸变化作为关键词查询PubMed。我们计算了2016年底报告的突变比例。该过程由R包“RISmed”执行。由OncoKB数据库和PCT策划的突变(www.personalizedcancertherapy.org)出于比较目的也包括在内。

Pfam领域和热点分析

这些基因的蛋白质序列是通过R包“biomRt”获得的。我们使用HMMER将Pfam域映射到基因(Finn等人，2011年)并获得了Pfam结构域的存在和相应的范围（起始残基和结束残基）。根据Pfam结构域的范围绘制突变图，以确定突变是否位于Pfam域内。Fisher精确检验用于评估Pfam域内外功能突变比例的差异。此外，我们计算了映射到热点和非热点的功能突变比例，并使用Fisher精确检验来评估差异。

结构分析和棒棒糖图

为了评估突变是位于蛋白质的表面还是核心，对蛋白质序列进行NetSurfP程序(Petersen等人，2009年)，并检索每个蛋白质残基的相对表面可及性（RSA）和绝对表面可及度（ASA）得分。然后，我们将突变映射到蛋白质序列，以获得每个突变的相关得分，并通过Wilcoxon秩和检验评估功能性和非功能性突变的得分差异。

我们下载了所有的突变数据表皮生长因子受体和BRAF公司在所有TCGA和GENIE癌症样本中，从cBioPortal中鉴定出252个突变用于功能注释。接下来，我们计算每个突变的突变样本数。使用MutationMapper生成棒棒糖图(Vohra和Biggin，2013年). 使用R包“pheatmap”绘制热点或文献中报告的突变热图。

突变影响的3D结构预测

对MC3 MAF的突变以及经验证的突变进行HotSpot3D测试，以确定蛋白质结构上存在哪些突变簇(牛等，2016). 使用默认的HotSpot3D参数，仅对错义突变和帧内插入/删除进行聚类。标记为缺失和插入的突变被删除，并且没有聚集。对于得到的簇，计算簇的紧密度，这只是簇中突变的紧密度中心度的总和。紧密度中心性是衡量一个突变与其他突变之间的距离，以及一个突变和高度重复的突变之间的关系。我们确定了来自先前定义的已知癌症基因的簇(Tamborero等人，2013年). 癌症基因分布的聚类贴近度值的前20%作为阈值来确定显著性（Cc>8.2）。如前所述，使用相同的MC3 MAF文件，在每种癌症类型和所有癌症类型分组（“PANCAN”）中使用HotMAPS v1.1.0(Tokheim等人，2016年)生成热点区域，并估计蛋白质结构中突变密度的背景分布。使用MuPIT数据库，仅将错义突变映射到可用的蛋白质结构和同源性模型(Niknafs等人，2013年). 然后，我们将错义突变映射到同一组蛋白质结构，并根据TCGA数据计算突变密度。HotMAPS检测突变氨基酸残基是否具有高于偶然预期的三维突变密度。由于该检测不是癌症类型特异性的，我们采用癌症类型和PANCAN的最小p值作为每个残基的代表。我们将发生在相同氨基酸残基上的所有突变指定为相同的p值。统计显著性以0.01的阈值假发现率确定（Benjamini-hochberg方法）。只有显著性高于阈值的簇中的突变在图5和图S5为了可视化聚类，我们使用蛋白质数据库（PDB）结构3NJP表示EGFR，4MBJ表示BRAF图5B。3D热点检测的突变用注释http://www.3dhotspots.org。

FASMIC数据门户建设

FASMIC web界面是用JavaScript实现的。FASMIC中使用的所有数据都保存在CouchDB数据库中；数据表显示表格结果；方框图和散点图由HighCharts生成；蛋白质3D结构信息由PDB获得，并通过3Dmol.js可视化(Rego和Koes，2015年)。

量化和统计分析

各种统计检验的显著性定义在其各自的方法细节部分进行了描述和引用。

数据和软件可用性

FASMIC数据门户中提供了每个突变的功能注释和细胞存活率数据以及所选突变的RPPA蛋白谱(http://bioinformatics.mdanderson.org/main/FASMIC)。

集锦

开发了用于体细胞突变注释的多功能基因组平台
注释>1000个基因组畸变，使已知驾驶员突变数量加倍
评估现有变异函数预测算法的性能
为基于社区的调查建立一个用户友好、开放访问的数据门户

重要性

最近的测序研究已经确定了患者肿瘤中数千种独特的体细胞突变，其中绝大多数是意义不明的癌症变体。重要的是，同一基因的不同突变可能对癌症发展和药物反应产生不同的功能影响。使用一种通用、敏感的功能基因组方法，我们系统地评估了大量体细胞变化对细胞活力和下游信号传导的影响。我们确定了许多尚未确定特征的潜在驱动因素突变。我们的研究结果和相关的生物信息学数据门户为改善患者护理和治疗发展提供了宝贵的资源。

补充材料

1

表S1，与 图1。本研究中检测的基因组畸变。以Excel文件提供。

表S2，与 图2。在独立重复实验中测试的选定突变和野生型。以Excel文件提供。

表S3，与 图3。关于图S3A至S3C中提及的突变和Ba/F3中弱激活突变的更多信息。以Excel文件的形式提供。

表S4，与 图4。Pathway分数成员和权重。以Excel文件提供。

单击此处查看。^{（170万，pdf）}

致谢

这项研究得到了美国的支持。S。国立卫生研究院（CA168394、CA098258、CA143883和HG008100至G.B.M.、CA175486至H.L.、CA209851至H.L.和G.B.M.、CA176284和CA70907至A.F.G.和J.D.M.、CA 204817至R.K.、CA200266至C.T.和癌症中心支持拨款CA016672）；德克萨斯州癌症预防和研究所的拨款（RP140462给H.L.，RR160021给N.S.，RP150535给F.M.）；以及阿德尔森医学研究基金会（致G.B.M.）、香港研究拨款委员会（27103616）和中国国家自然科学基金会（81703066）向L.W.T.C.提供资助，并由阿斯利康英国有限公司向G.B.M提供研究资助。我们感谢美国癌症研究协会（American Association for Cancer Research）及其在开发AACR项目GENIE登记册过程中提供的财政和物质支持，感谢财团成员致力于数据共享，并感谢LeeAnn Chastain提供的编辑协助。这份手稿是献给蜂蜜獾的。

脚注

作者贡献：Sahni N、Liang H和Mills GB监督了整个项目；Scott KL、Meric-Bernstam F、Yi S、Sahni N、Liang H和Mills GB构思并设计了该研究；Ng P、Li J、Jeong KJ、Chen H、Sengupta S、Wang Z、Minussi D、Gao J、Tokheim C、Zhou D、Johnson AM、Zeng J、Ju Z、Li Y、Vellano C、Schultz N、Karchin R、Ding L、Chen K、Yi S、Sahni N、Liang H和Mills GB对数据分析做出了贡献；Ng P、Li J、Jeong KJ、Shao S、Tsang S、Bhavana VH、Tran R、Soewito S、Moreno D、Kong K、Shaw K、Dogruluk T、Lu H、Ip CKM、Wester M、Yu S、Lu Y、Cheung LWT、Shaw KR、Meric-Bernstam F、Scott KL、Yi S、Sahni N、Liang H和Mills GB参与了实验；Li J和Chen H实现了门户网站。Ng P、Li J、Yi S、Sahni N、Liang H和Mills GB撰写了手稿，其他作者提供了输入。

利益声明：G.B.M.是阿斯利康、ImmunoMet、Nuevolution和精准医学科学咨询委员会成员；H.L.是Precision Scientific Ltd.科学咨询委员会的股东。本研究涉及美国专利申请编号：US 2016/0122825 A1。

出版商免责声明：这是一份未经编辑的手稿的PDF文件，已被接受出版。作为对客户的服务，我们正在提供这份早期版本的手稿。手稿在以最终可引用的形式出版之前，将经过编辑、排版和校对结果证明。请注意，在制作过程中可能会发现可能影响内容的错误，适用于该期刊的所有法律免责声明均适用。

工具书类

Akbani R、Ng PK、Werner HM、Shahmoradgoli M、Zhang F、Ju Z、Liu W、Yang JY、Yoshihara K、Li J等。《癌症基因组图谱的泛癌蛋白质组学观点》。自然通信。2014;5:3887. [PMC免费文章][公共医学][谷歌学者]
Berger AH、Brooks AN、Wu X、Shrestha Y、Chouinard C、Piccioni F、Bagul M、Kamburov A、Imielinski M、Hogstrom L等。肺癌体细胞突变的高通量表型。癌细胞。2016;30:214–228. [PMC免费文章][公共医学][谷歌学者]
Bustamante CD，Townsend JP，Hartl DL。大肠杆菌和肠炎沙门氏菌蛋白质的溶剂可及性和纯化选择。分子生物学和进化。2000;17:301–308.[公共医学][谷歌学者]
癌症基因组图谱研究，N.Weinstein JN，Collisson EA，Mills GB，Shaw KR，Ozenberger BA，Ellrott K，Shmulevich I，Sander C，Stuart JM。癌症基因组图谱泛癌分析项目。自然遗传学。2013;45:1113–1120. [PMC免费文章][公共医学][谷歌学者]
Carter H，Douville C，Stenson PD，Cooper DN，Karchin R.使用变异效应评分工具识别孟德尔病基因。BMC基因组学。2013;14补遗3：S3。 [PMC免费文章][公共医学][谷歌学者]
Carter H，Karchin R.预测肿瘤中发现的体细胞错义突变的功能后果。分子生物学方法。2014;1101:135–159.[公共医学][谷歌学者]
Chakravarty D、Gao J、Philips SM、Kundra R、Zhang H、Wang J、Rudolph JE、Yaeger R、Soumerai T、Nissan MH等。OncoKB:精准肿瘤学知识库。JCO精准肿瘤学。2017新闻界。[PMC免费文章][公共医学][谷歌学者]
Chang MT、Asthana S、Gao SP、Lee BH、Chapman JS、Kandoth C、Gao J、Socci ND、Solit DB、Olshen AB等。癌症复发突变的鉴定揭示了广泛的谱系多样性和突变特异性。自然生物技术。2016;34:155–163. [PMC免费文章][公共医学][谷歌学者]
Cheung LW，Hennessy BT，Li J，Yu S，Myers AP，Djordjevic B，Lu Y，Stemke Hale K，Dyer MD，Zhang F等。子宫内膜癌中PIK3R1和PIK3R2突变的高频率阐明了PTEN蛋白稳定性调节的新机制。癌症发现。2011;1:170–185. [PMC免费文章][公共医学][谷歌学者]
Cheung LW，Yu S，Zhang D，Li J，Ng PK，Panupinthu N，Mitra S，Ju Z，Yu Q，Liang H等。自然发生的新形态PIK3R1突变激活MAPK通路，指示对MAPK通路抑制剂的治疗反应。癌细胞。2014;26:479–494. [PMC免费文章][公共医学][谷歌学者]
Dogruluk T、Tsang YH、Espitia M、Chen F、Chen T、Chong Z、Appadurai V、Dogrulok A、Eterovic AK、Bonnen PE等。通过罕见突变的快速表型鉴定PIK3CA的变异体特异功能。癌症研究。2015;75:5341–5354. [PMC免费文章][公共医学][谷歌学者]
Douville C、Carter H、Kim R、Niknafs N、Diekhans M、Stenson PD、Cooper DN、Ryan M、Karchin R.CRAVAT：癌症相关变异分析工具包。生物信息学。2013;29:647–648. [PMC免费文章][公共医学][谷歌学者]
Finn RD、Clements J、Eddy SR.HMMER web服务器：交互式序列相似性搜索。核酸研究。2011;39：W29–37。 [PMC免费文章][公共医学][谷歌学者]
Gao J、Chang MT、Johnsen HC、Gao SP、Sylvester BE、Sumer SO、Zhang H、Solit DB、Taylor BS、Schultz N等。癌症体细胞突变的3D簇揭示了许多罕见突变作为功能靶点。基因组医学。2017;9:4. [PMC免费文章][公共医学][谷歌学者]
Jaiswal BS、Kljavin NM、Stawiski EW、Chan E、Parikh C、Durinck S、Chaudhuri S、Pujara K、Guillory J、Edgar KA等。人类癌症中的致癌ERBB3突变。癌细胞。2013;23:603–617.[公共医学][谷歌学者]
Kandoth C、McLellan MD、Vandin F、Ye K、Niu B、Lu C、Xie M、Zhang Q、McMichael JF、Wyczalkowski MA等。12种主要癌症类型的突变景观和意义。自然。2013;502:333–339. [PMC免费文章][公共医学][谷歌学者]
Kim E、Ilic N、Shrestha Y、Zou L、Kamburov A、Zhu C、Yang X、Lubonja R、Tran N、Nguyen C等。罕见癌症变异体的系统功能询问识别致癌等位基因。癌症发现。2016;6:714–726. [PMC免费文章][公共医学][谷歌学者]
Kohsaka S、Nagano M、Ueno T、Suehara Y、Hayashi T、Shimada N、Takahashi K、Suzuki K、Takamochi K、Taka shi F等。一种对未知癌症意义的EGFR基因变体进行高通量功能评估的方法。科学事务医学。新闻界。[公共医学][谷歌学者]
Kurnit KC、Bailey AM、Zeng J、Johnson AM、Shufean MA、Brusco L、Litzenburger BC、Sanchez NS、Khotskaya YB、Holla V、Simpson A、Mills GB、Mendelsohn J、Bernstam E、Shaw K、MericBernstam F.“个性化癌症治疗”：一种公开的精确肿瘤学资源。癌症研究。2017;77：e123–126。 [PMC免费文章][公共医学][谷歌学者]
Li J，Zhao W，Akbani R，Liu W，Ju Z，Ling S，Vellano CP，Roebuck P，Yu Q，Eterovic AK，et al.用反相蛋白阵列表征人类肿瘤细胞系。癌细胞。2017;31:225–239. [PMC免费文章][公共医学][谷歌学者]
Liang H，Cheung LW，Li J，Ju Z，Yu S，Stemke-Hale K，Dogruluk T，Lu Y，Liu X，Gu C等。结合功能基因组学的全外显子组测序揭示了子宫内膜癌中新的候选驱动基因。基因组研究。2012;22:2120–2129. [PMC免费文章][公共医学][谷歌学者]
Liu X，Wu C，Li C，Boerwinkle E.dbNSFP v3.0：人类非同义和拼接位点SNV功能预测和注释的一站式数据库。哼，变种。2016;37:235–241. [PMC免费文章][公共医学][谷歌学者]
Mao Y，Chen H，Liang H，Meric-Bernstam F，Mills GB，Chen K.CanDrA：具有优化特征的癌症特异性驱动因素错义突变注释。请给我一个。2013;8：e77945。 [PMC免费文章][公共医学][谷歌学者]
Niknafs N、Kim D、Kim R、Diekhans M、Ryan M、Stenson PD、Cooper DN、Karchin R.MuPIT interactive:用于将变量位置映射到带注释的交互式3D结构的Web服务器。人类遗传学。2013;132：1235-1243。 [PMC免费文章][公共医学][谷歌学者]
Niu B、Scott AD、Sengupta S、Bailey MH、Batra P、Ning J、Wyczalkowski MA、Liang WW、Zhang Q、McLellan MD等。蛋白质结构引导下发现19种癌症类型的功能突变。自然遗传学。2016;48:827–837. [PMC免费文章][公共医学][谷歌学者]
Petersen B、Petersen TN、Andersen P、Nielsen M、Lundegaard C。一种用于溶剂可及性预测的可靠性分数分配的通用方法。BMC结构生物学。2009;9:51. [PMC免费文章][公共医学][谷歌学者]
Porta-Pardo E、Kamburov A、Tamborero D、Pons T、Grases D、Valencia A、Lopez-Bigas N、Getz G、Godzik A。亚基因分辨率下癌症驱动因素检测算法的比较。自然方法。2017;14:782–788. [PMC免费文章][公共医学][谷歌学者]
Rego N，Koes D.3Dmol.js：使用WebGL进行分子可视化。生物信息学。2015;31:1322–1324. [PMC免费文章][公共医学][谷歌学者]
Sahni N，Yi S，Zhong Q，Jailkhani N，Charloteaux B，Cusick ME，Vidal M.Edgotype：基因型和表型之间的基本联系。遗传学与发展的当前观点。2013;23:649–657. [PMC免费文章][公共医学][谷歌学者]
Scott KL，Powers S.功能评估候选驱动因素推进精准癌症医学。癌细胞。2016;30:187–189.[公共医学][谷歌学者]
Takiar V、Ip CK、Gao M、Mills GB、Cheung LW。新形态突变给癌症的治疗带来了挑战。致癌物。2017;36:1607–1618. [PMC免费文章][公共医学][谷歌学者]
Tamborero D、Gonzalez-Perez A、Perez-Llamas C、Deu-Pons J、Kandoth C、Reimand J、Lawrence MS、Getz G、Bader GD、Ding L等。跨12种肿瘤类型突变癌症驱动基因的综合鉴定。科学报告。2013;三:2650. [PMC免费文章][公共医学][谷歌学者]
Thorpe LM、Spangle JM、Ohlson CE、Cheng H、Roberts TM、Cantley LC、Zhao JJ。PI3K-p110α介导由新的肿瘤抑制因子PI3K-p85α缺失诱导的致癌活性。美国国家科学院。2017;114:7095–7100. [PMC免费文章][公共医学][谷歌学者]
Tokheim C、Bhattacharya R、Niknafs N、Gygax DM、Kim R、Ryan M、Masica DL、Karchin R。利用3D蛋白质结构在人类癌症热点突变区域的外显子尺度发现。癌症研究。2016;76:3719–3731. [PMC免费文章][公共医学][谷歌学者]
Tsang YH、Dogruluk T、Tedeschi PM、Wardwell Ozgo J、Lu H、Espitia M、Nair N、Minelli R、Chong Z、Chen F等。胰腺癌罕见基因畸变驱动因素的功能注释。自然通信。2016;7:10500. [PMC免费文章][公共医学][谷歌学者]
Vohra S，Biggin PC。突变映射器：一种帮助绘制蛋白质突变数据的工具。请给我一个。2013;8：e71711。 [PMC免费文章][公共医学][谷歌学者]
Wang Z，Moult J.单核苷酸多态性，蛋白质结构和疾病。人类突变。2001年；17:263–270.[公共医学][谷歌学者]
Warmuth M，Kim S，Gu XJ，Xia G，Adrian F.Ba/F3细胞及其在激酶药物发现中的应用。肿瘤学的当前观点。2007;19：55–60。[公共医学][谷歌学者]
Watanabe-Smith K、Godil J、Agarwal A、Tognon C、Druker B。Ba/F3转化试验中产生的转基因获得性突变分析：发现和建议。Oncotarget公司。2017;8：12596–12606。 [PMC免费文章][公共医学][谷歌学者]
Wong WC、Kim D、Carter H、Diekhans M、Ryan MC、Karchin R.CHASM和SNVBox：检测癌症中具有生物重要性的单核苷酸突变的工具包。生物信息学。2011;27:2147–2148. [PMC免费文章][公共医学][谷歌学者]
Yi S，Lin S，Li Y，Zhao W，Mills GB，Sahni N.功能变异组学和网络扰动：癌症中基因型与表型的联系。《自然》杂志评论遗传学。2017;18:395–410. [PMC免费文章][公共医学][谷歌学者]