PTEN丰度的突变耐受模式
我们之前开发了VAMP-seq,这是一种通用的方法,可以同时测量数千种错义蛋白变体对细胞内丰度的影响[9]. 在VAMP-seq中,每个细胞表达一种不同的蛋白变体,直接融合到荧光蛋白,如增强型绿色荧光蛋白(EGFP),因此每个细胞的荧光水平与该蛋白变体的稳态丰度成正比。将单拷贝、定点基因组整合到HEK 293T着陆垫细胞系中,可以以集合的形式表达数千种蛋白变体的文库[23]. 然后使用荧光激活细胞分选(FACS)将汇集的细胞分为四个分级荧光箱。高通量DNA测序用于量化每个变体在四个箱子中的分布,并对该分布进行分析,以得出每个变体的丰度得分。迄今为止,VAMP-seq已应用于五种蛋白质:PTEN[9]、TPMT[9],NUDT15[24],VKOR[25]和CYP2C9[26].
为了补充我们最初测量的4407个PTEN变体的丰度[9],我们生成了一个新的PTEN库,重点放在初始实验中覆盖率低的位置(附加文件1:图S1A、B)。我们使用简并NNK引物对198个低覆盖位点进行扩增,将得到的PTEN变异文库与EGFP融合,并用唯一的核苷酸条形码标记每个质粒。我们将该库引入改进的HEK 293T着陆垫细胞系[14]通过使用内置的iCasp9盒触发培养物中未修饰细胞的凋亡,可以快速富集表达文库的修饰细胞。我们使用该文库进行了七次重复的VAMP-seq实验,获得了该二级文库中4186个独特变体的额外丰度数据。在最初和新的实验中,在5个或更多重复中观察到272个变体,这些重叠变体的丰度得分具有很好的相关性(Pearson’s第页20.70,图。1A) ●●●●。与重叠变异体得分相匹配的线性模型斜率为0.89,截距为0.11,这表明两个库的丰度得分可以合并,而无需额外的归一化步骤。
因此,我们汇总了初始库和新库的丰度得分(附加文件1:图S1C)。我们通过取在4次或4次以上复制中观察到的变体的所有复制分数的平均值来创建一个复合丰度分数,这是我们使用同义变体和无义变体分离的排列测试设置的阈值(附加文件1:图S2)[17]. 正如预期的那样,由两个或更多唯一密码子编码的变体数量随着复合数据集的增加而增加(附加文件1:图S3A)。4721个变体的最终过滤数据集包括174个同义变体、160个无义变体和4387个错义变体,包括764个在初始实验中未得分的变体(图。1B) ●●●●。在初始实验中得分的3904个变体得到了适度细化的分数,降低了许多变体的变异系数(附加文件1:图S3B)。这导致变异系数小于0.5的变体数量净增加12.5%(附加文件1:图S3C)。我们将修订后的分数与一组24个PTEN变异体进行了比较,我们分别评估了原始手稿中的稳态丰度,虽然相关系数没有随着修订后的得分而改变,但这可能是因为与原始数据的相关性已经很高(斯皮尔曼ρ2= 0.93; 其他文件1:图S3D)。总之,自信地指定低丰度分类的变体数量从1260个增加到1423个,自信地分配WT-like分类的变体的数量从1577个增加到1738个变体(附加文件1:图S3E)。因此,随着细胞和库工程方法的改进,VAMP-seq数据集可以通过包含新变体的额外复制来支持,并且可以重新分析现有数据集以创建更完整和准确的数据集。
复合丰度数据集的一个优点是具有高变异覆盖率的位置数量增加,揭示了每个位置可耐受的氨基酸替代模式。复合数据集包括61个位置,其中约90%的错义变体被评分(从最初的50个位置增加),22个位置被完全覆盖(从原来的9个位置增加了)。我们对高覆盖位置丰度得分进行了层次聚类,得出了不耐受、部分耐受和耐受位置组(图。1C) ●●●●。大约一半(n个=33)个位置几乎都能耐受替换。相比之下,15个职位对替换有部分容忍度,而其余13个职位则不容忍。残留物Arg173、Gly251和Asp326几乎完全不能替代(图。1C) ●●●●。所有这三个残基都位于PTEN磷酸酶和C2结构域之间的界面上,这表明这些位置的WT氨基酸的特定特征对于保持界面完整至关重要。与此假设一致,Arg173和Asp326在PTEN结构中进行了广泛的极性接触(图。1D) ●●●●。除His61外,其余不耐受位点编码苯丙氨酸、异亮氨酸、亮氨酸或缬氨酸残基,仅部分耐受其他庞大的疏水性侧链(图。1C) ●●●●。
缺失数据通常使用机器学习进行计算插补,以生成特定下游分析所需的完整数据集[27,28]. 最近的一项研究在训练PTEN变异效应和分子表型的逻辑回归分类器之前,估算了缺失的PTEN丰度数据[12]. 在我们改进的数据集中,对693个估算丰度值进行了评分,从而可以独立确认估算的准确性。我们检查了估算丰度数据和从第二个库中新获得的数据之间的相关性,发现估算值和实验测定值之间存在适度的相关性和标度(斜率:0.53;皮尔逊第页2:0.54;其他文件1:图S4)。这与作者在初始插补算法与初始丰度数据集(Pearson’s第页2: 0.56). 低于预期的斜率在很大程度上可以用插补数据的比例差异来解释,范围从0.25到1,而测量值从0到1。
接下来,我们研究了插补不当的位置,以更好地理解插补算法难以准确预测丰度得分的情况。Arg173和Gly251的变体是早先强调的几乎完全不能替代的三个位置中的两个,它们被错误地插补为中等丰度分数,可能是因为我们的分析表明这些WT残基对维持PTEN丰度异常关键(图。1C、 品红色三角形)。脯氨酸残基的估算值通常较低,即使是像Pro103和Pro248这样的残基,这些残基很容易被取代,并且产生了许多具有WT-like评分的变体(图。1C、 蓝色三角形)。该算法还与Tyr180、Leu182和Asp268进行了斗争,这些残基是部分耐受替代的残基,并根据变体显示出广泛的丰度得分,而插补值大致接近位置平均值(图。1C、 青色三角形)。通过提供额外的实验数据和减少对插补的依赖,我们在此提供的额外丰度数据将提高丰度数据下游使用的准确性。
PTEN变异体的丰度和活性分类
我们的复合丰度评分,以及在酵母中测量的PTEN脂质磷酸酶评分[10],提供了总共4178个PTEN错义变体属性的两个不同度量。我们整合了这两个数据集,将PTEN变异体分为四个不同的亚群:WT-like、仅丰度损失、仅活性损失以及丰度和活性损失。为了进行这种四向分类,我们将重点放在两种分析都有把握评分的变体上,因此可以根据这两种属性进行分类(图。2A;看见方法). 大多数变体与这两种分析一致,因为51%的分类变体在这两种特性中都是WT样的(图。2A、 绿色),而21%表现出活性和丰度的损失(图。2A、 紫色)。
其余28%的变异体在两种分析中表现出差异,表明分子表型比细胞内丰度损失导致的磷酸酶活性几乎完全丧失要微妙得多。最小的亚群是6%的被归类为仅失活变体的变体,其中磷酸酶活性被取消而不影响蛋白质稳态丰度(图。2A、 橙色)。其余变异占总分类变异的22%,仅为丰度损失(图。2A、 绿松石)。这些可能是对磷酸酶活性没有内在影响的变体,但可能会减少细胞内PTEN表达的总量,因此最终结果可能是细胞内功能减退。这包括Asp331Gly,当其在U87-MG胶质母细胞瘤细胞中表达时,其丰度也降低[29],但在纯化和等量的体外测试中具有接近WT磷酸酶活性[29,30].
仅丰度损失变体的优势促使我们更密切地检查两种分析之间的关系。我们首先分析了一组20个变异体的标度活动分数,这些变异体显示了一系列丰度,当与GFP融合时,这些丰度单独评估了其稳态平均荧光强度[9]. 只有当其测得的丰度显著降低至少5倍时,该面板中的变体才始终显示出活性降低(图。2B) ●●●●。因此,在酵母拯救活性测试中,非常低丰度的变体可以作为WT-like评分。
为了更好地了解这些低丰度变体在没有降低酵母拯救活性评分的情况下是否具有临床重要性,我们将重点放在低丰度PTEN变体子集上,这些PTEN变体在ClinVar中被归类为致病性,或与孤独症谱系障碍(ASD)或PTEN错构瘤综合征(PHTS)相关最近发表的克利夫兰诊所PTEN变异阳性患者队列(CC队列)[12]. 在这组40个总变异中,22个(55%)被归类为活性和丰度变异的损失(图。2C) ●●●●。其余18个变异体(45%)被自信地评估为低丰度,其中8个仅因其高活动分数而被认为丰度损失。其他10种表现出中间活性。值得注意的是,当其他实验室在人类细胞模型中进行评估时,其中12种具有临床意义的变体(Tyr27Ser、Gly129Arg、Met134Thr、Arg173Cys、Arg163His、Thr202Ile、Pro246Leu、Gly251Val、Asp252Gly、Lys254Thr、Asn276Ser、Asp326Asn)的体外活性降低、丰度降低或功能改变,进一步支持这些变量的扰动函数[30,31,32,33,34,35,36,37,38]. 对于剩下的6种致病性变体,我们数据集中的低丰度分数是迄今为止唯一测量改变实验结果的方法。因此,我们很容易推测,尽管在酵母活性测试中评分为WT样或不确定,但至少其中一些仅丰度损失变体仅因其丰度降低而致病。然而,也有可能是这两种检测中的噪音、对细微但有临床意义的活性丧失缺乏敏感性,或酵母活性检测未捕捉到的功能改变,都可能导致这些变体的致病性。
接下来,我们询问了PTEN蛋白结构中每个亚群中的变体是如何分布的。在42个位置,大多数变体导致丰度损失和活性损失,这些大部分映射到两个PTEN域的埋藏区域(图。2D、 紫色球体)。在17个位置,大多数变体仅导致丰度损失,这些位置位于PTEN结构外围,尤其是C2域内(图。2D、 绿松石球体)。在9个位置,变异仅导致活性丧失,这些变异主要分布在活性位点周围,但包括Ala333,C2结构域上的膜近端残基(图。2D、 橙色球体)。
然后,我们分析了每个亚群与PHTS、ASD和癌症患者或CC队列中活检的各种肿瘤的公开数据库中发现的变异之间的关系[12]. 我们在ClinVar中发现59个与PHTS相关的生殖系致病性或可能致病性变体,或在CC队列中具有典型PHTS症状,这些变体在丰度和活动性数据集中也得到了可靠的评分。其中,46个仅为PHTS的变体,在SFARI数据库或CC队列中未观察到与自闭症谱系障碍或发育障碍相关的变体。与所有可能的单核苷酸变体或在未受影响的人群数据库(如GnomAD或TOPMed)中观察到的变体相比,这些仅PHTS的变体因丰度和活性变体的损失以及仅活性变体的丢失而丰富(图。2E、 紫色和橙色条)。相比之下,丰度变异的损失略有减少,而WT-like变异则有所减少(图。2E、 绿松石和绿条)。有8种变异只与自闭症谱系障碍相关。虽然样本很小,但在丰度损失或活性损失变体中有富集,但在伴随丰度和活性损失的变体中没有富集。另一方面,有13个种系变异与经典PHTS症状和自闭症谱系障碍相关。其中7个变异是丰度和活性的损失。
PHTS患者,尤其是那些同样表现出自闭症谱系障碍的患者,活动缺失和丰度变异的增加与Mighell等人在类似分析中观察到的表型总体一致[12]. 仅丰度损失或仅活动损失变体的富集程度存在显著差异。他们观察到更多与PHTS相关的纯丰度变异的丢失,而我们观察到更多的与自闭症谱系障碍相关的纯富度变异的缺失。他们的方法与我们的不同,因为他们的分析着眼于在队列中PTEN变异阳性个体中观察到的变异和变异类别的频率,而我们使用的是一组更大的数据,其中关于频率的信息并不总是可用的。因此,我们研究了每个丰度和活性类别是如何由独特的PTEN变体填充的,上述差异可能是由于这些方法的差异。无论如何,不同的临床组可能富含不同的PTEN分子表型。相反,在ClinVar中154个显著性不确定(VUS)变异体中仅观察到轻微的富集和缺失,这两个数据集中也对其进行了自信评分。根据这些标准,这些变体中有52种表现出丰度损失或活性损失,可能是未来重新分类的主要目标。
重新分类这些变体需要纳入PTEN特定考虑因素,以便专家工作组进行临床解释[39]. 沿着这些路线,最初的PTEN丰度和活性数据被用于创建一个逻辑回归模型,该模型能够将临床上有意义的PTEN变体与其他变体分离开来[12]. 该模型表明,在酵母中具有中间活性的PTEN变异体或截短型错义变异体也很可能导致PHTS,支持使用丰度和活性测量作为致病性的证据[12]. 这项研究依赖于估算的缺失丰度分数来训练他们的模型。通过提供额外的实验数据和减少对插补的依赖,我们在此提供的额外丰度数据将有助于改进PTEN变体的重新分类。
接下来,我们检查了cBioPortal访问的各种癌症基因组数据集中发现的乳腺癌、子宫癌、肺癌、结直肠癌、前列腺癌、皮肤癌和脑癌中不同PTEN丰度和活性亚群的变异富集情况[20,21]. 在这里,我们的目标是利用我们的数据更好地区分不同类型的潜在致癌、PTEN功能丧失变体和可能在肿瘤发展过程中偶然积累的潜在无害PTEN变体。我们通过计算通过单核苷酸变异可能出现的每个子集的频率,在没有选择的情况下估计了一个零突变模型(图。三,灰色条)。与我们的空模型相比,类WT变体被一致耗尽,可能是因为来自其他功能损伤子集的变体的相应丰富程度超过了它们。仅丰度缺失的变异体也似乎被耗尽,这可能是因为根据定义,这些变异体至少保留部分活性,这可能足以在大多数情况下抵消肿瘤发生。相反,在不同的癌症类型中,表现出丰度和活性损失的变体都均匀富集。这一发现与我们之前观察到的低丰度变体的富集相一致[9]并表明PTEN通过丰度的丧失和活性的丧失而丧失功能是导致多种癌症发生的常见因素。
剩下的仅活性缺失子集特别有趣,因为它包括显性负PTEN变体[6]. 均聚被认为可以使PTEN保持其活性构象,并使其发挥最大的PtdIns(3,4,5)P三磷酸酶活性[40]. 因此,当显性阴性变异体Cys124Ser与无效或不稳定变异体共同表达时,编码WT PTEN等位基因的细胞表现出更强的Akt细胞内信号[9,40]. 与该观察结果一致,一个等位基因被已知的显性阴性等位基因(如Cys124Ser和Gly129Glu)取代的转基因小鼠的肿瘤负担增加[40,41]. 因此,我们在不同的癌症中检测了该亚群中已知的和潜在的非特征化显性阴性变异。
仅活性缺失变体在不同癌症中的富集程度不同,乳腺癌、子宫癌、前列腺癌和肺癌的富集程度最高(图。三A) ●●●●。已知显性负性变体Cys124Ser、Gly129Glu、Arg130Gly和Arg130Gln的观察频率远高于零模型预测的频率,在零模型中,它们只能通过3618个单核苷酸驱动的密码子中的5个密码子的改变才能共同实现(图。三B) ●●●●。这些已知的显性负性变异是活性缺失变异增加的主要原因,在乳腺癌、子宫癌和肺癌中分别占58%、87%和100%。因此,没有对仅肺癌变异的额外活动丧失进行评分,而子宫癌和乳腺癌除了已知的显性阴性外,还增加了仅活动丧失变异(图。三B) ●●●●。我们假设在子宫癌和乳腺癌中观察到的这种额外的仅活动性缺失变体可能代表新的显性阴性变体。
识别潜在显性-阴性变异体
为了验证这一假设并确定新的PTEN显性阴性变异体,我们量化了表达PTEN变异体和WT拷贝的细胞中Thr308(pAkt)的Akt激活环磷酸化水平[40](图。4,其他文件1:图S5)。我们通过使用已经表达野生型PTEN的HEK 2393T着陆垫细胞表达PTEN变体来实现这一测定[9]. 使用这种方法,我们之前将Pro38Ser确定为显性-阴性变异,因为它导致pAkt水平增加,类似于已知的显性-阴性Cys124Ser变异[9].
我们选择了一小组仅失活的变体来使用该分析进行筛选,包括Asp24Gly、Asp92His、Arg130Pro和Arg159Ser,这些变体之所以被选择是因为它们在乳腺癌、子宫癌或两者中被多次观察到。我们还选择了在肿瘤中观察一次或零次的Tyr16Ser、Tyr46Asp和Thr160Pro,以便我们测试在肿瘤中的观察是否与显性阴性活性相关。最后,我们将已知的低丰度变体Leu345Gln和Asp252Gly以及已知的显性-阴性变体Cys124Ser作为对照。
正如预期的那样,所有仅活性丧失的变体都在接近WT的水平上表达,并与Leu345Gln和Asp252Gly(丰度控制的丧失)有明显区别(图。4A) ●●●●。过度表达WT-PTEN使pAkt水平降低到未重组细胞的水平以下。相反,丰度控制变异的缺失具有与未重组细胞相似的pAkt水平,这表明我们可以定性区分可能对PtdIns(3,4,5)P3磷酸酶活性起作用的变异与那些不活跃的变异。重要的是,所有仅活性缺失变体的pAkt水平均等于或大于未结合和丰度控制的缺失,证实这些变体确实是活性缺失。除了已知的显性阴性变异体Cys124Ser外,Arg130Pro和Asp92His变异体的pAkt水平也显著增加(图。4B) ●●●●。pAkt信号的增加不是由于升高AKT1型表达,提示对Akt1信号传导有特殊作用。剩下的仅失活变异体显示中间pAkt信号,因此不太确定。
重要的是,每个变体驱动Akt1 Thr308磷酸化的能力与该变体在癌症中的发病率相关(Pearson’s第页:0.76)(图。4C) ●●●●。Arg130Pro在序列乳腺癌中被发现突变四次,在子宫癌中突变三次,在食管癌中突变一次(图。4C) ●●●●。Asp92His在三个独立的乳腺癌病例中发生突变。与这些结果一致,在癌症细胞系百科全书(CCLE)测试的CAMA-1乳腺癌细胞系中存在Asp92His变体[42]. 该细胞系PTEN表达正常,pAkt升高,与其他在CCLE中表达已知显性阴性变异体Arg130Gln、Cys124Ser和Arg130Gly的细胞系类似[42](图。4D) ●●●●。相反,Asp24Gly和Arg159Ser分别在乳腺癌和子宫癌中发生了两次突变,在我们的检测中,它们没有表现出pAkt强度增加。因此,PTEN大规模变异功能数据集与癌症基因组学数据相结合,可以识别可能表现出疾病严重程度改变的显性阴性变异。