无膜细胞器,如P小体、核副啄和应激颗粒(SG),在哺乳动物细胞中形成并重新溶解以响应刺激(1,2). 这种相分离是能够相互多价相互作用的大分子的一种特性,产生的液相浓度是大分子整体液相浓度的约100倍(三,4). 这种相分离通常见于结合核酸并包含低复杂性结构域(LCD)的蛋白质(1,2,5——8). 例如,SG相关蛋白hnRNPA1、hnRNPA2和FUS进行液-液相分离(9——12)它们含有液晶显示器,可以随着时间的推移或在较高的蛋白质浓度下转变为可逆的半固态水凝胶(1,5,9). 液晶显示器在人类蛋白质组中很常见;它们基本上是内在无序的(13),在已知3D结构的蛋白质数据库(PDB)中表现严重不足(14)。
电子显微镜显示这种水凝胶含有蛋白质原纤维,水凝胶的X射线衍射产生交叉β图案(图S1C-E)(5,15)让人想起淀粉样蛋白。然而,在FUS水凝胶中发现的纤维对热和SDS敏感(5)淀粉样纤维抵抗SDS和煮沸变性。淀粉样纤维的棘含有一对紧密结合的β-片,沿着纤维轴排列。残基侧链与相对β-片的侧链紧密交叉,形成称为立体拉链的干燥界面,如淀粉样β(aβ)的NKGAII结构所示()(16,17). 立体拉链解释了一些致病性淀粉样蛋白的非凡稳定性。显然,水成蛋白之间相对不稳定的多价相互作用是不同的;虽然重要的是,ssNMR已经表明,FUS的214个残基LCD中有57个形成了有序的原丝核,其余残基动态无序(18)。
LARKS(B-F)的结构与立体拉链(a)相比。所有结构由两个配对的β-片组成,一个紫色,另一个黄色。左栏显示了配对床单的主干线,以突出LARKS主干线中的扭结和立体拉链中经典β-床单的褶皱。第二列显示了从原纤维轴向下观察的配合片的原子结构。第三栏显示了几乎垂直于纤维轴的配对β-片的卡通。每个界面的特征是形状互补得分(Sc=1.0表示完全互补)和匹配片之间的埋藏溶剂可及表面积(Ab)(单位:Au²)。碳原子呈紫色或黄色,氮原子呈蓝色,氧原子呈红色。晶体中成千上万的β片中显示出五层β片。LARKS的扭结结构在交配β片中很少见;几十个其他成对的β-板形成立体拉链(35)。
为了研究SG蛋白的液晶显示器之间相对较弱的粘附性,我们寻找了相关的原子结构。以FUS和RBM14液晶显示器的研究为指导,研究表明,酪氨酸残基被丝氨酸连续替换会降低其形成水凝胶的能力(1,5),我们扫描了FUS的LCD,寻找形式为[G/S]Y[G/S]的串联序列基序,发现了两个这样的片段:FUS-37系统42和FUS-54SYSSYGQS系统61(图S1A). 除了通过3D分析确定的其他三个片段的结构外,还确定了两个片段结晶为微米级针状物,并确定了两种原子结构(见下文):243GYNGFG公司248来自蛋白质hnRNPA1,77STGGYG公司82来自FUS,以及116GFGNFGTS公司123从nup98(). 为了证实这些结构与液晶显示器的粘附性和多价性的相关性,一种水凝胶是由连接FUS上述三个片段的26个残基合成肽构建物形成的(). 所有5个晶段、该水凝胶和FUS-LCD水凝胶的粉末衍射模式表明它们都具有交叉β结构(图S2-3)。
合成LARKS构建物形成不稳定水凝胶。带有序列的合成LARKS构造SYSGYS公司GDT公司SYSSYGQS系统天然气发电厂STGGYG公司当以50mg/ml溶解在水中并在4°C下放置过夜时,会形成不稳定的水凝胶。水凝胶在将样品加热至60°C两小时后融化。将气泡(蓝色箭头)引入样品中,以显示液体状态(气泡上升)和水凝胶状态(气泡不上升)之间的差异。电子显微镜证实纤维确实熔化了。这个三重LARKS序列的水凝胶形成特性表明,正是在许多液晶显示器中发现的多重LARKS赋予了它们形成水凝胶的不同寻常的特性。比例尺等于200nm。
所有五段结晶为扭结β-片对(). 每一个β-片都是晶体的长度,由大约300000个片段堆积而成,所有结构都在甘氨酸或芳香族残基处出现扭结,而不是延伸(图S4). 这些结构具有共同的粘合特征,包括与下面相同的部分对齐的氢键(,图S5). 无论是片间稳定还是片内稳定,芳香族残基都占主导地位。在片状物中,芳香侧链以能量上有利的构象堆积,环的平面平行堆积,间距为3.4º(19——21)(图S5). 这些芳香“阶梯”增强了每个β-片的稳定性。扭结允许主干接近,从而在板材之间提供有利的范德华或氢键相互作用(图S5). 这些紧密的相互作用通过结构互补性Sc进行量化(),反映板材之间的粘合。然而,扭结阻止侧链在β-板界面上交叉,因此扭结界面埋藏的表面积比致病性淀粉样纤维中发现的表面积小,并且可能具有较低的结合能。由于扭结结构与致病性立体拉链的区别,我们将其称为低复杂性富含芳香的扭结片段,或LARKS。
计算和实验支持了我们的结构推断,即LARK比立体拉链具有更小的结合能。我们通过应用原子溶剂化参数估算了LARKS和空间拉链中β-片对的分离能量(22,23)我们的结构:LARKS界面分离的平均原子溶剂化能为567±556 cal/mol/β-链,而75个立体拉链结构的平均原子溶液化能为1431±685 cal/mol/β-链(图S6). 这些粗略估计表明,LARKS中一对β-链的粘附能与热能的数量级相当,因此,β-片对只能通过链的多价相互作用粘附。相比之下,立体拉链中一对线的粘合能是热能的几倍轻轻加热就会溶解。因此,LARKS的成对扭结β-片与淀粉样蛋白原纤维中的成对β-片结合强度较低,但仍产生具有致病性淀粉样蛋白交叉β-衍射模式的原纤维。
为了确定人类蛋白质组中潜在的LARKS,我们使用了计算3D分析,这是一种测试查询序列与模板结构兼容性的方法(24,25). 在这里,我们将人类序列连接到SYSGYS、GYNGFG和STGGYG的主干上,放置并优化重新包装侧链,然后评估Rosetta能量()(26). 我们将线程推进了一步,并重复该过程,直到到达查询序列的末尾。该3D分析预测核穿孔蛋白在LARKS中富集(). 我们对这一预测的信心得到了早期预测的支持,即GYNGFG和STGGYG可以基于仅使用SYSGYS模板的线程形成LARKS。在这里,我们再次通过从porin nup98确定GFGNFGTS的结构来验证我们的剖析算法,从而确认LARKS体系结构()并提供证据证明LARKS存在于不同类型的无膜细胞器中(27)。
3D剖析以识别人类蛋白质LC域中的LARKS。(A)方法:从LARKS的一个原子结构的主干中移除侧链。然后,通过将查询侧链放置在模板主干上,将感兴趣的序列(如图所示为hnRNPA1)贯穿六个剩余模板。重新包装侧链,并使用Rosetta能量函数估计结构是否有利于螺纹序列。然后序列以一个残基增量穿过模板,生成连续的模型。(B)1725种人类蛋白质中LARKS数量的频率预测至少容纳两个LARKS。预计具有两个或更多LARKS的蛋白质具有形成网络和凝胶的能力。(C)400个蛋白质的注释功能与预测最多的LARKS。
通过分析UniProt 20120个序列的非冗余人类蛋白质组,我们发现5867个带有液晶显示器的蛋白质。其中,2500个蛋白质包含至少一个LARKS,1725个蛋白质包含两个或多个LARKS,因此能够形成多价相互作用,从而形成蛋白质网络和凝胶。数百种蛋白质容纳三种或更多LARKS(). LARK含量最高的400个人类LCD平均为14个LARK。
我们根据Uniprot注释将细胞功能分配给这400个蛋白质():16%为DNA结合,17%为RNA结合,4%为核苷酸结合,与无膜细胞器中核苷酸结合蛋白的报道一致(2,8). LARKS中也富含角蛋白(5%)、角蛋白相关蛋白(9%)和角质化包膜蛋白(4%)。角蛋白的发现与实验一致(28)显示角蛋白颗粒被输送到细胞皮层,在那里融合并最终成熟为丝状。LARKS中也富含核糖核蛋白颗粒中的蛋白质,如剪接体或核仁(). 含有FG重复序列的核蛋白nup54和nup98富含预测的LARKS,纯化的FG重复片段形成水凝胶(27,29). 核孔蛋白的FG重复序列可能在孔的扩散屏障中形成LARKS,这一可能性得到了我们从nup98获得的GFGNFGTS结构的支持。我们从相关的基因本体论(GO)术语中为这400种蛋白质分配了额外的细胞功能。我们发现GO术语在人类蛋白质组中富集,用于RNA转运、加工定位、SG组装和上皮细胞分化,这是由于LARKS中富集了大量角蛋白。因此,我们建议将LARKS的3D分析作为一种工具,以识别可能通过多价相互作用形成网络和凝胶并参与无膜细胞器的蛋白质(图S10)。
LARKS中最丰富的400种蛋白质以及它们所属的动态胞内体中的蛋白质的功能。