研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
国际标准编号:2059-7983

用多重衍射数据集基于强度的层次聚类分析解释晶体结构的多态性

交叉标志

生命科学研究基础设施集团,RIKEN SPring-8 Center,1-1-1 Kouto,Sayo-cho,Sayo-gun,Hyogo 679-5198,日本,b条日本同步辐射研究所结构生物学部,1-1-1 Kouto,Sayo-cho,Sayo-gun,Hyogo 679-5148,Japan,c(c)奈良理工学院科学技术研究生院,8916-5 Takayama-cho,Ikoma,Nara 630-0192,日本,d日日本医学研究与发展署-进化科学与技术核心研究(AMED-CREST),日本东京100-0004,e(电子)国立自然科学院分子科学研究所,5-1 Higashiyama,Myodaiji,Okazaki,Aichi 444-8787,Japan和(f)美国国立自然科学研究院生命与生命系统探索研究中心,日本爱知县冈崎市明台寺东山5-1号444-8787
*通信电子邮件:kunio.hirata@riken.jp

美国斯坦福大学S.Wakatsuki编辑(收到日期:2022年9月25日; 2023年8月7日接受; 在线2023年9月25日)

在大分子中结构测定使用多晶体的X射线衍射,不同结构(结构多晶型)的存在需要对衍射数据进行分类,以便进行适当的结构分析。层次聚类分析(HCA)是一种很有前途的技术,目前已被用于提取同构数据,主要用于单结构确定。虽然原则上HCA的使用可以扩展到检测多态性,但缺少定义用于对同构数据集进行分组的阈值(“同构阈值”)的参考是一个挑战。这里,基于单位-细胞和基于强度的HCA被应用于数据采集后混合的载脂蛋白胰蛋白酶和抑制剂-结合胰蛋白酶的数据集,以研究HCA在分类多形性数据集中的功效。基于单步强度的HCA成功地对具有特定“同构阈值”的多晶型进行了分类。在含有未知程度结构异质性的几个样品的数据集中,可以使用建议的“同构阈值”通过基于强度的HCA来识别多态性。使用连续螺旋方案收集的数据,也可以在单晶中检测到多态性。这些发现有望通过利用自动数据收集和分析来帮助确定多个结构快照。

1.简介

同步电子辐射设备的大分子晶体学(MX)束线数据采集的自动化和加速产生了大量的X射线衍射数据。这种高效、高产的数据采集正在成为MX的主要趋势;即高数据速率MX(HDRMX;Bernstein等。, 2020【Bernstein,H.J.、Andrews,L.C.、Diaz,J.A.Jr、Jakoncic,J.、Nguyen,T.、Sauter,N.K.、Soares,A.S.、Wei,J.Y.、Wlodek,M.R.和Xerri,M.A.(2020),结构动力学7,014302。】). HDRMX通过高亮度X射线束的可用性实现(Ursby等。, 2020[Ursby,T.,Ohnberg,K.,Appio,R.,Aurelius,O.,Barczyk,A.,Bartalesi,A.,Bjelć,M.,Bolmsten,F.,Cerenius,Y.,Doak,R.B.,Eguiraun,M.、Eriksson,T.、Friel,R.J.,Gorgisyan,i.,Gross,A.,Haghiat,V.,Hennies,F.、Jagudin,E.,Norsk Jensen,B.,Jeppsson,T,Kloos,M.;Lidon-Simon,J.,de Lima,G.M。A.、Lizatovic、R.、Lundin、M.、Milan-Otero、A.、Milas、M.,Nan、J.、Nardella、A.、Rosborg、A.、Shilova、A.,Shoeman、R.L.、Siewert、F.、Sondhauss、P.、Talibov、V.O.、Taraweneh、H.、Thánell、J.,Thunissen、M.和Unge,J.、Ward、C.、Gonzalez、A.和Mueller,U.(2020年)。J.同步加速器半径271415-1429。]; 桑切斯·威瑟比等。, 2019[桑切斯·威瑟比(Sanchez-Weatherby,J.)、桑迪(Sandy,J; 平田等。, 2013【Hirata,K.、Kawano,Y.、Ueno,G.、Hashimoto,K.,Murakami,H.、Hasegawa,K.和Hikima,T.、Kumasaka,T.和Yamamoto,M.(2013),《物理学报》第425期,第012002页。】),探测器的快速读数(Casanas等。, 2016【Casanas,A.、Warshamanage,R.、Finke,A.D.、Panepucci,E.、Olieric,V.、Nöll,A.、Tampé,R.,Brandstetter,S.、Förster,A.、Mueller,M.、Schulze-Briese,C.、Bunk,O.和Wang,M.(2016),《水晶学报》第72期,第1036-1048页。】)、快速采样交换机器人(村上春树等。, 2020[村上春树,H.,长谷川,K.,上野,G.,八木,N.,山本,M.&熊坂,T.(2020),《结晶学报》第76期,第155-165页。]; 帕普等。, 2017【Papp,G.,Felisaz,F.,Sorez,C.,Lopez-Marrero,M.,Janocha,R.,Manjasetty,B.,Gobbo,A.,Belrhali,H.,Bowler,M.W.&Cipriani,F.(2017),《结晶学报》第73期,第841-851页。】; 马蒂尔等。, 2020[Martiel,I.,Buntschu,D.,Meier,N.,Gobbo,A.,Panepucci,E.,Schneider,R.,Heimgartner,P.,Müller,D.,Bühlmann,K.,Birri,M.,Kaminski,J.W.,Leuenberger,J.,Oliéric,V.,Glettig,W.&Wang,M.(2020)。同步辐射J.27860-863。]; 努里佐等。, 2016【Nurizzo,D.、Bowler,M.W.、Caseroto,H.、Dobias,F.、Giraud,T.、Surr,J.、Guichard,N.、Papp,G.、Guijarro,M.、Mueller-Dieckmann,C.、Flot,D.、McSweeney,S.、Cipriani,F.,Theveneau,P.和Leonard,G.A.(2016),《基督学报》D72,966-975。】)以及自动化测量方案的应用(Zander等。, 2015【Zander,U.,Bourenkov,G.,Popov,A.N.,de Sanctis,D.,Svensson,O.,McCarthy,A.A.,Round,E.,Gordeliy,V.,Mueller-Dieckmann,C.&Leonard,G.A.(2015),《结晶学报》第71期,第2328-2343页。】; 平田等。, 2019[平田,K.,山下,K.、上野,G.、川野,Y.、长谷川K.、久坂,T.和山本,M.(2019),《结晶学报》第75期,第138-150页。]; 巴苏等。, 2019【Basu,S.,Kaminski,J.W.,Panepucci,E.,Huang,C.-Y.,Warshamanage,R.,Wang,M.&Wojdyla,J.A.(2019年),J.Synchrotron Rad.26,244-252。】; 保龄球等。, 2016【Bowler,M.W.,Svensson,O.&Nurizzo,D.(2016),《结晶学评论》第22期,第233-249页。】). 此外,获得的数据集的数据简化和结构分析也在各种管道中实现了自动化(山下等。, 2018【山下康成、平田康成和山本康成(2018),《结晶学报》第74期,第441-449页。】; Winter&McAuley,2011年【Winter,G.&McAuley,K.E.(2011)。方法,55,81-93。】; 沃迪尔等。, 2013【Wojdyr,M.,Keegan,R.,Winter,G.&Ashton,A.(2013),《水晶学报》A69,第299页。】; 2010年冬季【Winter,G.(2010),《应用结晶杂志》,第43期,186-190页。】; 摩纳哥等。, 2013[摩纳哥,S.,戈登,E.,鲍勒,M.W.,德拉格尼埃,S.,吉亚罗,M.,斯普鲁斯,D.,斯文森,O.,麦克斯威尼,S.M.,麦卡锡,A.A.,伦纳德,G.和纳诺,M.H.(2013)。《应用晶体》第46卷,第804-810页。]; 冯·莱因等。, 2011[Vonrhein,C.,Flensburg,C.,Keller,P.,Sharff,A.,Smart,O.,Paciorek,W.,Womack,T.&Bricogne,G.(2011),《水晶学报》D67,293-302。]; 印卡多纳等。, 2009【Incardona,M.-F.,Bourenkov,G.P.,Levik,K.,Pieritz,R.A.,Popov,A.N.&Svensson,O.(2009),《同步辐射杂志》第16期,第872-879页。】; 等。, 2022[王,L.,云,Yu,Y.,朱,Z.和牛,L.(2022).《结晶学报》D78,890-902.]). 最后,开发了数据管理系统,包括用于查看这些数据的用户界面,以便实验者能够无缝地管理和轻松解释来自大量数据的分析结果(山田等。, 2013【Yamada,Y.、Matsugaki,N.、Chavas,L.M.G.、Hiraki,M.、Igarashi,N.和Wakatsuki,S.(2013)。J.Phys.Conf.Ser.425012017。】; 德拉吉尼埃等。, 2011【Delagenie,S.、Brenchereau,P.、Launer,L.、Ashton,A.W.、Leal,R.、Veyrier,S.和Gabadinho,J.、Gordon,E.J.、Jones,S.D.、Levik,K.E.、McSweeney,S.M.、Monaco,S.,Nanao,M.、Spruce,D.、Svensson,O.、Walsh,M.和Leonard,G.A.(2011)。生物信息学,27,3186-3192。】; 费希尔等。, 2015【Fisher,S.J.,Levik,K.E.,Williams,M.A.,Ashton,A.W.&McAuley,K.E..(2015),《应用结晶杂志》第48期,第927-932页。】).

最近,结构测定包括数据采集自动化和加速在内的各种发展促进了多晶体的使用。结构测定使用微晶,特别是来自膜蛋白的脂质立方相(LCP)晶体的微晶,结构通常使用小尺度同步辐射晶体学(SWSX)方法确定。在SWSX方法中,总振荡范围减小,但每个振荡宽度的光子数增加。由于每个楔形数据集仅涵盖倒易空间,必须从安装在不同方向的许多微晶中测量数十到数百个数据集(切列佐夫等。, 2007【Cherezov,V.,Rosenbaum,D.M.,Hanson,M.A.,Rasmussen,S.G.F.,Thian,F.S.,Kobilka,T.S.,Choi,H.-J.,Kuhn,P.,Weis,W.I.,Kotilka,B.K.&Stevens,R.C.(2007),《科学》,3181258-1265。】; 罗森鲍姆等。, 2007[Rosenbaum,D.M.,Cherezov,V.,Hanson,M.A.,Rasmussen,S.G.F.,Thian,F.S.,Kobilka,T.S.,Choi,H.-J.,Yao,X-J.,Weis,W.I.,Stevens,R.C.&Kobilka). 最后,将获取的数据集合并并用于确定结构。在串行飞秒晶体学(SFX;Barends)的情况下等。, 2022【Barends,T.R.M.,Stauch,B.,Cherezov,V.&Schlichting,I.(2022)。《自然评论方法导论》,2,60。】)或串行同步旋转晶体学(SSROX;Gati等。, 2014【Gati,C.、Bourenkov,G.、Klinge,M.、Rehders,D.、Stellato,F.、Oberthür,D.、Yefanov,O.、Sommer,B.P.、Mogk,S.、Duszenko,M.,Betzel,C.、Schneider,T.r.、Chapman,H.N.和Redecke,L.(2014)。国际癌症杂志,1,87-94。】; 长谷川等。, 2017【长谷川,K.,山下,K.、村井,T.、努姆凯特,N.、平田,K.和上野,G.、阿戈,H.、中松,T.,熊坂,T.和山本,M.(2017)。同步辐射杂志。24,29-41。】),需要更多的图像,因为每个帧只覆盖倒易空间,在数据收集和分析方面提出了挑战。在此,数据收集和分析的自动化至关重要,并为扩大目标和实现目标提供了机会结构测定不同的蛋白质样品(希利等。, 2021[Healey,R.D.,Basu,S.,Humm,A.-S.,Leyrat,C.,Cong,X.,Golebiowski,J.,Dupeux,F.,Pica,A.,Granier,S.&Márquez,J.A.(2021).细胞报告方法,1100102。]).

在使用多晶体进行结构分析时,选择足够同构的数据集至关重要。例如,如果在SAD阶段中合并非同构数据集,则搜索重原子位置会变得非常复杂(佐丹奴等。, 2012[佐丹奴·R、利尔·R·M·F、伯伦科夫·G·P、麦克斯威尼·S·波波夫·A·N(2012),《结晶学报》D68、649-658。]; 爸爸等。, 2021【Baba,S.,Matsuura,H.,Kawamura,T.,Sakai,N.,Nakamura,Y.,Kawano,Y.、Mizuno,N.、Kumasaka,T.、Yamamoto,M.和Hirata,K.(2021).《同步辐射杂志》第28期,第1284-1295页。】). 层次聚类分析(HCA)是一种成功用于从多个晶体中提取高度同构数据集的方法。该方法已在计划中实施混合物(福亚迪等。, 2013【Foadi,J.,Aller,P.,Alguel,Y.,Cameron,A.,Axford,D.,Owen,R.L.,Armour,W.,Waterman,D.G.,Iwata,S.&Evans,G.(2013),《结晶学报》D69,1617-1632。】)进行基于单位-细胞的HCA,而基于衍射强度相关性的HCA(也称为“基于强度的HCA”)已在程序中实现cc集群(桑托尼等。, 2017【Santoni,G.,Zander,U.,Mueller-Dieckmann,C.,Leonard,G.&Popov,A.(2017),《应用结晶杂志》,第50期,1844-1851页。】). 自动数据处理管道卡莫实现两种类型的HCA。

即使可以使用单晶求解结构,使用多晶体分析结构也有好处。一个好处是可以实现的解决方案。由于弱衍射点的信噪比得到了提高,给定结构的分辨率可以随着合并数据集数量的增加而提高。另一个好处与多晶型分析有关。通过对许多晶体的衍射数据进行分类,发现了具有生理意义的结构多态性。以前的大多数研究都使用HCA提取高度同构的数据来确定单结构。然而,最近的一些研究表明,HCA可以成为对结构多态性进行分类的有力工具(Nguyen等。, 2022【Nguyen,T.、Phan,K.L.、Kozakov,D.、Gabelli,S.B.、Kreitler,D.F.、Andrews,L.C.、Jakoncic,J.、Sweet,R.M.、Soares,A.S.和Bernstein,H.J.(2022)。晶体学报D78,268-277。】; 苏亚雷斯等。, 2022【Soares,A.S.、Yamada,Y.、Jakoncic,J.、McSweeney,S.、Sweet,R.M.、Skinner,J.和Foadi,J.,Fuchs,M.R.、Schneider,D.K.、Shi,W.、Andi,B.、Andrews,L.C.和Bernstein,H.J.(2022),《结晶学报》F78、281-288。】). 原则上,HCA不需要任何关于数据集群数量的事先信息(MX上下文中的“多晶型体”的数量)包含在整个数据集中。然而,在实践中,通常有两种方法来解释HCA的结果。一种方法确定了“同构”程度的阈值,低于该阈值的聚类数据被视为同一结构的基础。另一种方法是在分析之前确定数据集群的数量。由于不可能知道整个数据集中涉及多少多态,因此前一种方法是可取的。然而,由于目前没有确定适当阈值(“同构阈值”)的参考,因此有必要对每个簇中合并的数据集进行详尽的分析,并应逐一解释结果。因此,我们研究了分配一个“同构阈值”的可行性,该阈值可用于选择可识别多态的候选数据簇。

此外,我们还研究了将HCA应用于使用螺旋方案收集的数据以捕获晶间和晶内结构多晶型的有用性。螺旋方案严格称为“连续螺旋方案”,最初是作为数据收集方案开发的,以避免严重的辐射损伤(Flot等。, 2010【Flot,D.,Mairs,T.,Giraud,T.、Guijarro,M.、Lesourd,M.,Rey,V.、van Brussel,D.、Morawe,C.、Borel,C.、Hignete,O.、Chavanne,J.、Nurizzo,D.、McSweeney,S.和Mitchell,E.(2010)。J.Synchrotron Rad.17,107-118。】). 与传统的单点振荡扫描不同,晶体在螺旋方案的数据采集过程中进行平移。因此,可以认为每个晶体体积的剂量是恒定的。由于每个帧都是从晶体中的不同点获取的,因此将完整数据集拆分为几个部分数据集(块)可能有助于通过单独处理每个块并按HCA分类来观察晶体中存在的结构差异。事实上,使用这种方法,结构测定甚至可以从异质晶体(加藤等。, 2020【加藤,T.,仙谷由纪夫,平田,K.,绪方,K.&苏加,H.(2020),《自然化学》第12卷,第1081-1088页。】).

在本文中,我们试图使用生物信息学混合数据集由来自标准测试蛋白样品(胰蛋白酶)的两个不同的高分辨率数据集组成。然后将该阈值应用于两个具有代表性的蛋白质样品(核转运受体转运蛋白-1和[NiFe]-氢化酶成熟因子HypD),以评估建议的阈值是否适合对多态性进行分类。

2.材料和方法

2.1. 载脂蛋白和抑制剂结合胰蛋白酶晶体的制备

牛胰蛋白酶(分子量约24kDa;Fujifilm Wako Pure Chemicals)溶于25 mM(M)HEPES pH 7.0,5mM(M)氯化钙2浓度为30 mg ml−1沉淀剂溶液为30%(w个/v(v))聚乙二醇3350,0.1M(M)Tris–HCl pH 8.5、0.2M(M)2SO公司4使用MRC-II板(SWISSCI)在293 K下通过坐滴蒸汽扩散法进行结晶,几天内出现200µm大小的晶体。在添加化合物之前,采集了几个晶体,以获得载脂蛋白形式的数据。将晶体浸泡在含10%的低温保护剂中(v(v)/v(v))乙二醇与结晶缓冲液混合,然后在液氮(亚马内)中冷冻等。, 2011【Yamane,J.、Yao,M.、Zhou,Y.、Hiramatsu,Y.,Fujiwara,K.、Yamaguchi,T.、Yamagochi,H.、Togame,H.,Tsujishita,H.和Tanaka,I.(2011),《应用结晶杂志》第44期,第798-804页。】).

使用Echo 650声波液体处理器(Beckman Coulter)将抑制剂化合物直接添加到结晶板上的液滴中。在本研究中,使用了以下抑制剂(补充图S1):4-甲氧基苯甲酰胺和5-氯色胺(以下分别称为“苯甲酰胺”和“色胺”)。将每种抑制剂以10 m的最终浓度添加到结晶液滴中M(M)含10%(v(v)/v(v))二甲基亚砜(DMSO)。添加抑制剂后,将结晶板置于293 K下一小时,以使抑制剂充分扩散到晶体中。从结晶板中取出抑制剂结合的胰蛋白酶晶体,以与载脂蛋白胰蛋白酶晶体类似的方式进行冷冻保护,并在液氮中进行冷冻。根据初步研究结果确定DMSO浓度和培养时间。简而言之,使用载脂蛋白胰蛋白酶制备了几系列不同DMSO浓度和培养时间的晶体。然后从这些晶体中收集数据,以确定衍射质量没有显著降低的条件。

2.2. 衍射数据采集、数据处理和结构测定胰蛋白酶

使用自动数据采集系统在SPring-8的BL32XU上采集胰蛋白酶晶体的所有衍射数据ZOO(动物园)(平田等。, 2019[平田,K.,山下,K.、上野,G.、川野,Y.、长谷川K.、久坂,T.和山本,M.(2019),《结晶学报》第75期,第138-150页。]). 数据来自载脂蛋白、苯甲脒结合型和色胺结合型胰蛋白酶的四种晶体。所有数据集都是使用360°振荡的连续螺旋方案和以下实验参数获得的:振荡宽度,0.1°;曝光时间,0.02s;光束尺寸,10µm(水平)×15µm;波长,1º;每晶体体积的平均剂量,10 MGy;探测器,EIGER X 9M(Dectris);温度,100 K库马的模块ZOO(动物园)根据测量的晶体尺寸和指定的剂量值(平田等。, 2019【平田K.、山下K.、上野G.、川野Y.、长谷川K.、熊坂T.和山本M.(2019)。晶体学报D75,138-150。】). 测角仪的旋转轴与地面水平。基本上,辐照矢量设置在晶体的视长轴方向,大致与旋转轴一致ZOO(动物园)螺旋结构。

获得的数据由自动处理扩展数据集(卡布施,2010年【Kabsch,W.(2010),《结晶学报》,D66,125-132。】)英寸卡莫(山下等。, 2018【山下康成、平田康成和山本康成(2018),《结晶学报》第74期,第441-449页。】). 随后,使用本地区影院(松浦等。,未发表的工作),SPring-8 MX梁线目前正在开发的自动化结构分析管道。本地区影院提供了一个界面来管理由卡莫通过总结数据统计和电子密度图。本地区影院酒窝(沃迪尔等。, 2013【Wojdyr,M.,Keegan,R.,Winter,G.&Ashton,A.(2013),《水晶学报》A69,第299页。】)关于处理的数据卡莫使用给定的模板模型分子替换。如果氨基酸残基和原子名指定用于感兴趣的位置,本地区影院自动生成蛋白质模型的图片和生成的电子密度图(2F类o个F类c(c)F类o个F类c(c)地图)使用库特(埃姆斯利等。, 2010[Emsley,P.,Lohkamp,B.,Scott,W.G.和Cowtan,K.(2010)。晶体学报,D66,486-501。]),光栅D类(Merritt&Bacon,1997年【Merritt,E.A.和Bacon,D.J.(1997),《酶学方法》,277,505-524。】)和图像Magick(https://imagemagik.org). 这些图片不是静态快照,而是旋转的GIF图像,使人们更容易看到周围的环境,包括从静态图像中难以察觉的深度方向。完成上述流程后,本地区影院返回一个HTML报告,该报告将获得的数据的分辨率制成表格,R(右)自由的,的B类因素等。根据的结果卡莫酒窝以及每个数据集的GIF图像。当使用多个数据集时,例如在SWSX测量期间,卡莫使用HCA对衍射数据进行分类,然后将其合并为多个簇。随后,本地区影院自动对所有这些合并的数据集执行即时数据分析。

这里,使用来自的报告本地区影院,我们检查了胰蛋白酶抑制剂结合位点周围的电子密度图,并确认F类o个F类c(c)在载脂蛋白胰蛋白酶中未观察到抑制剂的浓度。相反,F类o个F类c(c)在苯甲脒结合和色胺结合的胰蛋白酶数据集中观察到每种抑制剂的密度(补充图S1).

2.3. 利用apo和抑制剂结合的胰蛋白酶数据进行聚类分析

在HCA中,数据集之间的“同构”表示为树状图中的垂直“距离”。同构数据集通过较小的距离连接,而其他距离较远的数据集则通过较长的距离连接。假设在多个数据集中存在多个结构多态性,每个多态性将在树状图中形成一个由特定“阈值”(称为“同构阈值”)内的数据集组成的簇。在实际数据中,获得的数据集中涉及的多晶型数是不可预测的。因此,使用了两个明显不同的数据集来研究用于识别多态性的“同构阈值”。为此,我们使用了载脂蛋白胰蛋白酶和与两种不同抑制剂结合的胰蛋白酶的高分辨率数据集。

在中实现了两种不同的基于参数的HCA卡莫一种是基于单位的HCA,另一种是以强度为基础的HCA。卡莫使用执行基于单元的HCA混合物基于强度的HCA是根据CC的计算进行的cctbx公司(格罗斯·昆斯特里夫等。, 2002【Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.&Adams,P.D.(2002),《应用结晶杂志》第35期,第126-136页。】)方法米勒阵列相关系数并按科学Py(维塔宁等。, 2020[Virtanen,P.、Gommers,R.、Oliphant,T.E.、Haberland,M.、Reddy,T.、Cournapeau,D.、Burovski,E.、Peterson,P.,Weckesser,W.、Bright,J.、van der Walt,S.J.、Brett,M.,Wilson,J.,Millman,K.J.、Mayorov,N.、Nelson,A.R.J.、Jones,E.、Kern,R.,Larson,E.、Carey,C.J.、Polat,I.、Feng,Y.、Moore,E。W.、VanderPlas,J.、Laxalde,D.、Perktold,J.,Cimrman,R.、Henriksen,I.、Quintro,E.A.、Harris,C.R.、Archibald,A.M.、Ribeiro,A.H.、Pedregosa,F.、van Mulbregt,P.、Vijaykumar,A.、Bardelli,A.P.、Rothberg,A.、Hilboll,A.、Kloeckner,A.、Scopatz,A.、Lee,A.、Rokem,A.、Woods,C.、Fulton,C.、Masson,C.、HäggströM,C.、菲茨杰拉德、,C.、Nicholson,D.A.、Hagen,D.R.、Pasechnik,D.V.、Olivetti,E.、Martin,E.、Wieser,E.、Silva,F.、Lenders,F.,Wilhelm,F.;Young,G.,Price,G.A.、Ingold,G.、Allen,G.E.、Lee,G.R.、Audren,H.、Probst,I.、Dietrich,J.P.、Silterra,J.、Webber,J.,J.T.、Slavić、J.、Nothman,J。,de Miranda Cardoso,J.V.、Reimer,J.、Harrington,J.,Rodríguez,J.L.C.、Nunez-Iglesias,J.和Kuczynski,J.。垂直,S。,Vigna,S.、Peterson,S.,More,S.(彼得森,S.)、Pudlik,T.(普德利克,T.)、Oshima,T.、Pingel,T.J.、Robitaille,T.P.、Spura,T.和Jones,T.R.、Cera,T.,Leslie,T。自然方法,17,261-272。])方法集群.层次结构.终结程序晶体中蛋白质分子的结构变化可能会影响晶胞常数或衍射强度。这两种不同的基于参数的HCA在同构方面有些不同。在基于单位-细胞的HCA中,分类基于单位-胞参数的同构,这反映了更宏观的方面,而不是蛋白质结构。相反,基于强度的HCA可以检测到更小的结构变化。

在这里,我们研究了两种不同的数据集是如何由两种基于参数的HCA进行分类的:基于单位的和基于强度的。为了评估螺旋方案收集的数据是否能够在同一晶体内进行多晶型分析,将收集的数据分成30°块,并使用卡莫使用split_data_by_deg=30.0选项。聚类分析的测试数据集是由来自两个不同结构的相同数量的衍射数据集混合而成的。在本研究中,使用螺旋方案收集的360°数据被划分为30°块后使用。在这里,我们为每个结构使用了48个30°块,对应于四个晶体的数据集。这两个基于参数的HCA应用于生物信息学混合数据集由两个数据集(48+48个数据块)的以下组合中的96个数据块组成:(i)载脂蛋白和苯甲脒结合的胰蛋白酶,(ii)苯甲酰胺结合的胰酶和色胺结合的胰蛋白。HCA和数据合并使用卡莫(kamo.auto_多合并)在以下方案中。在HCA之前,卡莫选择合并步骤中使用的数据集(称为“预处理”)。首先,根据P(P)1对称。然后,使用Tukey准则根据单位-细胞常数过滤所选数据集。对过滤后的数据列表执行HCA,并为每个集群生成合并数据。卡莫在三个数据合并周期中,基于晶体学统计,以帧-帧和数据集-数据集为基础拒绝数据。描述了每个簇合并数据的电子密度图,以评估数据污染的影响。分子替换使用模板模型(PDB条目3rxa公司). 电子密度图的评估使用本地区影院.

一般来说,数据集之间“同构”的定义和用于计算簇之间距离的链接方法对HCA生成的树状图有很大贡献。对于基于强度的HCA相关系数强度的(CC)用作同构的指标。距离的不同定义用于卡莫cc集群作为默认设置:(1−CC)1/2用于卡莫(山下等。, 2018【山下康成、平田康成和山本康成(2018),《结晶学报》第74期,第441-449页。】),而(1−CC2)1/2用于cc集群(桑托尼等。, 2017【Santoni,G.,Zander,U.,Mueller-Dieckmann,C.,Leonard,G.&Popov,A.(2017),《应用结晶杂志》,第50期,1844-1851页。】). 在本研究中,我们使用(1−CC2)1/2(以下简称d日科科斯群岛)基于对以下可用距离定义的初步调查卡莫:1-CC,(1-CC)1/2和(1−CC2)1/2。对于链接方法,通常使用“Ward”链接,因为它在经验上不太容易导致树状图的“链式效应”和“反转”(Murtagh&Legendre,2014[Murtagh,F.&Legendre,P.(2014),《分类杂志》第31期,第274-295页。]).混合物出于同样的原因,也采用Ward方法(Foadi等。, 2013【Foadi,J.,Aller,P.,Alguel,Y.,Cameron,A.,Axford,D.,Owen,R.L.,Armour,W.,Waterman,D.G.,Iwata,S.&Evans,G.(2013),《结晶学报》D69,1617-1632。】),同时cc集群而是使用“平均”链接方法。在年实施的基于强度的HCA中卡莫,病房链接用作默认设置。基于以下七种链接方法的结果科学Py模块(补充章节S1图S2),我们在本研究中使用了Ward链接。在Ward链接中,通过最小化加入簇时方差的增加来选择最近的簇。合并一对单个数据集时,沃德距离可以被视为同义词d日科科斯群岛,以便可以直接从Ward距离值计算CC值。相反,当合并包含多个数据集的集群时,这些集群之间的距离是根据集群中包含的数据确定的。因此,Ward距离不会直接给出集群内每个数据集的CC值。例如,沃德距离为0.6并不意味着每对数据集的CC值等于0.8。

2.4. 从观测/模拟数据确定同构阈值

基于胰蛋白酶的HCA结果生物信息学我们假设可以通过树状图纵轴上的Ward距离阈值来检测多态结构的存在。如果有多个簇低于此“同构阈值”,则每个簇都被视为不同的结构。然而,Ward距离的绝对值通常随着数据集数量的增加而增加,并且当不同结构之间的CC分布不同时,它们也会增加。因此,直接从观察到的胰蛋白酶数据的树状图中导出绝对Ward距离阈值作为通用指数是没有用的。因此,我们简单地使用最大Ward距离定义同构阈值(W公司0在里面补充图S3)整个系统的

[W_{1}=W_{0}\cdot R,\eqno(1)]

哪里W公司0是最大Ward距离,W公司1是同构阈值R(右)是这里要确定的常数(大小介于0和1之间的比率)。

“同构阈值”定义为当两个结构可以分类时,两个分支之间的较大Ward距离(W公司1在里面补充图S3). 确定R(右)在方程式(1)中[链接],通过以下步骤进行模拟。基于载脂蛋白和苯甲脒结合的胰蛋白酶数据集,我们首先模拟了所有三种组合的强度CC分布。假设有多个数据集且包含两种结构,我们使用遵循模型概率密度的CC创建了HCA的CC矩阵(补充图S3). 我们从CC矩阵中执行HCA,并评估这两个结构是否可以作为它们在树状图上的原始标签进行分类。

首先,我们检查了模拟是否成功再现了实验获得的树状图。W公司0W公司1可以从HCA模拟中的树状图中获得,并将其与观测值进行简单比较。接下来,将CC模型参数从初始模型更改为使分类变得越来越困难,并逐步进行计算,直到无法再进行分类的最终条件。数据集的数量从100个到1000个不等,每个数据集有两个不同结构标签的一半。这个R(右)计算依据W公司1/W公司0并绘制每个HCA中每个参数的得分,以确定合适的R(右)计算基于强度的HCA中的同构阈值。模拟的详细信息如所述补充章节S2.

2.5. 代表性样品1的应用:核转运受体转运蛋白-1与核定位信号肽复合物的多态性分析

为了评估胰蛋白酶数据集调查中建议的“同构阈值”是否有效,对具有代表性的样本数据集进行了HCA,并使用建议的“同构阈值”。

转运蛋白-1(Transportin-1,Trn1)是一种核转运受体,能够识别载于货物蛋白中的核定位信号(NLS)序列并将其带入细胞核。关于Trn1–NLS肽复合物(分子量分别约为98和2.5 kDa)样品制备的详细信息,请参见补充章节S3。我们在这里简单地描述一下。Trn-1Δloop突变体是使用大肠杆菌表达系统。使用谷胱甘肽Sepharose和阴离子交换柱纯化Trn1,然后尺寸排除色谱法。将Trn1(Eurofins)的NLS肽溶解在纯化缓冲液(110 m)中M(M)醋酸钾,200 mM(M)HEPES–KOH,10 mM(M)DTT)。通过混合5 mg ml制备Trn1–NLS肽复合物(以下称为“Trn1-肽复合物”)−1Trn1型Δ环路和5 mM(M)NLS肽。Trn1–肽复合物晶体是在0.5的结晶条件下获得的M(M)磷酸钠钾,pH 5.0。在用30%冷冻保护后,将获得的晶体在液氮中冷冻冷却(w个/v(v))含甘油的储层溶液。在BL32XU上使用SPring-8自动收集衍射数据ZOO(动物园)。使用连续螺旋方案,从四个晶体中的每个晶体中获取720°旋转数据。其他实验参数与用于胰蛋白酶晶体的参数相同:振荡宽度,0.1°;暴露时间,0.02秒;光束尺寸,10µm(水平)×15µm;波长,1º;平均剂量/晶体体积,10 MGy;探测器,EIGER X 9M(Dectris)。这个库马的模块ZOO(动物园)根据测量的晶体尺寸和指定的剂量值自动估计衰减因子。将获得的720°数据分为30°块,并应用层次聚类。使用本地区影院,将电子密度图与无肽结构模型进行比较,作为MR的模板模型。无肽模型在聚类分析之前通过以下步骤制备:分子置换使用相位器(麦考伊等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】)带有模板模型(PDB条目5yvi年)然后是的迭代精炼使用菲尼克斯定义(利布施内尔等。, 2019[Liebschner,D.,Afonine,P.V.,Baker,M.L.,Bunkóczi,G.,Chen,V.B.,Croll,T.I.,Hintze,B.,Hung,L.-W.,Jain,S.,McCoy,A.J.,Moriarty,N.W.,Oeffner,R.D.,Poon,B.K.,Prisant,M.G.,Read,R.J.,Richardson,J.S.,Ricchardson,D.C.,Sammito,M.D.,Sobolev,O.V.,Stockwell,D.H.,Terwilliger,T.C.,Urzhumtsev,A.G.,Videau,L。L.、Williams、C.J.和Adams,P.D.(2019年)。《水晶学报》。D75,861-877。])和手动建模使用库特.

2.6. 代表性样品2的应用:[NiFe]-氢化酶成熟因子HypD的多态性分析

HypD是[NiFe]-氢化酶的成熟因子之一,可以与其他成熟因子形成复合物(Muraki等。, 2019【Muraki,N.,Ishii,K.,Uchiyama,S.,Itoh,S.G.,Okumura,H.&Aono,S.(2019年),《公共生物学》2385。】). HypD的C360S变体超嗜热菌(以下简称澳大利亚HypD-C360S,分子量约42 kDa)是使用大肠杆菌表达系统,并使用带有氯化钠梯度的阳离子交换柱和尺寸排除色谱法。 澳大利亚使用16%获得HypD-C360S晶体(w个/v(v))聚乙二醇3350,0.1M(M)柠檬酸缓冲液pH 5.6,1 mM(M)二硫苏糖醇作为储层溶液。获得的晶体在低温保护后在液氮中进行低温冷却。在BL45XU上使用SPring-8自动收集衍射数据ZOO(动物园)。使用连续螺旋方案,从六个晶体中的每一个晶体获取360°旋转数据。其他实验参数如下:振荡宽度,0.1°;曝光时间,0.02s;探测器,PILATUS3 6M(Dectris)。这个库马的模块ZOO(动物园)根据测量的晶体尺寸和指定的剂量值自动估计衰减因子。将获得的360°数据分为30°块,并应用层次聚类。数据被合并到基本上分离的数据簇中,这些数据簇应与结构多态性相对应。电子密度图的评估由本地区影院.分析前本地区影院,模板模型(PDB条目2z1天)使用相位器 REFMAC公司5(穆尔舒多夫等。, 2011【Murshudov,G.N.,Skubák,P.,Lebedev,A.A.,Pannu,N.S.,Steiner,R.A.,Nicholls,R.A..,Winn,M.D.,Long,F.&Vagin,A.A..(2011),《晶体学报》,D67,355-367。】)和库特.

3.结果和讨论

3.1. 试验研究:不同胰蛋白酶数据集的分类

为了研究HCA是否可以对多态数据集进行分类,生物信息学混合数据集由两个不同的(载脂蛋白和苯甲脒结合的)胰蛋白酶数据集中的每一个数据集的48个区块组成,共有96个区块提交给卡莫每个区块的分辨率约为1.2°。每个区块包含约50000个反射;总体完成率约为40%空间组P(P)212121.卡莫如第2节所述,在预处理过程中拒绝了13个块[链接]为HCA留下83块(补充表S1). 使用高达1.50Ω分辨率的反射来计算基于强度的HCA中数据集之间的相关性。

3.1.1. 载脂蛋白胰蛋白酶和苯甲脒结合胰蛋白酶衍射数据的分类

基于单位细胞和基于强度的HRA被应用于生物信息学混合数据集包括载脂蛋白和抑制剂结合胰蛋白酶(图1[链接]和2[链接]). 在两个HCA结果中,顶部集群(集群82)的合并数据没有显示出显著性F类o个F类c(c)苯甲脒在3.0时的密度σ,尽管混合数据集中包含了大量结合苯甲脒的胰蛋白酶数据集(补充表S2). 这可能是因为合并数据中的载脂蛋白胰蛋白酶数据集数量大于结合苯甲脒的胰蛋白酶的数据集数量,这是由卡莫在HCA之前。

[图1]
图1
基于单元的HCA结果生物信息学包含载脂蛋白和苯甲脒结合胰蛋白酶的混合数据集。()生成的树状图。本研究中使用的“节点”、“分支”和“簇”的定义如树状图所示。基于单位细胞的HCA生成的树状图上描述了簇号和数据标签。蓝色数字表示每个节点的集群编号。载脂蛋白胰蛋白酶的块状物呈绿色阴影,苯甲脒结合胰蛋白酶的块状物呈橙色。(b条)–(e(电子))不同簇中胰蛋白酶抑制剂结合位点周围的电子密度图。2的轮廓级别F类o个F类c(c)贴图(灰色网格)为1.0σ以及F类o个F类c(c)贴图(绿色网格)为3.0σ。地图由生成库特在中本地区影院系统。
[图2]
图2
基于强度的HCA结果生物信息学包含载脂蛋白和苯甲脒结合胰蛋白酶的混合数据集。()生成的树状图。数据标签显示在底部:绿色,载脂蛋白胰蛋白酶;橙色,苯甲脒结合胰蛋白酶。树状图的颜色阈值设置为0.6。(b条)–(e(电子))从不同簇中的合并数据获得的抑制剂结合位点周围的电子密度图。2的轮廓级别F类o个F类c(c)贴图(灰色网格)和F类o个F类c(c)贴图(绿色网格)为1.0σ和3.0σ分别是。地图由生成库特在中本地区影院系统。

最大线性细胞变异(LCV)值(Foadi等。, 2013【Foadi,J.、Aller,P.、Alguel,Y.、Cameron,A.、Axford,D.、Owen,R.L.、Armour,W.、Waterman,D.G.、Iwata,S.和Evans,G.(2013)。晶体学报D69,1617-1632。】)单位-细胞变异的特征量为0.59%。由于载脂蛋白和苯甲脒结合胰蛋白酶的单位细胞常数略有不同(补充图S4),基于单位细胞的HCA未能成功完全分离载脂蛋白和苯甲脒结合的胰蛋白酶数据集(图1[链接]). 这意味着基于单位细胞的HCA对诸如载脂蛋白和苯甲脒结合胰蛋白酶晶体形式之间的小晶格变化不太敏感。在实际情况下,应根据电子密度图推断分类良好的簇,因为没有多态性的标签。因此,我们研究了从每个簇的合并数据中获得的电子密度图。根据电子密度图,两个不同的数据集似乎在树状图的第一个分支(簇78和簇81)处分离。虽然这些团簇中涉及载脂蛋白和苯甲脒结合块,但使用电子密度图无法区分数据污染。由于合并过程中拒绝了异常数据集卡莫,消除了一些污染数据块。例如,尽管聚类78在聚类后立即有两个载脂蛋白胰蛋白酶和16个苯甲脒结合胰蛋白酶块,但将10个仅包含苯甲酰胺结合胰蛋白酶数据集的块合并为最终数据集,从而使苯甲酰胺具有清晰的电子密度(补充表S2和图1[链接]). 在大多数其他情况下,即使剔除了异常值,最终合并的数据仍然包含一些污染(补充表S2). 例如,集群77中的合并数据由两个载脂蛋白胰蛋白酶和11个苯甲脒结合的胰蛋白酶块组成。然而,少量的污染并未影响得到的电子密度图(图1[链接]). 大约15%的污染没有影响由该测试案例中的主要数据集产生的电子密度图。

与上述结果相反,基于强度的HCA(图2[链接])成功地对两个混合数据集进行了完全分类(集群71和72)。清除F类o个F类c(c)在簇72中观察到苯甲脒的密度,但没有显著性差异F类o个F类c(c)在其他簇中观察到苯甲脒的密度为3.0σ.簇71只有一个苯甲脒结合的区块,该区块参与载脂蛋白胰蛋白酶簇有两个可能的原因:苯甲酰胺的占有率低或数据质量差。考虑到前一种可能性,从选定的苯甲脒结合晶体获得的数据被分为四个90°块体和占据率精炼苯甲脒REFMAC公司5.得到的97%、93%、97%和92%的占有率没有显著差异,表明配体占有率可能在整个晶体体积上保持不变。关于后一种可能性,从大晶体中自动收集螺旋数据通常会导致晶体两端的衍射功率显著降低。这一点将在第3.1.4节中进一步讨论[链接].

在基于强度的HCA中,CC是影响分类结果的关键信息。在CC计算中,使用达到指定分辨率的普通反射。研究CC距离的分辨率依赖性(d日科科斯群岛)在多个分辨率截止值下进行基于强度的HCA(补充图S5). 尽管CC计算的截止分辨率降低到3.5Å,但基于强度的HCA成功地对apo和苯甲脒结合的胰蛋白酶数据块进行了分类。因此,就我们的研究而言,CC计算的分辨率依赖性似乎微不足道。对载脂蛋白和苯甲脒结合数据块的成功排序表明,基于强度的HCA可以有效地分离异质数据块,即使单元格尺寸差异太小,无法通过基于单位的HCA进行分类。

3.1.2. 两种不同抑制剂结合胰蛋白酶数据集的分类

接下来,我们根据从胰蛋白酶晶体中获得的数据集,用具有不同骨架配方的两种不同抑制剂,测试了基于HCA的分类(补充图S1)但它们具有相同的结合位点:苯甲脒和色胺。

虽然可以为某些簇找到同质数据集簇(例如簇74和簇76),但这两种不同抑制剂的数据无法通过基于单位的HCA成功排序(图3[链接]). 最大LCV值为0.75%,略大于载脂蛋白和苯甲脒结合胰蛋白酶的LCV值。这意味着0.75%的较大LCV值仍不足以使用基于单位-细胞的HCA对不同的胰蛋白酶数据集进行分类。基于电子密度图(补充图S6),两个不同的数据集在第一个分支处大致分开(集群81和82)。然而,簇80中的电子密度图清楚地显示了这两种抑制剂结合数据的混合。看起来很难区分底座骨骼结构根据电子密度图。合并的数据由6个苯甲脒结合块和14个色胺结合块组成,导致主要数据集受到约30%的污染(补充表S3). 在第77组中,合并的数据由9个苯甲脒结合块和4个色胺结合块组成,约占主流数据集的31%。根据这些结果,一个小数据集大约30%的污染可能是获得允许初始模型构建的电子密度图的容许上限。

[图3]
图3
基于单位-细胞聚类的混合数据集的树状图,包括结合苯甲脒和结合色胺的胰蛋白酶。基于单位细胞的HCA生成的树状图上描述了簇号和数据标签。为了评估聚类效果,根据原始数据集对每个聚类叶片进行着色:橙色、苯甲脒结合的胰蛋白酶;蓝色,色氨酸结合的胰蛋白酶。每个群集节点上标记的数字表示从混合物.

基于强度的HCA(图4[链接])成功地将数据块分为两个同质数据集(簇72和74),尽管在右分支的一些小簇中混合了两个抑制物绑定数据集(集群73、78和81)。在星团74和72上获得的电子密度图清晰可见F类o个F类c(c)苯甲脒和色胺在3.0时的密度σ分别为(补充图S7).

[图4]
图4
混合数据集基于强度的HCA的树状图,包括结合苯甲脒和结合色胺的胰蛋白酶。底部的数据标签以橙色表示苯甲脒结合的胰蛋白酶,以蓝色表示色胺结合的胰酶。
3.1.3. 载脂蛋白胰蛋白酶的分类和两个抑制剂结合的胰蛋白酶数据集

如前几节所示,使用基于单步强度的HCA对两个不同的数据集进行分类。然而,在实际情况中可能会发现三种以上的结构多态性。例如,当聚类应用于时间分辨实验中获得的数据时,在感兴趣的中间物之前和之后可能有三个以上的中间物。为了测试这种情况,将基于强度的HCA应用于生物信息学混合数据集包含本研究中使用的所有三种不同的胰蛋白酶数据集,即apo、苯甲脒结合的和色胺结合的胰蛋白酶数据集。

结果表明,基于强度的HCA对三个不同的数据集进行了几乎完美的分类(补充图S8)而基于单位的HCA并没有很好地对这些数据集进行分类(补充图S9). 在中的第一个分支中补充图S8,一个簇仅包含色胺结合块(簇115),而另一个簇主要包含载脂蛋白和苯甲脒结合块(集群130)。从后一个聚类的进一步聚类来看,载脂蛋白胰蛋白酶的同质数据聚类出现在聚类114,苯甲脒结合胰蛋白酶的数据聚类出现于聚类116。在分离过程中,出现了一些小簇(簇119、120和128)。这些集群被视为离群值,因为与其他集群相比,所涉及的块数量较小,块之间的距离相对较大。尽管一些与抑制剂结合的块被混合到占主导地位的apo-胰蛋白酶簇(簇114)中,但这可能是由于较低的抑制剂占用率或相对低质量的数据。

3.1.4. 通过对观察到的胰蛋白酶数据集的调查得出的“同构阈值”

集群中数据集的CC值生物信息学混合胰蛋白酶(载脂蛋白和苯甲脒结合胰蛋白酶;第3.1.1节[链接])载脂蛋白胰蛋白酶簇(簇71)和苯甲脒结合胰蛋白酶(簇72)数据集分别为0.93和0.94。这一结果表明,HCA对此类微小结构变化的分类是有效的。因此,我们研究了特定体积蛋白质部分结构变化对CC的影响。对CC值的变化进行了检测,以确定部分或全部胰蛋白酶分子(全长由223个氨基酸组成)的旋转,而单位细胞常数没有任何变化(补充图S10). 结果发现,即使末端十氨基酸螺旋的5°旋转的相对显著的构象变化也会导致CC比原始结构减少0.015。当旋转四分之一的胰蛋白酶残基(57个氨基酸)时,5°旋转导致CC变化约0.030。模拟还证明,如果整个分子旋转,CC会发生较大的变化。

对于本研究中使用的apo(称为“apo”)和苯甲脒结合(称为“benz”)胰蛋白酶的30°块d日科科斯群岛每个块组合获得的值如所示补充图S11.分配d日科科斯群岛对于均质成对的apo块,其中心位置约为0.2,而d日科科斯群岛在载脂蛋白和苯胰蛋白酶的异质数据之间,在0.25左右,分布略微向右移动(CC≃0.97)。

直方图显示,即使在同质数据中,组合的某些部分也显示出较高的d日科科斯群岛值大于0.6(补充图S11). 热图d日科科斯群岛所有数据集对之间的值表明,有些数据集与几乎所有数据都没有任何相关性(补充图S12). 这些数据大多是从晶体顶端发出的块状物。由于等价数据集的选择和基于单元-单元的过滤是在聚类之前执行的,因此这些块与其他块类似,至少在单元-单元参数方面是如此。如前一节所述,晶体尖端的块状物对结构分析没有显著影响;因此,CC的计算可能不可靠(例如〈/σ()在计算CC时,应仔细考虑使用强度的分辨率极限。然而,HCA分类的所有数据都包含在主分布中d日科科斯群岛约为0.2,表明主管道d日科科斯群岛分布对于HCA准确分类很重要。

如第2.4节所述[链接]补充章节S2,通过数值模拟从apo和benz胰蛋白酶数据集确定“同构阈值”。观察到的CC中值apo–apo,抄送奔驰–奔驰和CCapo–奔驰分布分别为0.978、0.970和0.962,相应的标准偏差分别为0.020、0.019和0.017。仅满足数据d日科科斯群岛<0.4用于表征这些统计数据中CC分布的显著峰值。CC和拟合曲线的分布如所示补充图S13().

载脂蛋白和苯胰蛋白酶的HCA模拟显示了完美的分类,没有污染树状图(补充图S13b条). 重复100次计算后W公司1对这两种不同结构的分类分别为0.61和0.03。结果表明,我们的模拟大致重现了观测数据。

在下一步中,通过修改其参数,使用经验证的模型进行HCA模拟,以使两种结构难以分类。图5[链接]显示比率之间的关系R(右)和HCA模拟分数。最低的R(右)在每个图中,以“十字标记”显示的是HCA使用原始模型的结果。从那以后,随着分类变得困难,R(右)分数增加而恶化。R(右)大于0.7会使除1000个数据集外的所有图的分类得分恶化。我们认为分类成功的分数阈值为0.9(图5中的虚线[链接]); 0.6–0.7可能是合理的R(右)用于数百个数据集。基于这些结果,我们假设多态性基于强度的HCA中的检测可以通过乘以W公司00.6-0.7倍。

[图5]
图5
R(右)在方程式(1)中[链接]和我们的HCA模拟中的分类分数(详细信息见第2.4节[链接]补充章节S2). 折线图说明了假设100、200、300、500和1000个数据集的得分。最低的R(右)在每个图中,都显示为十字标记,这是使用原始CC模型进行HCA的结果(补充图S13). 使用CC进行HCA模拟apo–苯和CC奔驰–奔驰位置以十个步骤逐渐接近,使分类更加困难。

通过使用假设的比率,检查了基于观察强度的HCA的分类。对于apo/benz胰蛋白酶,0.77–0.90是图2中树状图的最高值[链接](1.29)乘以0.6–0.7,作为同构阈值。因此,簇71、72和74是结构多态性的候选,但簇74不是完整的数据集,不能用于结构分析。对于两种配体结合胰蛋白酶(图4[链接])同构阈值为0.76–0.89,将簇72、75和78分类为结构多态的候选。尽管簇73受到污染,簇75在电子密度图中显示出苯甲脒结合结构补充图S7在包含载脂蛋白和苯甲脒结合胰蛋白酶的混合数据集上,基于强度的HCA中也发现了类似的结果。补充图S8同构阈值约为0.96–1.1,簇115、123和125是多态的候选。其中,排除明显的异常集群后,集群115、114和116仍然存在。我们的同构阈值被证明是一个很好的分类指标多态性在所有胰蛋白酶的情况下。

对胰蛋白酶数据集的研究表明,基于强度的HCA可以成功地对结构多态性进行分类。结果还表明,当单位-细胞常数变化很小时,基于单步强度的HCA就足够了;例如,当最大LCV值小于1%时。在基于强度的HCA对胰蛋白酶测试案例的树状图中(图2[链接]和4[链接]补充图S8),相同的数据集似乎聚集在我们的同构阈值内。根据结果,可以通过使用基于强度的HCA和建议的“同构阈值”的单个步骤对数据集进行分组来识别多态性。由于聚类的多个步骤(Nguyen等。, 2022【Nguyen,T.,Phan,K.L.,Kozakov,D.,Gabelli,S.B.,Kreitler,D.F.,Andrews,L.C.,Jakoncic,J.,Sweet,R.M.,Soares,A.S.&Bernstein,H.J.(2022),《晶体学报》D78,268-277。】)通过在聚类过程中过滤数据来减少最后一步中的数据集数量,当数据总量有限时,较少的聚类步骤可能会有所帮助。

3.2. 代表性样品的应用

为了评估具有我们建议的“同构阈值”的基于强度的一步HCA是否有助于检测实际样品中的多晶型,我们对两个代表性例子进行了基于强度的HCA和结构分析:Trn1–肽复合物和澳大利亚HypD-C360S型。在这里,我们选择了满足阈值的聚类,同时合并数据的完整性足够高,可以进行进一步的结构分析。

3.2.1. Trn1肽复合物的衍射数据分类和多态性分析

使用720°旋转的螺旋方案获得了Trn1-肽复合物的衍射数据。每个数据集被分成30°块,从四个晶体中得到96块。每个区块的分辨率在3-4Å的范围内。每个30°块体中的反射次数约为60 000次,整体完整性约为25%空间组C2.使用分辨率高达3.67º的反射来计算基于强度的HCA中数据集之间的相关性。

获得的块体接受基于强度的HCA,使用卡莫(图6[链接]). 虽然观察到一些离群值,但选择了两个主要聚类(聚类72和76)进行进一步的结构分析。

[图6]
图6
Trn1肽复合物基于强度的HCA树状图。数据标签显示在底部,并由晶体着色。聚类72和76用于进一步的结构分析,因为这两个聚类似乎具有不同的结构(多态性)。

这两个节点的电子密度图明显不同(图7[链接]). 有两种肽结合形式:一种没有任何二级结构(形式1),另一种具有α-螺旋线(形式2)。当所有区块合并时,也观察到这两种肽结合形式(簇82)。然而F类o个F类c(c)每种肽结合形式的图谱似乎不如聚类结果清晰(聚类72和76)。虽然两种肽结合形式都出现在每个节点中,但其占位似乎不同。这个F类o个 − F类c(c)该图显示,76号星团以1型为主,72号星团则以2型为主。同构阈值的范围从0.73到0.85,从具有这些值的树状图来看,簇72和76是结构多晶型的候选者,与上述结果一致。

[图7]
图7
肽-省略F类o个F类c(c)Trn1肽复合物基于强度的HCA产生的不同节点的地图。F类o个F类c(c)根据合并数据计算的地图()集群82(b条)集群76和(c(c))集群72如图所示。每个图形的轮廓级别设置为3.0σ。在map计算过程中省略了结合肽。这些数字是由库特.

生化实验结果支持两种肽结合形式的存在。如图7所示[链接],在F类o个F类c(c)两种结合形式的NLS肽的密度。由于NLS通常由碱性氨基酸残基组成,这符合通过静电相互作用实现的货物再识别机制。每种肽结合形式中的三个突变(形式1为两个Glu残基和一个Asp残基,形式2为两个Glu残基和一个Trp残基)导致肽结合减少。因此,这两种肽结合形式对Trn1的功能在生理上都很重要。

由于Trn1肽复合物的单位细胞常数的变化比胰蛋白酶的单位细胞常量的变化更显著(补充图S14),我们还应用了基于单元的HCA(补充图S15). Trn1肽复合物的最大LCV值为4.03%,显著高于胰蛋白酶的LCV值(0.59%)。获得的电子密度图似乎不同(补充图S16),如基于强度的HCA结果所示(图7[链接]). 然而,聚类结果略有不同。形态1的优势节点出现在左侧分支(簇73和78),而这两种形态都出现在右侧分支(簇77和79)。基于单位-细胞的HCA结果中未发现Form 2显性节点。因此,在这种情况下,基于单步强度的HCA似乎可以更好地对数据进行分类,即使细胞变异很大。

虽然分辨率相对较低(低于3º)空间组不是高度对称的(C2) 对于Trn1肽复合物,基于强度的HCA足以识别两种不同的肽结合模式。结果表明,多态性分析甚至可以在分辨率相对较低、对称性较低的空间群上进行。

另一个有趣的发现是,尽管晶体是在同一结晶液滴中获得的,但主要肽结合形式不同。此外,一些晶体同时具有形态1主导块和形态2主导块(晶内变化)。对聚类结果进行绘图显示,形态1的主要块体主要位于晶体尖端(补充图S17). 该结果表明,通过连续螺旋方案收集衍射数据,不仅可以识别不同晶体(晶间)中的多态性,还可以识别相同晶体(晶内)中的多晶型,这大大扩展了多态性分析的可能性。

3.2.2. 衍射数据分类和多晶型分析澳大利亚HypD-C360S型

使用螺旋方案,衍射数据集澳大利亚HypD-C360S取自六个晶体,每个晶体360°旋转。每个数据集被分成30°块,从六个晶体中得到72块。每个区块的分辨率约为1.6º。每个30°块中约有10万个反射,整体完整性约为45%空间组P(P)212121对于基于强度的HCA,使用高达2.79°分辨率的反射来计算数据集之间的相关性。

根据图8中的树状图,同构阈值约为1.9–2.2[链接]根据该阈值,簇61、63和64为多态候选。由于与本文中的其他样本相比,Ward距离非常大,因此我们决定对具有完整数据集的聚类进行仔细的结构分析,并比较此样本的细节。在这些簇的数据中,通过检查相应的电子密度图(图9),确定了N端和[4Fe–4S]区域周围存在差异的一些多晶型[链接]补充图S18). 在集群50和52中发现了显著差异。在簇50中,N末端区域是展开的(称为“展开的”构象),没有二级结构,[4Fe–4S]簇的占据率随着周围区域的无序而降低(图9[链接]和9[链接]b条). 相反,在簇52中,N末端区域向蛋白质侧折叠(称为“折叠”构象),[4Fe–4S]簇周围的区域排列有序(图9[链接]c(c)和9[链接]d日). 51团簇中的电子密度图(补充图S18和S18b条)在集群50中表现出类似的趋势。然而,负面影响F类o个F类c(c)[4Fe–4S]簇的峰值在簇51中降低。星团42的电子密度图与星团52相似(补充图S18c(c)和S18d日). 然而,“折叠”N末端区域在簇52中更为明显。两种不同的N末端构象与[4Fe–4S]簇周围的无序性密切相关。B类-因子分析清楚地表明,N端的“未折叠”构象破坏了[4Fe–4S]周围区域的稳定性(图10[链接]). 根据群集54中的数据R(右)自由的(>0.4)。在集群47中,没有获得完整的数据,因为大多数块在卡莫在这个例子中,最显著的结构差异(N末端和[4Fe–4S]区域)似乎在树状图的第一个分支处分离。在进一步分离期间,似乎对更轻微的差异(占用率)进行了分类(集群50和51或集群52和42)。

[图8]
图8
基于强度的HCA的树状图澳大利亚HypD-C360S变体。数据标签显示在底部,由晶体着色。由于数据集之间存在显著偏差,一些聚类对进一步分析的足够完整性不满意。因此,根据阈值为0.8的结果选择簇52和簇54。每个数据簇由一个或两个晶体的块组成,这表明晶体间的差异比晶体内的差异更为显著澳大利亚HypD-C360S型。
[图9]
图9
从不同簇的合并数据中获得的N端区域和[4Fe–4S]簇周围的电子密度图:(,b条)集群50和(c(c),d日)集群52。2的轮廓级别F类o个F类c(c)贴图(灰色网格)设置为1.0σ集群52中[4Fe–4S]区域除外,该区域设置为1.5σ。的轮廓级别F类o个F类c(c)map设置为3.0σ(绿色网格,正值;红色网格,负值)。N末端区域仅描述了主链:“展开”(紫色)和“折叠”(蓝色)。省略了可变N末端区域(Ser7–Tyr12),并在图谱计算中将[4Fe–4S]簇的占有率设置为1.0。这些数字是由库特.
[图10]
图10
B类-因素分析澳大利亚在基于强度的HCA中从不同簇获得的HypD-C360S结构。()的绘图B类C的因数α来自不同簇的数据中的原子。(b条,c(c))的主链跟踪澳大利亚从簇50获得的具有“未折叠”N末端的HypD-C360S(b条)以及从52号星团获得的“折叠”N末端(c(c)).B类-基于因子的着色应用于库特图中N端和C端分别表示为“N”和“C”。带有“未折叠”N末端的结构显示出显著的高B类[4Fe–4S]集群周围的因素。这些数字是由UCSF奇美拉(佩特森等。, 2004【Pettersen,E.F.,Goddard,T.D.,Huang,C.C.,Couch,G.S.,Greenblatt,D.M.,Meng,E.C.&Ferrin,T.E.(2004),《计算化学杂志》第25期,第1605-1612页。】).

因此,根据我们的“同构阈值”分类的簇61、63和64是发现特征结构的数据的父节点。集群61是集群50和51的父节点,集群63是集群52的父节点;集群64是集群42的父节点(图8[链接]). 仅考虑集群61的本地情况,W公司0为1.0,对应于0.6–0.7的同构阈值。这允许将集群50和51视为可在此集群中分类。我们的同构阈值也被证明对这个样本有效。在相同结晶条件下获得的晶体中也发现了多晶型。这一结果表明,即使在相同的结晶条件下,蛋白质也可能具有几种亚稳态构象。本研究的结果表明,当树状图上Ward距离的绝对值较大时,如本样本中所示,尝试分析在同构阈值下发散的节点的子簇结构是有用的。

聚类50、51、52和42中同源数据对的CC分布中值分别为0.976、0.961、0.935和0.966。相应的标准偏差分别为0.019、0.019、0.020和0.019。这些统计数据按d日科科斯群岛其他样品<0.4。正如生成的树状图所预期的那样(图8[链接]),来自集群50或51的数据对与集群52或42的数据对之间存在显著的CC变化。即使集群50和集群51之间的数据对的CC分布与树状图的差异最小,CC分布的平均值为0.946,相应的标准偏差为0.020。

3.3. 基于强度的HCA的当前限制以及进一步应用的可能最佳实践

两个代表性样品的结果表明,具有提议的“同构阈值”的基于强度的HCA可以作为检测从多个晶体获得的数据集中的同构的有用指标。此外,将螺旋方案收集的数据拆分为若干块,有助于分析同一晶体中的结构多晶型。即使对于结构已经确定的已知蛋白质,结构多态性也可能被忽视。本指南的范围适用于使用50µm或更大的多晶体的情况,以便可以从单位-细胞常数略有变化的单晶中收集完整数据。我们专注于通过从多个大型晶体中收集螺旋数据来收集360°或更大的大型楔形数据集,并将数据聚类为30°或更大的块状数据集,从而找到多晶型。

基于强度的HCA有明确的限制。数据集之间需要一定数量的共同反射才能计算CC值。作为中的默认设置卡莫,每个数据集之间需要至少三个公共反射。在SWSX中,每个晶体以5–20°旋转收集衍射数据,从而减少常见反射。由于分辨率较低或晶体对称性。在本研究中,块体大小设置为30°,其中普通反射的数量预计足够。

为了研究块大小(旋转范围)的限制,使用0.5°到30°的高分辨率胰蛋白酶数据集绘制了不同块大小的常见反射和拒绝数据的数量(补充图S19). 从CC计算中排除的区块数量大幅增加到3°以下。当区块大小设置为0.5°时,几乎所有数据都被拒绝(99.0%)。该结果与之前关于基于强度的HCA应用于串行同步辐射晶体学(SSX)数据(每个晶体2°)的报告一致,使用cc集群(桑托尼等。, 2017【Santoni,G.,Zander,U.,Mueller-Dieckmann,C.,Leonard,G.&Popov,A.(2017),《应用结晶杂志》,第50期,1844-1851页。】). 显然,将基于强度的HCA应用于具有极窄或无振荡数据的单帧数据是不现实的,例如通过串行飞秒晶体学(SFX)或串行同步旋转晶体学方法(SSROX)收集的数据。

此外,为了研究基于强度的HCA的足够数量的常见反射,对本研究中使用的数据集在不同块大小下的常见反射数量进行了评估。由于胰蛋白酶的拒绝数据增加到3°以下,log(共反射次数)≥2.5似乎是有希望的。总反射中常见反射的比例在很大程度上取决于晶体对称性(补充图S20). 如果分辨率相对较低或晶体对称性如Trn1肽复合物的例子所示,分子量不高,大的分子量可以覆盖反射的数量。如果可能,使用螺旋方案或更大的数据旋转范围进行部分数据采集将有助于增加基于强度的HCA多态性分析的常见反射。

当基于强度的HCA不可用时,基于单位细胞的HCA仍然有用。即使是单帧数据,例如SFX数据,也可以使用单位-细胞常数。因此,基于单位-细胞的HCA可以应用于任何给定的衍射数据集。在实际的SFX数据中,具有不同晶胞属性的数据集有时会混合到整个数据集中(Nomura等。, 2021[野村、木村、T.、神马、Y.、山田、D.、山下、K.、平田、K.,上野、G.、村上、H.、久野、T.,山川、R.、武田、H.,戈帕拉辛根、C.、高坂、R.,柳泽、S.、Shoji、O.、Kumasaka、T.和Yamamoto,M.、Takano,Y.、Sugimoto,H.、Tosha、Kubo、M.和Shiro,Y.(2021)。美国国家科学院院院刊,118,e210148111]8.】). 考虑到一般情况,应首先应用基于晶胞的HCA来过滤出具有不同晶胞参数的数据集。如果单位-细胞常数的变化相对较小,比如最大LCV值小于1%,那么基于单位-细胞的HCA很可能不会产生良好的分类结果。然而,从基于单位细胞的HCA结果中可以发现多晶型。在最近的一项研究中(Soares等。, 2022【Soares,A.S.、Yamada,Y.、Jakoncic,J.、McSweeney,S.、Sweet,R.M.、Skinner,J.和Foadi,J.,Fuchs,M.R.、Schneider,D.K.、Shi,W.、Andi,B.、Andrews,L.C.和Bernstein,H.J.(2022),《结晶学报》F78、281-288。】)改进了基于单元的HCA的距离度量。此外,在合并步骤中执行的异常值拒绝卡莫可能有助于减少受污染的数据集。

虽然我们通过基于单步强度的聚类对多态性进行分类,但在一般情况下,应考虑单位-细胞参数以实现更准确的分类。从基于单位-细胞的HCA对胰蛋白酶数据集的结果来看,来自相同数据的块被分成不同的分支(图1[链接]和3[链接]). 如果将基于强度的HCA进一步应用于从基于单位的HCA获得的聚类,则在数据合并的最后阶段剩余的数据集数量可能会减少。因此,当数据集总数较少时,单步聚类更可取。具有二维参数(包括单位-细胞参数和强度相关性)的HCA正被考虑用于更有效的单步聚类。

4.结论与展望

基于对测试用例的调查,我们提出数百个30°块数据集的基于强度的HCA分类的“同构阈值”是树状图顶行的Ward距离乘以0.6–0.7。在具有代表性的样本中,基于强度的HCA成功检测到多态性,并使用我们建议的阈值。本指南的范围基本上包括使用多个大于50µm的晶体的情况,并且可以从每个单晶中收集完整的数据,单位-细胞常数略有变化。我们专注于通过从多个大晶体中收集螺旋数据,收集360°或更大的楔形数据集,并将其聚类为30°或更高的区块数据集,从而找到多晶型。

本研究的结果,包括标准样品和代表性样品,表明基于强度的单步HCA和提出的“同构阈值”对于使用多个数据集检测多态性是有效的。尽管螺旋数据采集和HCA已用于MX实验和分析,但我们证明了与当前HDRMX趋势一致的几个优点。螺旋数据方案的独特之处在于,它可以通过将完整的数据集划分为块来应用于晶体内的多晶型分析,因为数据是在转换X射线曝光位置时收集的。事实上,我们的结果表明晶体中可能存在多晶型。ZOO(动物园)SPring-8的自动数据采集系统以均匀的剂量从每个晶体体积收集数据,与单点旋转相比,这可能会减少由于辐射损伤引起的结构不均匀性。即使使用多个晶体,由于辐射损伤导致的晶体之间的同构也可以被抑制到相同的程度,只允许讨论晶体中存在的结构差异。此外,高效的自动化数据采集增加了在给定时间内可以测量的数据集数量,从而可以分析具有更高分辨率的多晶型。

我们的发现可以广泛应用于其他蛋白质样品。即使分辨率相对较低(约4℃),也可以确定具有生理意义的多晶型,如Trn1肽复合物的示例所示。典型的例子还表明,蛋白质分子在同一晶体中可能表现出不同的结构。此外,在两种实际情况下,可以从使用相同结晶条件获得的多个晶体中发现多晶型。即使在样品制备过程中没有预期或检测到多晶型的存在,“同构”阈值的确定也能实现多晶型的检测。通过使用我们提出的“同构”阈值自动进行多晶型分析,也将促进更广泛的应用。

所建议的多态性分析有助于获得蛋白质功能过程中的各种结构快照,以阐明分子机制。确定多个结构快照也将有助于更准确的结构预测,具体如下AlphaFold公司2(跳线等。, 2021【Jumper,J.、Evans,R.、Pritzel,A.、Green,T.、Figurnov,M.、Ronneberger,O.、Tunyasuvunakool,K.、Bates,R.,Xiadek,A.、Potapenko,A.、Bridgeland,A.、Meyer,C.、Kohl,S.A.、Ballard,A.】。J.、Cowie,A.、Romera--Paredes,B.、Nikolov,S.、Jain,R.、Adler,J.、Back,T.、Petersen,S.和Reiman,D.、Clancy,E.、Zielinski,M.、Steinegger,M.和Pacholska,M.,Berghammer,T.,Bodenstein,S.,Silver,D.、Vinyals,O.、Senior,A.W.、Kavukcuoglu,K.、Kohli,P.和Hassabis,D.(2021年)。《自然》,596583-589。])和罗斯塔福尔德(贝克等。, 2021【Baek,M.,DiMaio,F.,Anishchenko,I.,Dauparas,J.,Ovchinnikov,S.,Lee,G.R.,Wang,J,Cong,Q.,Kinch,L.N.,Schaeffer,R.D.,MilláN,C.,Park,H.,Adams,C.,Glassman,C.R.,DeGiovanni,A.,Pereira,J.H.,Rodrigues,A.V.,van Dijk,A.,Ebrecht,A.C.,Opperman,D。J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T.,Rathinaswamy,M.K.、Dalwadi,U.、Yip,C.K.、Burke,J.E.、Garcia,K.C.、Grishin,N.V.、Adams,P.D.、Read,R.J.和Baker,D.(2021)。科学,373871-876。]). 然而,使用我们的方法无法获得有关已识别多晶型之间的时间序列或反应途径的结构信息。它可以通过分子动力学(MD)模拟来补充。例如,对自由能景观的分析将有助于理解蛋白质功能(Oide)期间的动态结构机制等。, 2020【Oide,M.,Kato,T.,Oroguchi,T.&Nakasako,M..(2020年)。联邦公报287,3472-3493。】). 随着诱导结构变化的技术,如配体混合,多态性分析将得到进一步加强。虽然时间分辨晶体学是动力学分析的有力工具,但提出的多晶型分析将有助于弥补控制此类反应的诸多困难。还应在不久的将来开发将基于强度的HCA扩展到单帧数据(来自SFX或SSROX)。

5.可用性

此处显示的分析可以通过安装程序在任何地方执行卡莫,可从GitHub获得(https://github.com/keitaroyam/yamtbx). 本研究中使用的原始衍射数据可从Zenodo获得。这些链接是https://doi.org/10.5281/zenodo.7067666apo-胰蛋白酶;https://doi.org/10.5281/zenodo.7068055苯甲脒结合胰蛋白酶;https://doi.org/10.5281/zenodo.7067758用于胰蛋白酶结合的色胺;https://doi.org/10.5281/zenodo.7068185用于HypD和https://doi.org/10.5281/zenodo.7067871对于Trn1。

支持信息


脚注

目前所属单位:庆应义塾大学科学技术学院化学系,地址:3-14-1 Hiyoshi,Kohoku,Yokohama,Kanagawa 223-8522,Japan。

鸣谢

我们感谢Keitaro Yamashita(MRC LMB)的有益讨论,以及Kaede Nakayama先生(兵库大学)在HCA模拟方面的技术援助。我们还感谢BL45XU光束线工作人员协助X射线晶体数据采集。我们衷心感谢Chai Gopalasingam和Christoph Gerle对手稿的批判性阅读和有益的建议。

资金筹措信息

本研究得到了日本教育、文化、体育、科学和技术部的资助(编号21K06031;STF)、创新领域科学研究资助(编号JP19H05762(SA)和19H05783(MY))、日本科学促进会KAKENHI资助(编号:JP20K06517(NM)、JP22K06107(KH)、,AMED-CREST根据22gm1410010s0202号(STF)拨款,以及AMED根据JP21am0101072号(支持号1587;STF)和JP20am0101070号(MY)拨款支持药物发现和生命科学研究的平台项目(支持创新药物发现和生命科学研究的基础;BINDS),以及日本科学技术署(JST)拨款号JPMJTR224A(KH)通过目标驱动研发(A-STEP)实施的适应性无缝技术转让计划。

工具书类

第一次引用Baba,S.,Matsuura,H.,Kawamura,T.,Sakai,N.,Nakamura,Y.,Kawano,Y.、Mizuno,N.、Kumasaka,T.、Yamamoto,M.和Hirata,K.(2021)。J.同步辐射。 28, 1284–1295. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Baek,M.、DiMaio,F.、Anishchenko,I.、Dauparas,J.、Ovchinnikov,S.、Lee,G.R.、Wang,J.,Cong,Q.、Kinch,L.N.、Schaeffer,R.D.、MilláN,C.、Park,H.、Adams,C.、Glassman,C.R.、DeGiovanni,A.、Pereira,J.H.、Rodrigues,A.V.、van Dijk,A.A.、Ebrecht,A.C.、Opperman,D.J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T.,Rathinaswamy、,M.K.、Dalwadi,U.、Yip,C.K.、Burke,J.E.、Garcia,K.C.、Grishin,N.V.、Adams,P.D.、Read,R.J.和Baker,D.(2021)。科学类,373, 871–876. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Barends,T.R.M.、Stauch,B.、Cherezov,V.和Schlichting,I.(2022)。自然修订方法引物,2, 60. 科学网 交叉参考 谷歌学者
第一次引用Basu,S.、Kaminski,J.W.、Panepucci,E.、Huang,C.-Y.、Warshamanage,R.、Wang,M.和Wojdyla,J.A.(2019年)。J.同步辐射。 26, 244–252. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Bernstein,H.J.、Andrews,L.C.、Diaz,J.A.Jr、Jakoncic,J.、Nguyen,T.、Sauter,N.K.、Soares,A.S.、Wei,J.Y.、Wlodek,M.R.和Xerri,M.A.(2020年)。结构。动态。 7, 014302. 科学网 交叉参考 公共医学 谷歌学者
第一次引用Bowler,M.W.、Svensson,O.和Nurizzo,D.(2016)。结晶器。版次。 22, 233–249. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Casanas,A.、Warshamanage,R.、Finke,A.D.、Panepucci,E.、Olieric,V.、Nöll,A.、Tampé,R.,Brandstetter,S.、Förster,A.、Mueller,M.、Schulze-Briese,C.、Bunk,O.和Wang,M.(2016)。《水晶学报》。D类72, 1036–1048. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Cherezov,V.、Rosenbaum,D.M.、Hanson,M.A.、Rasmussen,S.G.F.、Thian,F.S.、Kobilka,T.S.、Choi,H.-J.、Kuhn,P.、Weis,W.I.、Kotilka,B.K.和Stevens,R.C.(2007年)。科学类,318, 1258–1265. 科学之网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Delagenière,S.、Brenchereau,P.、Launer,L.、Ashton,A.W.、Leal,R.、Veyrier,S.和Gabadinho,J.、Gordon,E.J.、Jones,S.D.、Levik,K.E.、McSweeney,S.M.、Monaco,S.,Nanao,M.、Spruce,D.、Svensson,O.、Walsh,M.A.和Leonard,G.A.(2011年)。生物信息学,27, 3186–3192. 科学网 公共医学 谷歌学者
第一次引用Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010年)。《水晶学报》。D类66, 486–501. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Fisher,S.J.、Levik,K.E.、Williams,M.A.、Ashton,A.W.和McAuley,K.E..(2015)。J.应用。克里斯特。 48, 927–932. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Flot,D.、Mairs,T.、Giraud,T.、Guijarro,M.、Lesourd,M.、Rey,V.、van Brussel,D.、Morawe,C.、Borel,C.、Hignette,O.、Chavanne,J.、Nurizzo,D.、McSweeney,S.和Mitchell,E.(2010)。J.同步辐射。 17, 107–118. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Foadi,J.、Aller,P.、Alguel,Y.、Cameron,A.、Axford,D.、Owen,R.L.、Armour,W.、Waterman,D.G.、Iwata,S.和Evans,G.(2013年)。《水晶学报》。D类69, 1617–1632. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Gati,C.、Bourenkov,G.、Klinge,M.、Rehders,D.、Stellato,F.、Oberthür,D.、Yefanov,O.、Sommer,B.P.、Mogk,S.、Duszenko,M.,Betzel,C.、Schneider,T.r.、Chapman,H.N.和Redecke,L.(2014)。IUCrJ大学,1, 87–94. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
第一次引用Giordano,R.,Leal,R.M.F.,Bourenkov,G.P.,McSweeney,S.&Popov,A.N.(2012年)。《水晶学报》。D类68, 649–658. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.和Adams,P.D.(2002)。J.应用。克里斯特。 35, 126–136. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用长谷川(Hasegawa,K.)、山下幸之助(Yamashita,K。J.同步辐射。 24, 29–41. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Healey,R.D.、Basu,S.、Humm,A.-S.、Leylat,C.、Cong,X.、Golebiowski,J.、Dupeux,F.、Pica,A.、Granier,S.和Márquez,J.A.(2021)。单元格代表方法,1, 100102. 交叉参考 公共医学 谷歌学者
第一次引用Hirata,K.、Kawano,Y.、Ueno,G.、Hashimoto,K.,Murakami,H.、Hasegawa,K.和Hikima,T.、Kumasaka,T.和Yamamoto,M.(2013)。《物理学杂志》。Conf.序列号。 425, 012002. 交叉参考 谷歌学者
第一次引用Hirata,K.、Yamashita,K.,Ueno,G.、Kawano,Y.、Hasegawa,K.和Kumasaka,T.&Yamamoto,M.(2019年)。《水晶学报》。D类75, 138–150. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Incardona,M.-F.、Bourenkov,G.P.、Levik,K.、Pieritz,R.A.、Popov,A.N.和Svensson,O.(2009年)。J.同步辐射。 16, 872–879. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Jumper,J.、Evans,R.、Pritzel,A.、Green,T.、Figurnov,M.、Ronneberger,O.、Tunyasuunakool,K.、Bates,R.、日德克,A.、Potapenko,A.、Bridgland,A.、Meyer,C.、Kohl,S.A.、Ballard,A.J.、Cowie,A.、Romera Paredes,B.、Nikolov,S.、Jain,R.、Adler,J.、Back,T.、Petersen,S.、Reiman,D.、Clancy,E.、Zielinski,M.、Steineger,M.、Pacholska,M.,Berghammer,T.,Bodenstein,S.,Silver,D.,Vinyals,O.,Senior,A.W.,Kavukcuoglu,K.,Kohli,P.&Hassabis,D.(2021)。自然,596, 583–589. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Kabsch,W.(2010年)。《水晶学报》。D类66, 125–132. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Katoh,T.、Sengoku,T.,Hirata,K.、Ogata,K.和Suga,H.(2020年)。自然化学。 12, 1081–1088. 交叉参考 中国科学院 公共医学 谷歌学者
首次引用Liebschner,D.,Afonine,P.V.,Baker,M.L.,Bunkóczi,G.,Chen,V.B.,Croll,T.I.,Hintze,B.,Hung,L.-W.,Jain,S.,McCoy,A.J.,Moriarty,N.W.,Oeffner,R.D.,Poon,B.K.,Prisant,M.G.,Read,R.J.,Richardson,J.S.,Richadson,D.C.,Sammito,M.D.,Sobolev,O.V.,Stockwell,D.H.,Terwilliger,T.C.,Urzhumtsev,A.G.,Videau,L。L.、Williams、C.J.和Adams,P.D.(2019年)。《水晶学报》。D类75, 861–877. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Martiel,I.、Buntschu,D.、Meier,N.、Gobbo,A.、Panepucci,E.、Schneider,R.、Heimgartner,P.、Müller,D.、Bühlmann,K.、Birri,M.、Kaminski,J.W.、Leuenberger,J.、Oliéric,V.、Glettig,W.和Wang,M.(2020年)。J.同步辐射。 27, 860–863. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Grosse-Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学之网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Merritt,E.A.和Bacon,D.J.(1997年)。方法酶制剂。 277, 505–524. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用摩纳哥、S.、戈登、E.、鲍勒、M.W.、德拉吉尼埃、S.,吉亚罗、M.、斯普鲁斯、D.、斯文森、O.、麦克斯威尼、S.M.、麦卡锡、A.A.、伦纳德、G.和纳诺、M.H.(2013)。J.应用。克里斯特。 46, 804–810. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Murakami,H.、Hasegawa,K.、Ueno,G.、Yagi,N.、Yamamoto,M.和Kumasaka,T.(2020)。《水晶学报》。D类76, 155–165. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Muraki,N.、Ishii,K.、Uchiyama,S.、Itoh,S.G.、Okumura,H.和Aono,S.(2019)。Commun公司。生物。 2, 385. 交叉参考 公共医学 谷歌学者
第一次引用Murshudov,G.N.、Skubák,P.、Lebedev,A.A.、Pannu,N.S.、Steiner,R.A.、Nicholls,R.A、Winn,M.D.、Long,F.&Vagin,A.(2011)。《水晶学报》。D类67, 355–367. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Murtagh,F.和Legendre,P.(2014)。J.分类。 31, 274–295. 科学网 交叉参考 谷歌学者
首次引用Nguyen,T.、Phan,K.L.、Kozakov,D.、Gabelli,S.B.、Kreitler,D.F.、Andrews,L.C.、Jakoncic,J.、Sweet,R.M.、Soares,A.S.和Bernstein,H.J.(2022)。《水晶学报》。D类78, 268–277. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用野村、木村、T.、神马、Y.、山田、D.、山下、K.、平田、K.,上野、G.、村上春树、H.、久野、T.,山川、R.、武田、H.,戈帕拉辛根、C.、高坂、R.,柳泽、S.、Shoji、O.、Kumasaka、T.和Yamamoto,M.、Takano,Y.、Sugimoto,H.、Tosha,T.、Kubo、M.和Shiro,Y.(2021年)。程序。美国国家科学院。科学。美国,118,e2101481118科学网 交叉参考 公共医学 谷歌学者
第一次引用Nurizzo,D.、Bowler,M.W.、Caseroto,H.、Dobias,F.、Giraud,T.、Surr,J.、Guichard,N.、Papp,G.、Guijarro,M.、Mueller-Dieckmann,C.、Flot,D.、McSweeney,S.、Cipriani,F.和Theveneau,P.&Leonard,G.A.(2016)。《水晶学报》。D类72, 966–975. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Oide,M.、Kato,T.、Oroguchi,T.和Nakasako,M..(2020年)。FEBS J公司。 287, 3472–3493. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Papp,G.、Felisaz,F.、Sorez,C.、Lopez-Marrero,M.、Janocha,R.、Manjasetty,B.、Gobbo,A.、Belrhali,H.、Bowler,M.W.和Cipriani,F.(2017)。《水晶学报》。D类73, 841–851. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Pettersen,E.F.、Goddard,T.D.、Huang,C.C.、Couch,G.S.、Greenblatt,D.M.、Meng,E.C.和Ferrin,T.E.(2004)。J.计算。化学。 25, 1605–1612. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Rosenbaum,D.M.、Cherezov,V.、Hanson,M.A.、Rasmussen,S.G.F.、Thian,F.S.、Kobilka,T.S.、Choi,H.-J.、Yao,X-J.、Weis,W.I.、Stevens,R.C.和Kobilca,B.K.(2007年)。科学类,318, 1266–1273. 科学之网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Sanchez-Weatherby,J.、Sandy,J.,Mikolajek,H.、Lobley,C.M.C.、Mazzorana,M.、Kelly,J.和Preece,G.、Littlewood,R.&Sörensen,T.L.-M.(2019年)。J.同步辐射。 26, 291–301. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Santoni,G.、Zander,U.、Mueller-Dieckmann,C.、Leonard,G.和Popov,A.(2017年)。J.应用。克里斯特。 50, 1844–1851. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Soares,A.S.、Yamada,Y.、Jakoncic,J.、McSweeney,S.、Sweet,R.M.、Skinner,J.、Foadi,J.、Fuchs,M.R.、Schneider,D.K.、Shi,W.、Andi,B.、Andrews,L.C.和Bernstein,H.J.(2022)。《水晶学报》。F类78, 281–288. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Ursby,T.,Åhnberg,K.,Appio,R.,Aurelius,O.,Barczyk,A.,Bartalesi,A.,Bjelčić,M.,Bolmsten,F.,Cerenius,Y.,Doak,R.B.,Eguiraun,M.,Eriksson,T.,Friel,R.J.,Gorgisyan,i.,Gross,A.,Haghigiat,V.,Hennies,F.,Jagudin,E.,Norsk Jensen,B.,Jeppsson,T.,Kloos,M.,Lidon Simon,J.,de Lima,G.M.A.,Lizatovic,R.,Lundin,M。,Milan-Otero,A.,Milas,M.,Nan,J.,Nardella,A.,Rosborg,A.,Shilova,A。J.同步辐射。 27, 1415–1429. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Virtanen,P.、Gommers,R.、Oliphant,T.E.、Haberland,M.、Reddy,T.、Cournapeau,D.、Burovski,E.、Peterson,P.,Weckesser,W.、Bright,J.、van der Walt,S.J.、Brett,M.,Wilson,J.,Millman,K.J.、Mayorov,N.、Nelson,A.R.J.、Jones,E.、Kern,R.,Larson,E.、Carey,C.J.、Polat,Is。,Feng,Y.、Moore,E.W.、VanderPlas,J.、Laxalde,D.、Perktold,J.,Cimrman,R.、Henriksen,I.、Quintro,E.A.、Harris,C.R.、Archibald,A.M.、Ribeiro,A.H.、Pedregosa,F.、van Mulbregt,P.、Vijaykumar,A.、Bardelli,A.P.、Rothberg,A.、Hilboll,A.、Kloeckner,A.、Scopatz,A.、Lee,A.、Rokem,A.、Woods,C.、Fulton,C.、Masson,C.、。,Häggström,C.,Fitzgerald,C.,Nicholson,D.A.,Hagen,D.R.,Pasechnik,D.V.,Olivetti,E.,Martin,E.,Wieser,E.,Silva。,Schönberger,J.L.、de Miranda Cardoso,J.V.、Reimer,J.、Harrington,J.,Rodríguez,J.L.C.、Nunez-Iglesias,J.和Kuczynski,J.;Tritz,K.、Thoma,M.、Newville,M.,Kümmerer,M.和Bolingbroke,M.;Tartre,M.。、S.、。,Tygier,S.、Sievert,S.,Vigna,S.和Peterson,S。自然方法,17, 261–272. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
首次引用Vonrhein,C.、Flensburg,C.、Keller,P.、Sharff,A.、Smart,O.、Paciorek,W.、Womack,T.和Bricogne,G.(2011)。《水晶学报》。D类67, 293–302. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Wang,L.,Yun,Y.,Zhu,Z.和Niu,L.(2022)。《水晶学报》。D类78, 890–902. 交叉参考 IUCr日志 谷歌学者
第一次引用Winter,G.(2010)。J.应用。克里斯特。 43, 186–190. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Winter,G.&McAuley,K.E.(2011年)。方法,55, 81–93. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Wojdyr,M.、Keegan,R.、Winter,G.和Ashton,A.(2013)。《水晶学报》。A类69,第299节科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Yamada,Y.、Matsugaki,N.、Chavas,L.M.G.、Hiraki,M.、Igarashi,N.和Wakatsuki,S.(2013年)。《物理学杂志》。Conf.序列号。 425, 012017. 交叉参考 谷歌学者
第一次引用Yamane,J.、Yao,M.、Zhou,Y.、Hiramatsu,Y.,Fujiwara,K.、Yamaguchi,T.、Yamagochi,H.、Togame,H.,Tsujishita,H.和Tanaka,I.(2011年)。J.应用。克里斯特。 44, 798–804. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Yamashita,K.、Hirata,K.和Yamamoto,M.(2018年)。《水晶学报》。D类74, 441–449. 科学之网 交叉参考 IUCr日志 谷歌学者
第一次引用Zander,U.、Bourenkov,G.、Popov,A.N.、de Sanctis,D.、Svensson,O.、McCarthy,A.A.、Round,E.、Gordeliy,V.、Mueller-Dieckmann,C.和Leonard,G.A.(2015)。《水晶学报》。D类71, 2328–2343. 科学网 交叉参考 IUCr日志 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
国际标准编号:2059-7983