摘要
四联体是具有高度功能重要性的四链DNA/RNA基序,可折叠成复杂形状。它们被广泛认为是基因组过程的重要调节器,是最经常研究的潜在药物靶点之一。尽管人们对四倍体感兴趣,但很少有研究将重点放在自动工具上,以帮助了解其3D折叠的许多独特特征。本文介绍了WebTetrado,一种用于分析四重结构三维结构的web服务器。它具有用户友好的界面,并提供许多高级功能,包括自动识别、注释、分类和图案可视化。该程序适用于实验或生物信息学生成PDB和PDBx/mmCIF文件中提供的3D模型。它支持规范的G-四重奏以及非G-基四重奏。它可以处理单分子、双分子和四分子四链体。WebTetrado是一个公共可用的web服务器,具有直观的界面,可以在https://webtetrado.cs.put.poznan.pl网址/.
图形摘要
WebTetrado:一个探索核酸3D结构中四链体的网络服务器。
简介
四倍体是在富含鸟嘌呤的基因组区域形成的四链DNA和RNA基序。它们参与许多基因组过程,包括转录、复制和表观遗传调控(1). 许多研究表明它们与癌症和其他疾病的生长和进展有关。所有这些都使四联体成为药物设计和结构研究有趣的目标(2–5).
2020年Popenda等。提出了一种基于四分体碱基配对模式的分类方案(6). 他们定义了三个类别,O(运行),N个和Z以四分体可视化中观察到的形状命名。每一类都有顺时针和逆时针的进展,用表示+和−。接下来,他们建议将四倍体分类为O(运行),N个或Z如果它的所有四分体都是这种类型,或者M(M)(混合)其他。此外,他们还添加了后缀第页,一或小时分别用于股线的平行、反平行或混合方向。
可以使用一些计算工具分析四重态分类所依据的拓扑结构及其结构的其他参数。决策支持系统(DSSR)(7)是第一个以检测PDB和PDBx/mmCIF文件中保存的三维结构数据中的G-四倍体为目标并描述其特征的公司。它系统地运行在蛋白质数据库的所有条目上,并收集DSSR-G4DB数据库中发现的基序。ElTetrado公司(8)能够识别和分析G4s和其他类型的四分体和四分体,对其进行分类,并计算其参数。它是ONQUADRO数据库系统中运行的计算管道的核心(9). 在搜索四重态中处理原子坐标的最新工具是ASC-G4(10). 它计算的特征比DSSR和ElTetrado更多,但仅限于单分子四链体,并且仅支持PDB格式。
在本文中,我们介绍了WebTetrado,一个用于分析四联体三维结构的web服务器。与命令行前身ElTetrado相比,它具有用户友好的界面,并提供了许多新功能。由于与我们的高级工具DrawTetrado紧密集成,新颖之处包括专用可视化(11).
方法概述
WebTetrado管道中的第一步(参见图1)是读取输入数据和配置参数。前端根据主页上的输入表单将这些数据提供给后端。验证协议确保主输入是正确的PDB或PDBx/mmCIF文件,并且所有其他分析参数都有可行的值。后端将成功验证的输入存储在数据库中,并将计算任务排入队列。此步骤涉及生成一个唯一标识符,前端将其嵌入到URL中。最初,URL显示一个加载页面,其中包含在任务成功完成时打开浏览器通知的选项。稍后,相同的URL会显示接下来七天的结果,之后将过期。
WebTetrado引擎支持并行处理,因此可以同时处理多个请求。其管道的中心部分从从数据库读取配置元数据开始。然后加载3D结构并根据其链、残基和原子组成进行解释。这包括糖苷键角的计算和每个碱基的分类反对的或同步器接下来,WebTetrado应用几何规则(即对原子距离、平面和(伪)扭转角的约束)来寻找堆叠和碱基相互作用及其Leontis-Westhof分类。这一步骤的结果允许构建核苷酸相互作用的有向图,其中长度为4的周期对应于分析结构中的四分体。这导致下一步,在四分体顶部应用先前确定的堆叠信息来定位N4螺旋。根据链合成规则,这些链被划分为不同的四链体,WebTetrado会跟踪这些四链体的循环进展和链连接性。此外,该引擎识别在四倍体稳定性中发挥重要作用的阳离子,并继续分析它们与四分体中心或外部位点的接近程度。接下来,引擎根据其支持的所有方案对四分体和四分体进行分类,并计算四分体相关的特征,如四分体间扭曲、上升或平面度偏差。最后,四倍体图案以双线点框格式表示。
这些结果存储在WebTetrado数据库中,并为每个支持的可视化工具VARNA向队列中添加单独的绘图任务(12)、R-Chie(13)和DrawTetrado(11). 这种方法允许并行准备所有静态可视化。每个绘图任务都是从数据库读取元数据和计算任务的结果开始的。
基于VARNA的程序在VARNA软件之上使用一组内部修改,以应用自定义着色和Leontis-Westhof视觉注释,使四倍可视化更加清晰。WebTetrado预计算了四种基于VARNA的可视化变体:(i)仅由四分体组成的交互作用,(ii)在四分体外部添加规范对,(iii)所有非规范交互作用,以及(iv)所有规范和非规范交互。
基于R-Chie-based的可视化在序列的上方和下方绘制弧,以显示每个四分位核苷酸的两个同时相互作用。这是必要的,因为G-四分位基于多碱基配对模式(即每个四分位核苷酸都有两个相互作用的伙伴)。WebTetrado预计算两个基于R-Chie的变体,在四分体之外有或没有标准碱基对。与四分体相互作用不同,四分体对每个ONZ类使用不同的颜色,代表标准碱基对的弧是黑色的。
最后一个工具DrawTetrado-i与WebTetrado结合得最多,因为计算任务的结果直接影响其工作。DrawTetrado为每个G4螺旋线和四链制备2.5D视图,显示堆叠信息,反对的/同步器构象和循环进展。
WEB应用程序
WebTetrado由三个模块组成,旨在提供灵活性和稳定性。服务核心(引擎)负责处理用户请求。它构建在轻量级Flask服务器框架之上,并集成了ElTetrado工具(8)识别和处理四重数据。下一个模块是后端,它使用数据库驱动的中间件来管理、排队和存储用户请求。它使用Django web服务器框架(4.1版)和Redis任务队列代理,实现了并发工作负载的快速处理。引擎和后端使用带有专用生物信息学库的Python 3.10环境。它们通过OpenAPI指定的接口进行通信,该接口允许自动验证。可访问web的前端基于TypeScript的React 17框架,并使用ant-design组件进行扩展。它提供了一系列使用四种集成图形工具准备的结构可视化:VARNA(12)、R-Chie(13),DrawTetrado公司(11)和摩尔*(14). 我们将WebTetrado设计为可以在任何现代web浏览器上工作,无论是移动浏览器还是桌面浏览器。它由波兹南科技大学计算科学研究所主办并维护,使用Docker容器服务。
输入和输出描述
WebTetrado的输入是作为PDB或PDBx/mmCIF文件中原子坐标给出的核酸的三级结构。用户从本地驱动器上载文件或提供结构的PDB id。在后一种情况下,后端自动从蛋白质数据库下载相应的文件(15). 系统中还提供了六个现成的示例,让用户熟悉该工具的功能。额外的设置条件是识别输入结构中的四分体和四分体及其分类。我们提供了合理的默认值,但用户可以选择修改其值。
在多模型输入文件的情况下,用户可以选择要分析的特定模型。接下来,他们可以指示系统关闭G-四分体闪电,即正好由四个鸟嘌呤组成的典型闪电。默认情况下,WebTetrado不会对核苷酸组成进行假设,并找到所有类型的四分位,但它突出了其中的典型G4。可以禁用此行为。此外,下一个设置控制是否仅使用cWH配对检测四分体。同样,这些配对存在于通常的G4四分体中,但默认情况下,WebTetrado推广了对四分体的搜索,并查找四分体内碱基之间的各种配对。此外,用户可以设置堆叠不匹配要接受的核苷酸数量。它控制WebTetrado对堆叠交互检测中固有不确定性的敏感性。在一个完美的典型四联体中,每对四联体包含四对堆叠的碱基。然而,由于几个原因,可能无法检测到这种情况。例如,如果结构分辨率较低,或者是从分子动力学轨迹中提取的中间阶段,那么很可能不是所有四个碱基对都会被识别为堆叠。为了缓解这个问题,WebTetrado可以设置不匹配阈值。默认情况下,四分体之间堆叠的至少两对碱基允许它们被视为同一四分体的一部分。最后,用户可以禁用对双/四分子四链体进行分类所需的链重排序,这在默认运行中是启用的。保持PDB或PDBx/mmCIF文件中给出的链的原始顺序取决于输入设置。
结果页面有一个专用的可书签URL,允许用户在完成任务后最多7天返回。它显示了所有收集到的四联体相关信息和可视化:(i)关于结构的元数据(PDB id、分子类型、实验方法),(ii)输入分子的序列及其二级结构在带有彩色G-tracts的双线点框中,(iii)四联体描述(序列、四联体数量、逐股类型、环描述、四联组组合、上升、扭转、逐股方向、ONZM类别),(iv)四联体说明(序列、核苷酸、平面度、χ角、Leontis-Westhof类别的碱基对、ONZ类别)和(v)二级和三级结构的可视化与ONZ相关的着色(经典、弧形和图层图,卡通模型)。
用户可以为表格数据下载CSV格式的结果,为2D和3D结构可视化下载SVG或PNG格式的结果。
结果和讨论
用户界面
图2显示了WebTetrado服务的屏幕截图。面板2安培显示了提交表单的屏幕,允许指定结构计算。提交任务会重定向到自我刷新的等待页面,允许用户启用浏览器通知。如果启用,当WebTetrado完成处理请求时,浏览器将显示一条消息。
图2。
WebTetrado的用户界面:(A类)提交表格(B类)结果总结(C类)包含详细数据的表。
其余面板是结果页面的主要部分。面板2B型显示了一个包含四重链的一般信息的表。在表格上方,两个选项卡选择器可以显示不同的N4螺旋或不同的四倍体。面板2摄氏度显示了结果页的内容。它包括几个表格,详细介绍了四分体、环、χ角、四分体对、碱基对和核苷酸。
HIV-1 LTR主要G-四联体形式分析
G-四链体形成序列广泛存在于基因组中,包括病毒基因组。人类免疫缺陷病毒1(HIV-1)有一个5'-LTR(长末端重复序列)启动子,在病毒复制周期中起重要作用,并受G-四链体调控(16). 特别是,LTR-III片段形成了最稳定的G-四联体。2018年,Butovskaya等。报告了K+溶液中LTR-III的核磁共振结构,并将其存放在PDB id 6H1K的蛋白质数据库中(17). 报告的结构有几个独特且难以识别的特征,WebTetrado可以找到所有这些特征。首先,它包含一个可折叠成干环基序的细长环,使整个结构成为四重-双重组合(见图3A级,B类和D类). 这种四重双基序因其在医学和生物技术中的特点和潜在应用而受到积极研究(18). 此外,HIV-1 LTR-III四联体包括一个V形环,当最末端的5'四联体位于G-四联体堆栈的中间时会出现该环(见图3C公司). 此外,它有一种混合的绞合方向模式,以及1 nt螺旋桨、3 nt横向和12 nt对角线环的组合(见图3C公司).
图3。
WebTetrado中显示的HIV-1 LTR的主要G-四联体形式(PDB id:6H1K):(A类)带有可见干环的2D图(B类)以干环为黑色弧的弧图(C类)2.5D可视化,可追踪四倍折叠(D类)3D图像与其他图像一样进行彩色编码。
VARNA和R-Chie可视化是半交互式的,用户可以使用用户界面中位于其上方的开关重新配置它们。这些开关改变了四分体外部碱基对的可见性。特别是,对于HIV-1 LTR-III四联体,可以禁用双链片段的可视化,以仅关注四联体部分。所有四种可视化都是根据ONZ方案进行彩色编码的,这使得在不同的上下文中更容易理解四分体特征。
WebTetrado自动查找6H1K PDB结构中唯一四重拓扑的所有确认信息。此外,它根据Webba da Silva对四分体和四分体进行了分类(19)和ONZ方案(6). 根据它,HIV-1 LTR-III结构包含两个Z和一个O(运行)四分体,使其成为马赫(混合杂交)级四倍体。混合类包含最罕见和最复杂的四重拓扑。WebTetrado还计算了G4的几个定量特征,并显示了结构数据:四分体和茎环基序中的碱基构象和碱基发射信息。
结论
WebTetrado是一种新的网络服务器,用于分析包含四链体的结构,四链体是一种具有高度功能意义的DNA/RNA基序,可以折叠成复杂的形状。它支持仅基于原子坐标的所有类型四重态的自动识别和高级分析。WebTetrado提供了从给定输入文件计算的大量数据,包括G4社区认可的分类方案。此外,它还显示了专门设计用于表示四倍体的可视化效果。该工具是免费的,对任何对包括四倍体基序的DNA/RNA结构分析感兴趣的人开放。
数据可用性
WebTetrado是一个公共可用的web服务器,具有直观的界面,可以在https://webtetrado.cs.put.poznan.pl网址/.
致谢
我们感谢M.Antczak和J.Sarzynska测试WebTetrado和V.Hlushchenko在改编Mol*方面的支持。
基金
波兰国家科学中心[2019/35/B/ST6/03074];波兹南科技大学和PAS生物有机化学研究所【法定基金】。开放获取费用资助:波兰国家科学中心【2019/35/B/ST6/03074】。
利益冲突声明。未声明。
参考文献
1瓦什尼
D。
,明镜
J。
,泽纳
英国。
,塔纳希尔
D。
,巴拉苏布拉曼尼亚语
美国。
DNA和RNA G-四链体的调控和功能
.自然修订版分子细胞生物学。
2020
;21
:459
–474
. 2普拉韦克
J。
神经退行性疾病的四重靶点
.药物化学年报
.2020
;54
:爱思维尔
441
–483
. 三。内德尔
美国。
四倍体核酸作为药物化学靶点
.2020
;学术出版社
. 4明镜
J。
,阿迪卡里
美国。
,巴拉苏布拉曼尼亚语
美国。
DNA G-四链体的结构和功能
.趋势化学。
2020
;2
:123
–136
. 5米希凯维奇
J。
,萨任斯卡
J。
,扎奇尼乌克
M。
生物信息学资源如何与G4 RNA协同工作
.简介。生物信息。
2021
;22
:英国广播公司201
. 6波本达
M。
,米希凯维奇
J。
,萨任斯卡
J。
,佐克
T。
,扎奇尼乌克
M。
基于拓扑的四分体和四分体结构分类
.生物信息学
.2020
;36
:1129
–1134
. 7卢
X-J。
,布塞梅可
H.J.公司。
,奥尔森
W.K.公司。
DSSR:一种剖析RNA空间结构的集成软件工具
.核酸研究。
2015
;43
:第142页
. 8佐克
T。
,波本达
M。
,扎奇尼乌克
M。
ElTetrado:四分体和四分体的鉴定和分类工具
.BMC生物信息学
.2020
;21
:40
. 9.佐克
T。
,克拉瑟夫卡
N。
,米希凯维奇
J。
,皮亚琴斯卡
第页。
,苏尔科夫斯基
M。
,扎奇尼乌克
M。
ONQUADRO:实验确定的四重链结构数据库
.核酸研究。
2022
;50
:D253型
–D258型
. 10法拉杰
M。
,梅萨奥迪
C、。
,懋琬
L。
ASC-G4,一种计算G-四倍体高级结构特征的算法
.核酸研究。
2023
;51
:2087
–2107
. 11苏尔科夫斯基
M。
,佐克
T。
,扎奇尼乌克
M。
DrawTetrado创建G4结构的层图
.生物信息学
.2022
;38
:3835
–3836
. 12达尔蒂
英国。
,丹尼斯
A。
,蓬季
Y。
VARNA:RNA二级结构的交互式绘制和编辑
.生物信息学
.2009
;25
:1974
–1975
. 13赖
D。
,普罗克托
J.R.公司。
,朱
期刊社。
,迈耶
国际货币基金组织。
R-chie:一个可视化RNA二级结构的web服务器和R包
.核酸研究。
2012
;40
:e95(电子95)
. 14泽纳尔
D。
,比特里希
美国。
,德什潘德
M。
,斯沃博多瓦
R。
,拜尔考
英国。
,巴兹吉尔
五、。
,维兰卡
美国。
,伯利牌手表
美国。
,科卡
J。
,玫瑰色
A。
Mol*viewer:用于大型生物分子结构三维可视化和分析的现代网络应用程序
.核酸研究。
2021
;49
:W431号机组
–W437型
. 15伯曼
小时。
,韦斯特布鲁克
J。
,冯
Z.公司。
,吉利兰
G.公司。
,巴特
T。
,韦西格
小时。
,辛迪亚洛夫
一、。
,伯恩
第页。
蛋白质数据库
.核酸研究。
2000
;28
:235
–242
. 16佩罗内
R。
,纳代
M。
,弗拉松
一、。
,坡
J.A.公司。
,布托夫斯卡娅
E.公司。
,史密斯加尔
T.E.公司。
,帕伦博
M。
,帕洛
G.公司。
,里希特
序号。
一个动态G-四链体区域调节HIV-1长末端重复启动子
.医学化学杂志。
2013
;56
:6521
–6530
. 17布托夫斯卡娅
E.公司。
,赫迪
B。
,巴卡拉
B。
,里希特
序号。
,潘
A.T.公司。
HIV-1 LTR的主要G-四联体形式揭示了包含干环的(3+1)折叠拓扑
.美国化学杂志。索克。
2018
;140
:13654
–13662
. 18维亚尼
Y.M.(年)。
,韦斯
英国。
四重-双重连接处的高亲和力结合:规则而非例外
.核酸研究。
2022
;50
:11948
–11964
. 19韦巴·达席尔瓦
M。
DNA四重折叠的几何形式
.化学。欧洲药典。
2007
;13
:9738
–9745
.
©作者2023。由牛津大学出版社代表核酸研究出版。