期刊上的下一篇文章
用于建模鲁棒3D和4D QSAR的自组织神经网络:在二氢叶酸还原酶抑制剂中的应用
期刊上的上一篇文章
“分子伪图原子邻接矩阵”的原子、原子类型和总线性指数:在有机化合物的QSPR/QSAR研究中的应用
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
第条

“大分子伪图α-碳原子邻接矩阵”的蛋白质二次指数。1.Arc抑制因子丙氨酸突变体的稳定性预测

通过
约瓦尼·马拉罗·蓬斯
1,*,
里卡多·麦迪纳·马拉罗
,
爱德华多·卡斯特罗
4,
罗纳尔·拉莫斯·德·阿玛斯
2,
汉伯托冈萨雷斯·迪亚斯
2,
维森特·罗梅罗·扎尔迪瓦尔
5
弗朗西斯科·托伦斯
6
1
古巴Villa Clara,54830,Santa Clara,拉斯维拉斯中央大学化学药学院药学系
2
古巴圣克拉拉拉斯维拉斯中央大学化学生物活性中心药物设计系,54830,Villa Clara
古巴圣克拉拉拉斯维拉斯中央大学化学生物活性中心微生物系,邮编:54830
4
INIFTA,Divisionón Química Teórica,Suc.4,C.C.16,La Plata 1900,阿根廷布宜诺斯艾利斯
5
古巴西恩富戈斯大学信息学院
6
西班牙巴伦西亚大学分子学院,Moliner 50博士,E-46100 Burjassot(València)
*
信件应寄给的作者。
分子 2004,9(12), 1124-1147;https://doi.org/10.3390/91201124
收到的意见:2004年6月2日/修订日期:2004年12月12日/接受日期:2004年12月13日/发布日期:2004年12月31日

摘要

:
本报告描述了一组新的与蛋白质QSAR/QSPR研究相关的大分子描述符,即蛋白质的二次指数。这些描述符是根据大分子伪图的α-碳原子邻接矩阵计算出来的。对Arc阻遏物中一整套丙氨酸取代的蛋白质稳定性影响的研究说明了这种方法。定量结构-稳定性关系(QSSR)模型允许区分接近野生型的稳定性和降低稳定性的A突变体。线性判别函数在训练序列和测试序列中分别对85.4%(35/41)和91.67%(11/12)的近野生型稳定性/降低稳定性突变体进行了良好的区分。该模型的总体可预测性在80.49到82.93之间波动n个假期从2到10不等-n个-制定交叉验证程序。n个大于6。此外,典型回归分析证实了分类模型的统计质量(Rcanc=0.72,第页-水平<0.0001)。该分析还用于计算每个Arc A突变体的生物稳定性标准分数。另一方面,非线性分段回归模型在预测熔化温度方面优于线性回归模型(t吨)Arc A突变体。线性模型解释了近72%的实验方差t吨(R=0.85和=5.64),LOO新闻统计数据证明了其预测能力(q个2=0.55和简历= 6.24). 然而,这个线性回归模型无法解决t吨在外部预测序列中预测Arc A突变体。因此,需要使用非线性分段模型。这个t吨训练集(R=0.94)和测试集(R=0.91)中的A-突变体值采用分段模型计算,具有较高的精度。断点值为51.32C表征了两个突变体的簇,与实验规模完全吻合。因此,我们可以结合线性判别分析和分段模型来分类和预测突变体Arc同源二聚体的稳定性。这些模型还允许解释这种折叠过程的驱动力。这些模型包括蛋白质的二次指数,用于解释疏水性(z1),散装(z2)和电子(z)所研究分子的特征。z的优势1和z在z上2表明疏水性和电子侧链项在Arc二聚体折叠中的重要性更高。从这个意义上说,发展起来的方程涉及短程(k个≤3),中等(3)<k个≤7)且影响深远(k个=8或更大)z1, 2, 3-蛋白质的二次指数。这种情况表明拓扑学/拓扑学蛋白的骨架相互作用控制着野生型Arc及其A突变体的稳定性。因此,目前的方法为生物科学中的数学研究提供了一种新颖且非常有前景的方法。

介绍

蛋白质是生命的主要功能分子,其特性非常有用,我们将其用作治疗剂、催化剂和材料。许多疾病源于蛋白质的突变,导致它们失去功能;约50%的人类癌症是由肿瘤抑制基因p53的突变引起的,这种突变主要降低了其稳定性[1,2]。酶和受体是药物的常见靶点,要么恢复功能,要么摧毁传染源或癌症。蛋白质科学的最终目标是能够预测蛋白质的结构和活性从头开始以及它如何与配体结合。当这一目标实现时,我们将能够设计和合成新型催化剂、材料和药物,以消除疾病并将疾病降至最低[1].
现在朝着这个目标取得了重大进展。实验学家能够通过蛋白质工程改变蛋白质的活性和稳定性,蛋白质设计的初步尝试步骤正在进行中。这种方法的出现允许以类似于小分子的方式修改蛋白质的结构,以便研究结构-(稳定性)-活性关系。此外,理论家能够更详细、更可靠地模拟折叠和催化的许多方面[,4]。在这些研究中,来自蛋白质工程实验的数据被用来对计算机计算进行基准测试,计算机计算最终将用于设计蛋白质稳定性的合理变化,并允许对蛋白质进行适度的重新设计[1].
安芬森的核糖核酸酶A和葡萄球菌核酸酶发现,这些小蛋白质的氨基酸序列编码其最终折叠结构,也编码如何到达这些结构的信息[5,6]。然而,“折叠问题(根据氨基酸序列预测蛋白质的三维结构)”仍然是蛋白质科学中尚未解决的较大问题之一。由于近年来完成了大量的基因组序列,折叠问题非常重要。这一事实在进入数据库的蛋白质序列数量急剧增加和已知结构缓慢积累之间造成了巨大差距。因此,结合实验方法,根据给定的蛋白质初级序列信息预测空间结构可以发挥重要作用[7].
为了预测野生蛋白突变体的稳定性,世界各地的许多研究人员都在开发模型。例如,Shorte研究了118个葡萄球菌核酸酶。类似地,其他研究人员在具有最大突变蛋白的模型中模拟了145个T4溶菌酶突变体、96个Barnase突变体和71个糜蛋白酶突变体的稳定性。其他重要研究包括66个GeneV突变体、65个人类溶菌酶突变体和58个蛋白质L突变体的稳定性建模。此外,他们突出了40个胰蛋白酶抑制剂突变体、38个TNFn3突变体和31个FKBP12突变体的研究。他们还报道了含有10个以上但少于30个突变体的蛋白质模型,如ACBP、核糖核酸酶T1、核糖核酶H、α乳清蛋白、鸡Lysozime、枯草杆菌素抑制剂、U1A、ISO-1细胞色素C、Trp合成酶。其他较少突变的研究蛋白质有CD2、Calbindin、Apomyoglobin、Adrenodoxin、Cold shock、核糖核酸酶A、λ-CRO等。根据周和周的出色工作总结,共研究了35个蛋白质及其1023个突变体,包括上述所有例子。在这项工作中,周和周不仅对这一主题进行了出色的回顾,而且还利用1023米丁烷稳定性的数据开发了一个似乎是迄今为止最大的统一模型之一[8].
目前正在进行大量工作来确定单个残基对蛋白质整体折叠和稳定性的贡献[9,10,11,12,13]。由于本机状态和未展开状态的复杂性以及它们之间的转换,这是一个非常具有挑战性的问题。罗伯特·索尔(Robert Sauer)在这方面做了一些开创性的工作电弧抑制器[14,15]。这种蛋白质提供了一个有吸引力的系统来解决这个问题,因为它很小(53个氨基酸),并且适合遗传和生物物理研究[16,17,18]。这是一种同二聚体蛋白,其单体相互缠绕形成球状结构域。它的二级结构由残基8-14的两个反平行β片和残基15-30和32-48形成的α螺旋组成[15]。然而,直到我们担心,周和周的工作以及文献中的其他报道都没有预测电弧抑制器的稳定性[8].
最近,一个新的理性方案–采用硅树脂-本论文的一位作者介绍了分子设计(或化学品的选择/鉴定)和QSAR/QSPR研究。它是so-colled论战的卫生官员分子的组件对象模型计算机D类设计(托莫科姆) [19]。该方法是基于线性代数理论生成分子描述符的。在这个意义上,原子、原子类型和总二次指数和线性指数分别与二次和线性数学图类似定义[20,21]。该方法已成功应用于QSPR和QSAR研究[20,21,22,23,24,25,26,27,28,29,30]包括与核酸与药物相互作用相关的研究[31]。该方法描述了整个分子骨架中电子分布随时间的变化。
这个托莫科姆-CARDD公司(首字母缩写C类计算的-A类标识'R(右)国家'D类小地毯D类esign)策略对于选择具有期望性质/活性的化合物的新子系统非常有用[24,28,29,30],可以根据药物化学家的部署,通过使用许多分子建模方法中的一些方法进一步优化。该方法在许多不同的问题上也表现出了灵活性。从这个意义上说TOMOCOMD-CARDD公司该方法已应用于新型驱虫药的快速实验发现[28,30]和抗疟药[29]化合物。预测有机化合物的物理、化学物理和化学性质也是一个可以使用此方法解决的问题[20,25,27]。手性和其他3D结构特征的编码构成了该方法的另一个优点[26]。后一个机会允许对意义的解释进行描述,并与其他分子描述符进行比较[21,25]。此外,在生物信息学领域中,利用托莫科姆-金丝雀(计算机辅助核酸研究)方法[31].
因此,描述扩展的托莫科姆-营地(蛋白质科学中的计算机辅助建模)解释蛋白质结构的方法构成了本文的主要目的。在本研究中,我们提出了“大分子伪图的α-碳原子邻接矩阵”的蛋白质二次指数的整体和局部定义。为了验证该方法,使用蛋白质的总大分子指数建立定量模型。从这个意义上讲,蛋白质稳定性效应是针对Arc阻遏物中的一整套丙氨酸替换进行描述的。目前的结果使我们能够预测涉及展开Arc二聚体的熔化温度。

计算方法

全套a-取代突变体的电弧二聚体结构和熔化温度

Arc是一种同源二聚体,其中每个单体相互交织,形成一个具有明确核心的单个球状结构域。电弧晶体结构中涉及多个侧链氢键和盐桥相互作用。这些交互作用的详尽表示可以在其他地方找到(参见图1b条参考文献15)。然而,将概述电弧抑制器结构中的这些静电相互作用。发生氢键相互作用[15]:
i)
同一亚单位中的侧链(R16-D20、D20-R23、N29-E36、E36-R31、E36/R40、E43-K46、E43-G47)之间;不同亚单位(E28-R50、R40-S44、R40-F48)侧链之间的差异。
ii)
侧链和主链原子间亚基(W14-N34,N34-R13)之间;侧链和主链原子内亚基之间的分子(E17-E17、S32-S35、S44-R40)。
表1。训练和测试集中Arc A突变体的ADL、PLR和LMR分析结果。
表1。训练和测试集中Arc A突变体的ADL、PLR和LMR分析结果。
蛋白质等级b条P%(P)c(c)P%(H)c(c)分数d日t吨(奥巴马)电子t吨(预测)(f)雷斯t吨(预测)小时雷斯
1PA8-st6H(H)4.3195.691.4774.1(55.1)1956.8617.2
2SA35-st6型H(H)5.2594.751.3663.462.4169.1-5.7
*3NA34-st11型H(H)59.4040.60-0.236361.21.852.610.4
4NA11-st6H(H)40.8959.110.1362.154.57.649.9512.1
5QA39-st11标准H(H)9.2590.751.0761.459.71.762.7-1.3
*6GA52-st11型H(H)86.9413.06-0.9860.9600.957.53.4
7KA6-st6H(H)8.7591.251.1059.6554.660.83-1.2
8RA16-st6型H(H)0.4399.572.6159.556.33.257.61.9
9VA25-st6型H(H)11.4888.520.9559.357.3256.42.9
10MA4-st6H(H)12.4987.510.9059.258.11.160.1-0.9
11电弧-st6H(H)9.1190.891.085954.74.357.881.1
12EA27-st6型H(H)5.4294.581.3558.858.10.756.52.3
13KA2-时间6H(H)2.0997.911.8358.758.20.559.2-0.5
14QA9-st6H(H)14.2885.720.8358.457.50.955.33.1
15GA3-st6H(H)6.1293.881.2958.160.3-2.257.30.8
16MA1至T6H(H)12.8487.160.895855359.41-1.4
*17弧-st11H(H)88.8011.20-1.0657.959-1.152.45.5
18SA5-st6H(H)8.0991.911.1457.558.2-0.758.8-1.3
19RA13-st6号H(H)2.2897.721.7957.357.7-0.453.93.4
20KA46-st11型H(H)8.0491.961.1457.155.91.256.11
21EA17-st6号H(H)4.5895.421.435755.81.256.900.1
第6页第18页第22页H(H)6.2593.751.2856.958.1-1.255.41.5
23RA23-st11号H(H)18.5381.470.6756.757.7-1.051.84.9
11月24日星期24H(H)29.5770.430.3856.357.9-1.649.37
25EA43第6页H(H)2.0497.961.8456.157.6-1.554.71.4
26EA28-s11号H(H)47.6652.34055.756.2-0.550.195.5
27MA7-st6号H(H)8.7591.251.1055.558.4-2.960.8-5.3
28DA20-st6号H(H)2.6897.321.7155.357.7-2.449.65.7
29IA51-st11型P(P)93.916.09-1.3950.940.410.547.73.2
30GA49-st11型P(P)91.798.21-1.2348.7471.740.718
*31LA19-st6号P(P)9.9990.011.0348.345.42.951.8-3.5
32GA30-st11P(P)52.7847.22-0.1047.942.55.456.1-8.2
33RA50-st11型P(P)62.6837.32-0.3047.944.53.449.5-1.6
*34KA47-st11型P(P)20.1579.850.6247.250-2.840.76.5
35PA15-st11P(P)66.8833.12-0.3946.638.48.255.56-9.0
36SA44-st11型P(P)99.900.10-3.4246.344.32379.3
37NA29-st11型P(P)80.9719.03-0.7645.347.7-2.449.6-4.3
38VA33-st11型P(P)94.465.54-1.4344.141.52.649.8-5.7
39EA48-st11型P(P)82.3717.63-0.8043.242.30.944.7-1.5
40LA12-st11P(P)97.372.63-1.8142.344.3-2.043.2-0.9
*41FA10-st6型P(P)31.2468.760.3440.645.8-5.249.41-8.8
42LA21-st11型P(P)90.689.32-1.1639.639.9-0.346.7-7.1
*43RA31-st11号机组P(P)15.1884.820.7937.141.6-4.545.8-8.7
44MA42-st11型P(P)84.0615.94-0.8635.637.5-1.935.60
45SA32-st11型P(P)90.079.93-1.1333.534.2-0.761.35-27.8
46YA38-st11型P(P)90.779.23-1.173340.6-7.636.4-3.4
47瓦14-st11P(P)97.382.62-1.8231.538.8-7.336.6-5.1
48RA40-st11型P(P)98.441.56-2.0831.230.2140.6-9.4
49VA22-st11型P(P)83.8516.15-0.85<20
50EA36-st11型P(P)69.5830.42-0.45<20
51IA37-st11型P(P)91.538.47-1.21<20
52VA41-st11型P(P)95.814.19-1.58<20
53FA45-st11型P(P)99.520.48-2.66<20
*模型(10)错误分类的突变体。测试集中的化合物。b条Arc A突变体的实验稳定性:H,近野生型稳定性突变体;P、 稳定性降低的突变体。c(c)预测突变体分别为降低稳定性/接近野生型稳定性突变体的概率百分比。d日使用规范分析预测的规范分数(模型11)。电子实验熔点(t吨)价值观;摘自Milla等人,1994年。(f)已计算t吨值由非线性分段回归模型(13)确定。残差:t吨(观察者)-t吨(预测)。小时已计算t吨线性回归模型得出的值(12)。统计异常值。
Arc阻遏物突变体的数据取自文献[15]。在本文中,在野生型Arc序列中的51个非丙氨酸位置中的每一个都构建了丙氨酸替换。为了避免细胞内蛋白质水解和纯化困难,这些作者在含有羧基末端延伸(His)的背景中构建了丙氨酸替代突变体6(指定st6)或(他的)6-Lys-Asn-Gln-His-Glu(指定st11)[18,32]。这些尾部序列允许亲和纯化,减少降解,并且不会导致蛋白质稳定性的显著变化[33].
米拉大叔等。将每个纯化的Arc突变体进行热变性和尿素变性实验。通过熔化温度检查蛋白质的稳定性(t吨) [15]。的值t吨这些作者报告的53个Arc同型二聚体在表1(见第六栏)。在本表中,Arc突变体分为两类:1)具有近野生型稳定性的突变体和2)稳定性降低的突变体。第一组还包括一个稳定性增强的突变体(PA8-st6)。否则,第二个包括五个未折叠突变体,即使在低温下(<20C) 不含变性剂。
在平衡和动力学展开-复性研究中,只有天然Arc二聚体和变性单体被显著填充。因此,折叠和二聚是协同的过程[15,16,17]。因此,重要的是要记住t吨指Arc同型二聚体的去折叠。然后,我们必须考虑到,每一次突变都会改变Arc二聚体中的两条侧链,这是单体蛋白质稳定性影响的两倍。此外,稳定性的变化可能是由于突变破坏了天然相互作用,当突变体的天然结构发生松弛时,或由于变性突变体蛋白质的性质发生变化而引起的[9,11,12,13,15].

“大分子伪图α-碳原子邻接矩阵”的蛋白质二次指数

蛋白质的主要成分是一条暗带多肽链,由一个残基的α-羧基和下一个残基的α-氨基之间的酰胺键连接的L-α-氨基酸组成。氨基酸序列决定了一级结构[1,34,35,36,37,38]。如前所述,蛋白质的基因编码序列决定其三维结构[5,6]。也就是说,如果蛋白质中每个氨基酸的侧链被去掉,蛋白质的二级结构就得到了。它是围绕肽键的平面单元构建的。仔细检查可以发现二级结构被组织成重复和规则元素的区域。
然后,侧链可以添加回主干,然后可以看到蛋白质的三元结构是如何通过侧链包装二级结构的规则元素而形成的。因此,每种蛋白质的结构都可以通过侧链氨基酸特性以定量的方式表达。随后,Charton和Charton利用Chou-Fasman参数确定了蛋白质构象对氨基酸残基侧链结构的依赖性[39].
在结构活性研究的其他方法中,Hellberg等。开发了所谓的主要属性或z值[40]。该肽QSAR方法基于三个z值的肽链中每个氨基酸的参数化,这些z值是原始测量变量的线性组合。这些值被认为与亲水性、体积和电子性能有关。主要特性已成功用于寻找肽QSAR[40,41,42]。肽QSAR研究中使用的其他描述符来自氨基酸的侧链表面积和原子电荷[43].
另一方面,其他地方已经对中小型有机化合物的“分子伪图原子邻接矩阵”二次指数的一般原理进行了详细解释[20,22,23,24,25,26,28,31]。然而,本工作将对这种方法进行扩展概述。
首先,与用于表示有机分子的分子向量X类似,我们在这里引入大分子向量(X). 该向量的成分是数值,表示某种侧链氨基酸属性。这些特性表征了蛋白质中的每种氨基酸(R组)。此类属性可以是z值[40]氨基酸的侧链各向同性表面积(ISA)和原子电荷(ECI)[43]等等。例如,z1(AA)氨基酸AA的标度取z值1(V)缬氨酸=-2.69,z1(A)=0.07(丙氨酸,z)1(百万)=2.49(蛋氨酸等)[40,43].表2描述描述符刻度z1,z2、和z天然氨基酸。
表2。描述符标尺z1,z2和z天然氨基酸[40,43].
表2。描述符标尺z1,z2和z天然氨基酸[40,43].
  氨基酸z(z)1z(z)2z(z)
阿拉A类0.07-1.730.09
瓦尔V(V)-2.69-2.53-1.29
L(左)-4.19-1.03-0.98
伊利-4月44日-1.68-1.03
专业P(P)-1.220.882.23
苯丙氨酸F类-4.921.300.45
Trp公司W公司-4.753.650.85
遇见M(M)-2.49-0.27-0.41
赖氨酸K(K)2.841.41-3.14
精氨酸R(右)2.882.52-3.44
伊斯H(H)2.411.741.11
格莱G公司2.23-5.360.30
序号S公司1.96-1.630.57
T型0.92-2.09-1.40
赛斯C类0.71-0.974.13
提尔-1.392.320.01
Asn公司N个3.221.450.84
格林2.180.53-1.14
阿斯普D类3.641.132.36
谷氨酸E类3.080.39-0.07
因此,具有5,10,15,。。。,n个氨基酸可以用载体来表示,载体有5,10,15,。。。,n个构件,属于空间 5, 10, 15,..., n个分别是。在哪里?n个是实数集的维数( n个).
这种方法允许我们通过大分子载体X编码肽,如VALVGLFVL=[-2.69 0.07-4.19-2.69 2.23-4.19-4.92-2.69-4.19],单位为z1-刻度(请参见表2). 这个向量属于乘积空间 9.其他尺度的使用定义了替代性大分子载体。
如果蛋白质由n个氨基酸(的向量 n个),然后是k个第个(k个=10) 蛋白质的总二次指数,q个k个(x))由定义q个应用程序(q: n个 ).其中,X可以用线性组合X表示=x个11+...+x个n个n个,作为向量()1≤n个一个底座 n个[20,22,23,24,25,26,28,31]。在这种情况下k个-th蛋白的总二次指数q个k个(x))随后根据该大分子载体计算,如等式1所示,
q个 k个 ( x个 ) = = 1 n个 j个 = 1 n个 k个 j个 X(X) X(X) j个
哪里,k个ij公司=k个(对称方阵),n个是蛋白质的氨基酸数量(蛋白质骨架中的α-碳原子)X(X)1,…,X(X)n个是大分子向量X的坐标在底座上.在这种情况下 n个{电子1,…,en个}用作二次型的基。此后,任意向量X的坐标与该向量的分量一致。因此,这些坐标可以被视为蛋白质骨架伪图的顶点(α-碳原子)的权重。系数k个ij公司k个第个高分子基质的功效M(M)(G)蛋白质伪图(G). 化学图形理论中的伪图形一词是由Frank Harary提出的[44]。在他看来,伪图是指在同一顶点或同一顶点之间具有多条边或循环的图。循环多重图[45]或一般图形[46]这个研究领域也使用了其他术语吗[47].
在这里,M(M)(G)=[ij公司],其中n个是蛋白质骨架中α-碳原子的数量。元素ij公司定义如下:
ij公司=1如果j个电子k个∊E(G)
=1,如果=j个和氨基酸侧链和
其主链原子
否则=0
其中,E(G)表示G的边集.在这个邻接矩阵M(G)这一排和列对应于顶点v(v)来自G.元素ii(ii)=1是循环v(v)另一方面,元素ij公司这个矩阵的表示α-碳原子之间的键和其他j个这里,我们只考虑共价相互作用(肽键)和氢键相互作用(链内和链间)。作为第一近似,我们考虑到“蛋白质的连接性”,认为这两种相互作用等效。矩阵M(M)k个(G)提供长度的行走次数k个连接氨基酸的α-碳原子j个此外,含有氨基酸的蛋白质在其侧链和主链原子之间呈现氢键,这些蛋白质被表示为伪图。具体来说,Arc阻遏物为氨基酸E17提供了这种相互作用,其中这种亚单位内氢键的存在是通过蛋白质骨架的α-碳原子中的环来解释的[15].
我们可以获得q个k个(x))通过矩阵表达式q个k个(x)) = [【X】t吨 M(M)k个(G) [【X】(k个10). 存在[十] 列向量(annx(纳克斯)1矩阵)的X坐标在的正则基中 n个, [【X】t吨的转置[十] (一个1x个矩阵)和M(M)k个(G)k个第个矩阵的幂M(M)(G)(二次型矩阵)。表3举例说明q个k个(x))用于之前QSAR研究中使用的缓激肽五肽[43].
除了针对整个分子计算的总蛋白质二次指数外,还可以开发局部片段(氨基酸和氨基酸类型)形式。这个q个千升(x个)是给定片段(F)的图形理论不变量R(右)),其中FR(右)是一个连接的子图,表示蛋白质中的一组或一组特定氨基酸。这些描述符的定义如下:
q个 k个 L(左) ( x个 ) = = 1 j个 = 1 k个 j个 L(左) X(X) X(X) j个
哪里是感兴趣片段的氨基酸(α-碳原子)数量k个ijL公司是文件的元素和列j个矩阵的M(M)k个L(左)(G). 此矩阵是从M(M)k个(G)并包含与特定蛋白质片段(F)顶点相关的信息R(右))以及分子环境。
矩阵M(M)k个L(左)(G) = [k个ijL公司]包含元素k个ijL公司定义如下:
k个ijL公司=k个ij公司如果两者都有v(v)v(v)j个是F中包含的顶点(氨基酸)R(右)
=1/2 k个ij公司如果v(v)v(v)j个是F中包含的顶点(氨基酸)R(右)但不是两者都有
否则=0
其中k个ij公司k个第个的权力M(G)这些局部类似物也可以通过以下表达式以矩阵形式表示:
q个千升(x)) = [【X】t吨M(M)k个L(左)(G) [【X】
请注意,蛋白质每分为Z大分子碎片,就会有Z局部大分子碎片基质。也就是说,如果一个蛋白质被分割成Z大分子片段,基质M(M)k个(G)可以划分为Z个局部矩阵M(M)k个L(左)(G),L=1,。。。Z、k个第个矩阵的幂M(M)(G)正好是k个第个局部Z矩阵的幂。
M(M) k个 ( G公司 ) = L(左) = 1 Z轴 M(M) L(左) k个 ( G公司 )
以同样的方式,M(M)k个(G) = [k个ij公司]其中,
k个 j个 = L(左) = 1 Z轴 k个 j个 L(左)
总蛋白质的二次指数是Z分子片段的大分子二次指数之和(参见表3),
q个 k个 ( x个 ) = L(左) = 1 Z轴 q个 k个 L(左) ( x个 )
氨基酸和氨基酸型二次指数是局部蛋白质二次指数的特例。从这个意义上说k个第个氨基酸二次指数是通过求和k个第个蛋白质中相同氨基酸类型的所有氨基酸的氨基酸二次指数。在氨基酸型二次指数形式中,分子中的每个氨基酸都被划分为氨基酸型(片段),如无极性、极性不带电、正电荷、负电荷、芳香族等。对于所有数据集,包括具有通用分子支架的数据集以及结构非常多样的数据集k个第个氨基酸型二次指数提供了重要信息。
任何局部蛋白质的二次指数都有特定的含义,尤其是对于k个,其中关于片段F结构的信息R(右)包含。更高的值k个与碎片F的环境信息相关R(右)在大分子伪图(G).
在任何情况下,一系列完整的指数都会对化学结构进行特定表征。将矩阵和描述子推广到“高级类比”对于评估只有一个描述子无法带来良好结构特征的情况是必要的[48,49]。局部大分子指数也可以与总指数一起用作QSAR/QSPR模型的变量,以模拟更多依赖于区域或片段而非整体大分子的属性或活动。
表3。三的定义和计算(k个=0-2)缓激肽潜在五肽“大分子伪图α-碳原子邻接矩阵”的总和局部(侧链氨基酸)蛋白质二次指数。
表3。三的定义和计算(k个=0-2)缓激肽潜在五肽“大分子伪图α-碳原子邻接矩阵”的总和局部(侧链氨基酸)蛋白质二次指数。
分子09 01124 i001
五肽结构(序列)
分子09 01124 i002高分子“伪图”(G)的 α-碳原子(多肽的骨架)
分子09 01124 i003氨基酸残基(侧链R)
这里,我们只考虑共价相互作用(肽键),但可以考虑非共价相互影响(氢键和盐桥相互作用)(链内和链间)
高分子载体:X(X)=[V K W A A]5
X(X),作为大分子载体,氨基酸的一个字母符号表示相应的侧链氨基酸性质,例如z1-值。也就是说,如果我们写V,它的意思是z1(五) ,z1-值或某些氨基酸性质,其表征多肽中的每个侧链。因此,如果我们使用R的正则基5,任意向量的坐标X(X)与大分子载体的成分一致

[【X】t吨= [-2.69 2.84 -4.75 0.07 0.07]
[【X】t吨=转置的[十] 它表示的是X(X)在R的正则基中5(1x5矩阵)
[十] :的坐标向量X(X)在R的正则基中5(5x1矩阵)
分子09 01124 i004
分子09 01124 i005
分子09 01124 i006
零级、一级和二级的总(全分子)蛋白质二次指数为二次指数地图;q个k个(x个): n个→ ℜ这样,
q个0(V、K、W、A、A)=(V2+K(K)2+W公司2+A类2+A类2) = 37.874
q个1(V、K、W、A、A)=(2VK+KW+2WA+2AA)=-42.9144
q个2(V,K,W,A,A)=(A2+V(V)2+2千卡2+2瓦2+2安培2+2WV+2AW)=93.7946
如果肽被划分为每(5)个氨基酸,则基质M(M)k个(G)可以划分为5个局部矩阵M(M)k个L(左)(G),L=1,。。。5k个第个矩阵的幂M(M)(G)正是k个第个局部(5)矩阵的幂: 分子09 01124 i007
局部(氨基酸)矩阵的零次方、一次方和二次方
分子09 01124 i008 分子09 01124 i009 分子09 01124 i010
分子09 01124 i011 分子09 01124 i012 分子09 01124 i013
分子09 01124 i014 分子09 01124 i015 分子09 01124 i016
分子09 01124 i017 分子09 01124 i018 分子09 01124 i019
分子09 01124 i020 分子09 01124 i021 分子09 01124 i022
总(全分子)二次指数是5种氨基酸q的大分子二次指数之和k个(x))= 分子09 01124 i023
氨基酸(AA)q个0升(x),AA)q个1升(x),AA)q个2升(x),AA)q个3升(x),AA)q个4升(x),AA)
值(V)7.2361-7.639620.0136-15.467552.6164
赖氨酸(K)8.0656-21.129616.33-55.5504美元41.1232
色氨酸(W)22.5625-13.822557.57-41.4675172.71
阿拉(A)0.0049-0.32760.2086-1.1760.8197
阿拉(A)0.00490.0049-0.32760.2086-1.176
五肽37.874-42.914493.7946-113.453266.0933

TOMOCOMD软件

层析成像仪是一个用于分子设计和生物信息学研究的交互式程序[19]。该程序由四个子程序组成,每个子程序处理绘制结构(绘制模式)和计算2D和3D分子描述符(计算模式)。这些模块被命名为CARDD(计算机辅助“理性”药物设计)、CAMPS(蛋白质科学中的计算机辅助建模)、CANAR(计算机辅助核酸研究)和CABPD(计算辅助生物聚合物对接)。在本文中,我们概述了与这些子程序中的一个相关的显著特征:CAMPS。此子程序是基于用户友好的理念开发的,没有先前的编程技能知识。
任何肽或蛋白质的总和局部大分子二次指数的计算都在托莫科姆-营地软件[19]。该方法在QSAR/QSPR中应用的主要步骤可以简单地恢复如下:
  • 使用软件的绘图模式,为数据集中的每个蛋白质绘制高分子伪图。该程序通过选择属于“天然”氨基酸代码的活性氨基酸符号来执行。这里,我们只考虑共价相互作用(肽键)和氢键相互作用(链内和链间)。随后,我们通过改变丙氨酸的AA来绘制突变体,并考虑到这种改变只影响蛋白质的这一区域形成极性相互作用的可能性(因为如果前AA有氢相互作用,我们会抑制氢相互作用)。
  • 使用适当的氨基酸重量来区分每个氨基酸的侧链。在这项工作中,我们使用三个z值作为氨基酸属性[40,43].
  • 计算“大分子伪图的α-碳原子邻接矩阵”的蛋白质二次指数。它们可以在软件计算模式下执行,在该模式下,可以事先选择侧链属性和族描述符来计算分子指数。该软件生成一个表,其中的行和列对应于化合物和q个k个(x))分别是。
  • 通过使用统计技术,如多元线性回归分析(MRA)、神经网络(NN)、线性判别分析(LDA)等,找到QSPR/QSAR方程。也就是说,我们可以找到属性之间的定量关系P(P)q个k个(x))例如,具有以下外观,
    P(P)=0q个0(x)+1q个1(x)+2q个2(x) ++k个q个k个(x) +c
    哪里P(P)是属性的度量,q个k个(x))[或q个千升(x))]是k个第个总[或局部]大分子二次指数,以及k个是通过统计分析获得的系数。
  • 使用内部和外部交叉验证技术测试QSPR/QSAR方程的稳健性和预测能力,
  • 使用大分子二次指数作为分子描述符,对获得的QSAR/QSPR模型进行结构解释。

统计分析

采用线性判别分析(LDA)、线性多元回归(LMR)和非线性估计分析(PLR)获得定量模型。这些统计分析是使用STATISTICA软件包进行的[50]。在LDA和LMR分析中,正向逐步被确定为变量选择策略。所使用的公差参数(各变量特有的方差比例)是最小可接受公差的默认值,即0.01。
LDA用于在方法简单的基础上生成分类器函数[51]。为了测试导出的判别函数的质量,我们使用了Wilksλ和马氏距离。总体判别的Wilksλ统计值可以取0(完全判别)到1(无判别)之间的值。马哈拉诺比斯距离表示各群体的分离。它显示了该模型是否具有适当的区分能力来区分这两个各自的群体。根据后分类概率对病例进行分类,后分类概率是指各病例属于特定群体的概率,即具有近野生型稳定性(H)的突变株或稳定性降低的突变株(P)(参见表1,第二列)。在开发这种分类功能时,将1和-1的值分配给H和P突变体。ADL模型的质量还通过检查良好分类的百分比以及病例与方程中变量之间的比例来确定。我们还考虑了线性判别典型分析统计量,例如:典型回归系数(R加拿大)、方形和第页-液位[第页2)]. 通过休假证实了判别函数的有效性-n个-制定交叉验证程序。
分别使用LMR和PLR作为统计技术,获得简单的线性和其他更复杂的非线性模型。通过检验回归和交叉验证程序的多变量比较的统计参数来确定模型的质量。从这个意义上说,模型的质量是通过检验回归系数(R)、决定系数(R2),渔民比率第页-水平[第页(F) ],回归和假期的标准偏差--输出(LOO)新闻统计(q个2,秒简历) [52]。近年来,LOO新闻统计(例如。,q个2)已被用作指示预测能力的手段。许多作者认为q个2值(例如,q个2>0.5)作为指标,甚至作为QSAR模型高预测能力的最终证明。在最近的一篇论文中,Golbraikh和Tropsha证明了LOO的高值q个2似乎是模型具有高预测能力的必要条件,但不是充分条件[53].
此外,为了评估所发现模型的稳健性和预测能力,还使用了外部预测(测试)集。如果我们考虑到QSAR模型的预测能力只能使用未用于构建模型的外部化合物测试集进行估计,那么这种类型的模型验证非常重要[52,53].

结果和讨论

分类模型

开发一个判别函数,将突变体分类为近野生型稳定性或降低稳定性,是目前描述Arc阻遏物中一整套丙氨酸取代对蛋白质稳定性影响的方法的关键。当前方法的总体性能关键取决于用于构建分类器模型的训练集案例的选择。这里我们考虑53个a突变体的一般数据集,其中28个具有近似野生型稳定性(1-28),其余的是稳定性降低的突变体(29-53)。该数据集被随机分为两个子集,一个包含41个突变体(21个具有近野生型稳定性,20个具有降低稳定性)作为训练集,另一个包含12个突变体,(7个具有接近野生型稳定性和5个降低稳定性)用作测试集。在定量模型的开发中从未考虑这些突变体。
模型选择策略考虑了简约原则(Occam剃刀)。奥卡姆剃刀在其原始形式中表示“Numquam ponenda est pluritas罪必须”,可以翻译为“实体不应超出必要性”[54]。在这种情况下,简单性大致等同于模型中参数的数量。如果我们将预测误差理解为未发现示例的错误率,那么Occam剃刀可用于QSAR/QSPR模型的选择,如(“QSAR/QSPR奥卡姆剃刀“):给定两个具有相同预测误差的QSAR/QSPR模型,应首选更简单的模型,因为简单本身就是可取的[54]。在这方面,我们选择了统计意义较高但参数较少的函数(k个)尽可能地。方程(10)显示了线性分类模型以及LDA的统计参数:
类Arc突变体=25.89459+0.1008749.Z3公司q个0(x个) -9.3942x个10-5.Z2型q个7(x个)
-0.0170188.Z1号机组q个1(x个) +0.0132179.Z2型q个2(x个)
N=41λ=0.476  D类2= 4.40  F(4.36)=9.8965第页(F) <0.0001
其中N是突变体的数量,λ是Wilks的统计数据,D类2是平方马氏距离,F是费希尔比。
这些统计数据表明,模型(10)适用于区分此处研究的近野生型稳定性/降低稳定性突变体。它对训练集中85.0%(18/21)的近野生型稳定性突变体和85.7%(17/20)的降低稳定性突变体进行了正确分类,获得了85.4%(35/41)的全局良好分类。两组在训练集中的假突变体百分比相同:7.32%(3/41)。假近野生型稳定突变体是指那些被模型分类为近野生型稳定性突变体的还原稳定突变体,而假还原稳定突突变体是模型分类为还原稳定突变剂的近野生型稳变突变体。表1我们给出了训练集中突变体的分类,以及根据马氏距离计算出的后验概率。
为了评估分类模型(10)的可预测性,请假-n个-使用分类树模块进行交叉验证。验证程序的选定条件如下:基于判别的线性组合作为分割方法,对误分类错误进行剪枝作为停止规则,以及与等式(10)中相同的先验概率(与组大小成比例)。一旦选定的条件应用于分类树模块,就可以得到方程(10),并改变交叉验证的折叠参数-n个-我们可以制定常规。该模型显示,当n个假期从2到10不等-n个-制定交叉验证程序。n个大于6(参见图1).
图1。不同情况下良好分类(准确度)的总体或总百分比的行为n个-折叠交叉验证分析。
图1。不同类别中良好分类(准确度)的整体或总百分比的行为n个-折叠交叉验证分析。
分子09 01124 g001
判别模型(如模型(10))是否接受的最重要标准是基于测试集的统计数据。模型(10)对12个突变体中的11个进行了正确分类,全局分类率为91.67%。表1,我们给出了测试集中突变体的分类。如果我们考虑数据集和测试集(满的set)分类良好率为86.79%(46/53)。
这里使用典型分析来测试蛋白质二次指数区分两组Arc A突变体的能力,并根据其稳定性特征对这些突变体进行排序。
蛋白质二次指数和LDA Arc A-突变体稳定性经典分析主根:
弧形突变体-根= 12.60697079 -0.049301889.Z3公司q个0(x个) -4.59135x个10-5.Z2型q个7(x个)
-0.008317831.Z1号机组q个1(x个) +0.006460173.Z2型q个2(x个)
N=41λ=0.476 Rcanc=0.72χ2=27.44平均值(+)=0.998平均值(-)=-1.048
LDA结果的典型变换产生一个具有良好典型回归系数(0.72)的典型根。齐方检验允许我们用一个第页-水平<0.0001。这意味着我们可以接受规范分析正确地描述了“Arc A级突变体99.99%的置信度[55,56].
当LDA分析用于解决两组分类问题时,我们发现了两个分类函数[55,56]。药物化学家在开展QSAR研究时,通常会报告利用这两种功能之间的差异获得的功能[57,58,59,60,61,62,63].
然而,我们不能使用这两个分类函数来评估所有化合物并获得二元稳定性图,因为它们不是正交的[55,56]。为了解决这个问题,我们在这种情况下使用了规范分析,规范分析引起的降维使得获得一维稳定性图成为可能[56].
这与我们可以根据标准分数对所有化合物进行排序是一样的。所有Arc阻遏物A突变体的标准分数出现在表1(第五列)。当按照稳定性的相同顺序绘制时,我们可以检测到标准分数的总体上升趋势(t吨)增加(参见图2). 正如预期的那样,近野生型稳定性突变体组的标准根得分的总体平均值与另一组的符号(+)相反(-)[56].
图2。按相同顺序绘制的标准分数总体上升趋势t吨增加。嵌段I和III含有错误分类的Arc A突变体。
图2。按相同顺序绘制的标准分数总体上升趋势t吨增加。区块I和III包含错误分类的Arc A突变体。
分子09 01124 g002

定量结构稳定性关系(QSSP)研究

开发QSSR线性模型,用于预测熔化温度(t吨)我们使用RLM作为统计技术。该模型及其统计参数如下:
t吨(C) =19.398(±25.535)-7.523x个10-4(±3.227x个10-4).Z2型q个8(x)) -0.0581(±0.016).Z1号机组q个(x))
0.121(±0.048).Z1号机组q个1(x)) +8.89x个10-5(±3.18x个10-5).Z2型q个10(x))
-1.369x个10-5(±4.11x个10-6).Z1号机组q个10(x)) +5.998x个10-4(±2.157x个10-4).Z1号机组q个7(x))
+0.026(±0.014).Z1号机组q个2(x)) +3.99x个10-5(±3.44x个10-5).Z3公司q个8(x))
N=41 R=0.85 R2= 0.72= 5.64q个2= 0.55简历=6.24华氏度(8.28)=9.0425第页< 0.0001
其中N是数据集的大小,R是回归系数,是回归的标准偏差,F是费歇尔比q个2,简历分别是LOO程序执行的交叉验证的平方相关系数和标准偏差。除了五个A突变体(49-53)外,本QSSR研究采用了分类模型(10)中使用的相同训练和测试集。这些A突变体因其不准确而被提取t吨值(<20C) ,这对RLM分析不有用。表1我们给出了观测值和计算值t吨模型(12)用于训练集和测试集。
模型(12)解释了近72%的实验方差t吨模型(12)的预测能力由LOO压力统计值证明(例如q个2>0.5和简历,仅比回归模型高10.64%)[52]。考虑到LOO的高值q个2(例如,q个2>0.5)似乎是模型具有高预测能力的必要条件,但不是充分条件[53],还使用了一个测试集来评估方程(12)的预测能力。当应用线性回归模型(12)t吨在预测集中对Arc A突变体的预测中,发现了较差的结果(见表1; 最后两列)。因此,该模型(12)的预测能力较低。
不同的蛋白质折叠可能是蛋白质二次指数和稳定性之间缺乏线性回归的原因(t吨); 导致两者之间存在非线性相关性t吨以及蛋白质的二次指数。在这种情况下,还应考虑其他因素,如协同盐桥和氢键形成、疏水力、空间位阻项等。在这个意义上,稳定性与结构因素之间的定量关系在以前的研究中还远远没有得到证实[15]。例如,当t吨测试值与分数侧链溶剂可及性、埋藏表面积的变化、平均侧链B因子以及丙氨酸取代所删除原子的侧链原子数或总原子数在6º以内时的线性相关性,得出两两相关系数(第页2)范围为0.21至0.38[15]。因此,尽管丙氨酸对疏水核残基的大多数取代都是不稳定的,但被取代的核残基大小与不稳定作用之间没有简单的关系[15].
因此,需要使用其他非线性模型;一种非线性模型,在方程中保持线性,但使用非线性方法进行拟合。这是分段方法[50]根据观测值的绝对大小将观测值分为两组,从而生成两个线性方程。最佳拟合分段模型为:
t吨(C)<BKPT= 14.3409 +0.2014.Z1号机组q个(x)) -0.1198.Z1号机组q个5(x)) +0.0197.Z1号机组q个7(x))
-9.4481x个10-4.Z1号机组q个9(x)) -0.03023.Z3公司q个(x)) +0.01565.Z3公司q个6(x))
-0.0037.Z3公司q个8(x)) +0.2131x个10-3.Z3公司q个10(x))
t吨(C)>BKPT公司= 44.547 +0.0232.Z1号机组q个(x)) -0.0159.Z1号机组q个5(x)) +3.046x个10-3.Z1号机组q个7(x))
-1.6594个x个10-4.Z1号机组q个9(x)) + 2.5765.Z3公司q个(x)) +0.0106.Z3公司q个6(x)) -2.3478.Z3公司q个8(x))
+1.2647x个10-4。Z3公司q个10(x))
N=41  R=0.94  R(右)2= 88.15  Bkpt=51.32  第页< 0.0001
其中R(分段回归系数)用于逐步方差解释,取值范围为0(非分段回归)到1(100%方差的解释)。接受分段假设p后,检查误差概率的绝对值是否大于0.05。参数断点(Bkpt)是t吨价值,标志着两个群体之间的边界。所得回归系数表明观测值和预测值之间存在高度显著的分段非线性相关性(第页<0.05).
正如我们之前指出的,QSAR/QSPR模型的质量主要通过其预测能力来表示,该预测能力是通过未包含在训练集中的突变体测试集来衡量的。表1,我们描述了t吨用于训练和测试集。可以看出,用于描述Arc A突变体稳定性的分段模型具有相当好的预测能力(R=0.91,R2= 0.82,= 4.249). 在建立该模型时,仅检测到一个突变(1PA8-st6)作为统计异常值。这是一个合乎逻辑的结果,因为只有这种突变体(PA8)比野生型更稳定。这个t吨这种突变蛋白的含量约为15C高于野生型亲本(参见表1),展开自由能增加2.9 kcal-mol-1个与野生型相比[15].
非线性分段回归的主要困难在于其在预测稳定性曲线未知的新突变体方面的局限性。这里的问题是:哪一个等式应该应用于本研究中未考虑的新突变体?Bkpt值(51.32)与之前提出的实验量表完全一致[15]。在我们的ADL方法中,使用相同的量表将突变体分为两个研究组。因此,我们可以结合ADL和分段模型来分类和预测变形体Arc同源二聚体的稳定性。

获得模型的解释

目前已知Arc阻遏物的折叠受到不同类型的相互作用的影响[14,15,16,18,22,23]。范德瓦尔斯部队发挥了压倒性的作用[15]。疏水相互作用是影响稳定性的另一个因素,因为Arc野生型核心具有疏水性[15,16,17]。另一个因素与静电有关,主要是由于亚单位内和亚单位间的盐桥和氢键[15,16,17].
然而,这些因素大多是相互关联的,很难单独确定每个因素的贡献。例如,疏水相互作用与范德华力密切相关,静电相互作用也与色散相互作用有关,色散相互作用是范德华作用力的一部分。此外,Arc野生型及其突变体在折叠/二聚过程中表现出协同行为[15,16,17].
从获得的模型中可以观察到,所包含的变量与影响稳定性的因素有关,而这一变量与Arc二聚体的结构特征有关。在这个意义上,蛋白质的二次指数用z计算1,z2,或z值,因为氨基酸(侧链)属性包含在大多数开发的模型中。这些z值分别与亲水性、体积和电子特性有关。因此,可以确定电弧阻遏物折叠驱动力的性质,例如疏水性、空间位阻性或电子性。
所得方程(10-13)中疏水和电子效应相对于其他类型蛋白质的二次指数的优势清楚地表明了疏水和电子侧链因子在Arc二聚体折叠中的重要性。
必须指出的是,发展的方程(10-13)涉及短期(k个≤3),中等(3)<k个≤7)且影响深远(k个=8或更大)蛋白质的二次指数。这种情况意味着野生型Arc及其A突变体的稳定性特征导致拓扑/拓扑控制蛋白的骨架相互作用。

结论

在这项研究中,提出了一套新的与蛋白质QSAR/QSPR研究相关的大分子描述符。这些描述子,即总蛋白质和局部蛋白质的二次指数,是由大分子伪图的α-碳原子邻接矩阵计算出来的,分别使用z值和标准碱作为氨基酸性质的侧链和二次型碱。它们的推导很简单,并且很容易解释包含它们的QSAR/QSPR。总蛋白的二次指数和LDA、LMR和PLR已用于53个Arc A突变体的QSSR研究。从统计的角度来看,由此产生的定量模型是重要的。LOO交叉验证程序(内部验证)和外部预测系列(外部验证)表明,QSSR模型具有良好的可预测性。
描述野生型Arc及其A突变体稳定性的模型包括蛋白质的二次指数(z1),散装(z2)和电子(z)所研究分子的特征。这些使用这种分子描述符组合的模型比只使用一种研究描述符就能找到的任何其他模型都要好。我们将这些结果解释为,许多Arc突变以不止一种方式影响稳定性,并且:通过破坏特定的电子相互作用、改变疏水埋藏和/或改变天然或变性蛋白质的结构[9,10,11,12,13]。因此,我们证明了z的组合使用1, 2, 3-蛋白质的二次指数是QSSR研究的合适方法。这些模型不仅能够很好地预测Arc二聚体阻遏物突变体折叠的热力学参数,而且能够解释这种折叠过程的驱动力。
这里描述的方法代表了生物信息学研究的一种新颖且非常有前景的方法。我们预计计算蛋白质科学在寻找新疫苗、受体、药物等方面的作用与分子模型和QSAR在寻找新药方面的作用类似。

致谢

我们衷心感谢两位不知名的审稿人对原稿的批判性意见,这对改进原稿的呈现和质量做出了重大贡献。Marrero-Pone,Y.谨向David Whithey博士(英国)、David Livingstone博士(英格兰)、James Devillers博士(法国)、Johann Gasteiger博士(德国)、Klaus L.E.Kaiser博士(加拿大)、Lauren Dury博士(比利时)、Lawrence Leherte博士(比利时因为他给他寄去了他们关于分子设计的论文的重印本。F.T.感谢西班牙MCT提供的财政支持(国家I+D+I计划,项目编号BQU2001-2935-C02-01)。最后但同样重要的是,《M-P》还感谢该杂志的总编辑Derek J.McPhee博士和主编Shu Kun Lin博士的友好关注。

参考文献和注释

  1. A.费希特。蛋白质科学中的结构和机制:酶催化和蛋白质折叠指南; W.H.Freeman和公司:纽约,1999年。[谷歌学者]
  2. Sidransky,D。;Hollstein,M.《p53基因的临床意义》。医学年鉴。 1996,47,285–301。[谷歌学者][交叉参考][公共医学]
  3. 生物信息学:数学挑战与生态学。科学 1996,2751861c至1865c。[谷歌学者][交叉参考]
  4. 马歇尔,E.生物信息学:热门特性:计算生物学家。科学 1996,272, 1730–1732. [谷歌学者]
  5. Anfinsen,C.B.控制蛋白质链折叠的原理。科学 1973,181, 223–230. [谷歌学者][交叉参考][公共医学]
  6. 安芬森,C.B。;哈伯,E。;塞拉,M。;White,F.H.《还原多肽链氧化过程中天然核糖核酸酶的形成动力学》。程序。国家。阿卡德。科学。美国 1961,47, 1309–1314. [谷歌学者][交叉参考][公共医学]
  7. 张,S.–W。;潘,Q。;张,H.–C。;Wu,Y.-H。;史J.–Y。通过结合伪氨基酸成分预测蛋白质同源低聚物的支持向量机。互联网电子。分子设计杂志。 2003,2, 392–402,http://www.biochempress.com网站. [谷歌学者]
  8. 周,H。;Zhou,Y.从1023突变实验中提取的稳定性标度和原子溶解参数。蛋白质:蛋白质。结构。功能。消息。 2002,49, 483–492. [谷歌学者][交叉参考]
  9. Alber,T.蛋白质稳定性的突变效应。每年。生物化学评论。 1989,58, 765–798. [谷歌学者][交叉参考][公共医学]
  10. Dill,K.A。;Shorte,D.蛋白质变性状态。每年。生物化学评论。 1991,60, 795–825. [谷歌学者][交叉参考][公共医学]
  11. Goldenberg,D.P.蛋白质稳定性和折叠机制的遗传研究。每年。生物物理版。生物物理学。化学。 1988,17, 481–507. [谷歌学者][交叉参考][公共医学]
  12. Matthews,B.W.蛋白质稳定性的结构和遗传分析。每年。生物化学评论。 1993,62, 139–160. [谷歌学者][交叉参考][公共医学]
  13. Shorte,D.蛋白质的变性及其在折叠和稳定性中的作用。货币。操作。结构。生物。 1993,, 66–74. [谷歌学者][交叉参考]
  14. 奈特,K.L。;鲍伊·J·U。;Vershon,A.K。;凯利·R·D。;Sauer,R.T.The Arc和Mnt阻遏物:一类新的序列特异性DNA结合蛋白。生物学杂志。化学。 1989,264,3639–3642。[谷歌学者][公共医学]
  15. 米拉,M.E。;布朗,M.B。;Sauer,R.T.电弧抑制器中一整套丙氨酸替代物的蛋白质稳定性效应。结构。生物。 1994,1, 518–523. [谷歌学者][交叉参考]
  16. 鲍伊·J·U。;Sauer,R.T.《电弧抑制器调光器的平衡分离和展开》。生物化学 1989,28, 7139–7143. [谷歌学者][交叉参考][公共医学]
  17. 米拉,M.E。;Saber,R.T.P22电弧抑制物:单域二聚蛋白的折叠动力学。生物化学 1994,33, 1125–1133. [谷歌学者][交叉参考][公共医学]
  18. Vershon,A.K。;鲍伊·J·U。;Karplus,T.M。;Sauer,R.T.弧菌抑制突变的分离和分析:DNA结合异常机制的证据。蛋白质 1986,1, 302–311. [谷歌学者][交叉参考]
  19. Marrero-Pone,Y。;罗梅罗,V。托莫科姆软件。拉斯维拉斯中央大学。2002.托莫科姆(论战的卫生官员分子的组件对象模型推杆D类design)对于Windows,版本1.0是初步的实验版本;今后,应Y.Marrero的要求,将提供专业版:[电子邮件保护];[电子邮件保护].
  20. Marrero Ponce,Y.“分子伪图的原子邻接矩阵”的总二次指数和局部二次指数:在有机化合物物理性质预测中的应用。分子 2003,8, 687–726. [谷歌学者][交叉参考]
  21. Marrero-Pone,Y.“分子伪图的原子邻接矩阵”的线性指数:定义、意义解释以及作为HIV-1整合酶抑制剂的黄酮衍生物的QSAR分析应用。化学杂志。Inf.计算。科学。 2004,44, 2010–2026. [谷歌学者]
  22. Marrero-Pone,Y。;卡布雷拉,M。;罗梅罗,V。;奥福里,E。;Montero,L.A.“分子伪图的原子邻接矩阵”的总二次指数和局部二次指数。应用于预测药物的Caco-2渗透性。国际分子科学杂志。 2003,4, 512–536. [谷歌学者]
  23. Marrero-Pone,Y。;卡布雷拉,医学硕士。;罗梅罗,V。;González,D.H。;Torrens,F.预测Caco-2细胞培养中药物肠上皮转运的基于拓扑描述符的新模型。《药物科学杂志》。 2004,7, 186–199. [谷歌学者][公共医学]
  24. Marrero-Pone,Y。;Huesca-Guillen,A。;Ibarra-Velarde,F.“分子伪图原子邻接矩阵”的二次指数及其随机形式:一种新的虚拟筛选和生物信息学发现新的铅副隐球菌类药物化合物。J.西奥。化学。(THEOCHEM). [交叉参考]
  25. Marrero-Pone,Y.Total和局部(原子和原子类型)分子二次指数:意义解释,与其他分子描述符的比较和QSPR/QSAR应用。生物有机医药化学。 2004,12, 6351–6369. [谷歌学者][公共医学]
  26. Marrero-Pone,Y。;González-Díaz,H。;罗梅罗·扎尔迪瓦尔,V。;托伦斯,F。;Castro,E.A.“分子伪图的原子邻接矩阵”的三维手性二次指数及其在中心手性编码中的应用:ACE抑制剂的分类和σ受体拮抗剂活性的预测。生物有机医药化学。 2004,12, 5331–5342. [谷歌学者]
  27. Marrero-Pone,Y。;Castillo-Garit,J.A。;托伦斯,F。;罗梅罗·扎尔迪瓦尔,V。;Castro,E.原子、原子类型和“分子伪图原子邻接矩阵”的总线性指数:应用于有机化合物的QSPR/QSAR研究。分子.正在按。
  28. Marrero-Pone,Y。;Castillo-Garit,J.A。;奥拉扎巴尔,E。;塞拉诺,H.S。;莫拉莱斯,A。;北卡斯塔涅多。;伊巴拉·弗拉尔德,F。;Huesca-Guillen,A。;豪尔赫,E。;del Valle,A。;托伦斯,F。;E.A.卡斯特罗。TOMOCOMD-CARDD公司,一种计算机辅助“理性”药物设计的新方法:I.一种有前途的计算筛选方法的理论和实验评估生物信息学新型防腐剂化合物的设计。J.计算。辅助分子设计。已接受发布。
  29. Marrero-Pone,Y。;蒙特罗·托雷斯,A。;罗梅罗·扎尔迪瓦尔,C。;Iyarreta-Veitía,I。;Mayón Peréz,M。;García Sánchez,R.“分子伪图的原子邻接矩阵”的非随机和随机线性指数:在“电子版“合理发现新抗疟疾化合物的研究。生物有机医药化学。[交叉参考]
  30. Marrero-Pone,Y。;Castillo-Garit,J.A。;Olazabal,E。;塞拉诺,H.S。;莫拉莱斯,A。;北卡斯塔涅多。;伊巴拉·弗拉尔德,F。;Huesca-Guillen,A。;Jorge,E。;桑切斯,A.M。;托伦斯,F。;Castro,E.A.原子、原子类型和总分子线性指数作为生物有机化学和药物化学的一种有希望的方法:新铅防腐剂虚拟筛选和合理设计新方法的理论和实验评估。生物有机医药化学。[交叉参考]
  31. Marrero-Pone,Y。;诺达斯,D。;González-Díaz,H。;拉莫斯·德·阿马斯,R。;罗梅罗·扎尔迪瓦尔,V。;托伦斯,F。;Castro,E.《大分子图形的核苷酸邻接矩阵》的核酸二次指数。帕罗霉素与HIV-1Ψ-RNA包装区相互作用后的足迹建模。国际分子科学杂志。 2004,5,276–293,(另请参见CPS:物理化学/040104). [谷歌学者]
  32. 鲍伊·J·U。;Sauer,R.T.确定未知结构蛋白质折叠和活性的决定因素。程序。国家。阿卡德。科学。美国 1989,86, 2152–2156. [谷歌学者][交叉参考][公共医学]
  33. 米拉,M.E。;布朗,M.B。;Sauer,R.T.P22 Arc阻遏子:通过添加极性C末端序列增强不稳定突变体的表达。蛋白质科学。 1993,2, 2198–2205. [谷歌学者][交叉参考][公共医学]
  34. 阿尔伯茨,B。;布雷,D。;刘易斯,J。;拉夫,M。;罗伯茨,K。;Watson,J.D.细胞分子生物学;加兰:纽约和伦敦,1994年。
  35. 弗雷费尔德,D。分子生物学。原核生物和真核生物综合介绍; 《革命》编辑:哈瓦那,1983年。[谷歌学者]
  36. Lehninger,A.L。;Nelson,D.L。;考克斯,M.M。生物化学原理; 沃斯出版社:纽约,1993年。[谷歌学者]
  37. 马修斯,C.K。;van Holde,K.E。;埃亨,K.G。生物化学; 艾迪森·韦斯利·朗曼:旧金山,2000年。[谷歌学者]
  38. 斯特莱尔,L.W.H。生物化学; W.H.Freeman和公司:纽约,1995年。[谷歌学者]
  39. 查顿,M。;Charton,B.I.Chou-Fasman参数对氨基酸侧链结构的依赖性。J.西奥。生物。 1983,102, 121–134. [谷歌学者][交叉参考][公共医学]
  40. Hellberg,S。;Sjöström,m。;Skagerberg,B。;Wold,S.肽定量结构-活性关系,一种多变量方法。医学化学杂志。 1987,30, 1126–1135. [谷歌学者][交叉参考][公共医学]
  41. Hellberg,S。;Sjöström,m。;Wold,S.五肽缓激肽增强效力的预测。肽定量结构-活性关系的一个例子。化学学报。扫描。,第节。B类 1986, 135–140. [谷歌学者]
  42. Jonsson,J。;埃里克森,L。;Hellberg,S。;Sjöström,m。;Wold,S.55编码和非编码氨基酸的多元参数化。数量。结构。行动。相关。 1989,8, 204–209. [谷歌学者][交叉参考]
  43. 科兰特斯,E.R。;Dunn III,W.J.肽类似物定量构效关系研究的氨基酸侧链描述符。医学化学杂志。 1995,38, 2705–2713. [谷歌学者]
  44. 哈拉里,F。图论; 艾迪森·韦斯利:雷丁,马萨诸塞州,1969年;第10页。[谷歌学者]
  45. 查特朗,G。图形作为数学模型; 韦伯·普林德尔和施密特:马萨诸塞州波士顿,1977年;第22页。[谷歌学者]
  46. R.J.威尔逊。图论导论; 奥利弗和博伊德:爱丁堡,1972年;第10页。[谷歌学者]
  47. 北卡罗来纳州特里纳伊斯蒂。化学图论,第2版; CRC出版社:佛罗里达州博卡拉顿,1992年;第6-7页。[谷歌学者]
  48. 托德斯基尼,R。;V·康桑尼。分子描述符手册; Wiley VCH:德国温海姆,2000年。[谷歌学者]
  49. Randić,M.广义分子描述符。数学杂志。化学。 1991,7, 155–168. [谷歌学者][交叉参考]
  50. STATISTICA版本。5.5; Statsoft公司:美国俄克拉何马州塔尔萨市,1999年。
  51. 麦克法兰,J.W。;Gans,D.J.线性离散分析和聚类显著性分析。综合药物化学; Hansch,C.,Sammes,P.G.,Taylor,J.B.,编辑。;佩加蒙出版社:牛津,1990年;第667-689页。[谷歌学者]
  52. 沃尔德,S。;Erikson,L.QSAR结果的统计验证。验证工具。分子设计中的化学计量方法; van de Waterbeemd,H.,编辑。;VCH出版社:纽约,1995年;第309-318页。[谷歌学者]
  53. Golbraikh,A。;Tropsha,A.当心q个2!J.摩尔图形。国防部。 2002,20, 269–276. [谷歌学者][交叉参考]
  54. 埃斯特拉达,E。;Patlewicz,G.论图论描述符在预测理论参数中的作用。多环芳烃(PAHs)的光毒性。克罗地亚。化学。《学报》。 2004,77, 203–211. [谷歌学者]
  55. van de Waterbeemd,H。分子设计化学计量方法中活性预测的判别分析; van de Waterbeemd,H.,编辑。;VCH出版社:纽约,1995年;第265–282页。[谷歌学者]
  56. 福特,M.-G。;Salt,D.-W.《典型相关分析的使用》。分子设计中的化学计量方法; van de Waterbeemd,H.,编辑。;VCH出版社:纽约,1995年;第283–292页。[谷歌学者]
  57. 埃斯特拉达,E。;Peña,a.《合理发现抗惊厥化合物的硅酮研究》。生物有机医药化学。 2000,8, 2755–2770. [谷歌学者][交叉参考][公共医学]
  58. 埃斯特拉达,E。;佩尼亚,a。;García-Domenech,R.用新的亚结构图论方法设计镇静/催眠化合物。J.计算——辅助分子设计。 1998,12, 583–595. [谷歌学者]
  59. 埃斯特拉达,E。;尤里亚特,E。;蒙特罗,A。;Teijeira,M。;桑塔纳,L。;De Clercq,E.A.抗癌化合物虚拟筛选和合理设计的新方法。医学化学杂志。 2000,4, 1975–1985. [谷歌学者]
  60. González,D.H。;Marrero-Pone,Y。;埃尔南德斯,我。;巴斯蒂达,I。;Tenorio,E。;俄勒冈州纳斯科。;尤里亚特,E。;北卡斯塔涅多。;Cabrera,医学硕士。;阿吉拉,E。;马里罗,O。;莫拉莱斯,A。;Pérez,M.3D-MEDNEs:毒理学化学研究的替代“电子”技术。1.化学诱导粒细胞缺乏症的预测。化学。研究毒物。 2003,16,1318-1327。[谷歌学者]
  61. González,H。;拉莫斯,R。;Molina,R.Markovian《生物信息学中的负性》。1.HIV-1ψ-RNA包装区与药物相互作用后的足迹图。生物信息学 2003,16, 2079–2087. [谷歌学者]
  62. González,H。;拉莫斯,R。;Molina,R.抗生素与HIV 1型包装区相互作用后足迹的振动马尔可夫模型。牛市。数学。生物。 2003,65, 991–1002. [谷歌学者][交叉参考][公共医学]
  63. Gozalbes,R。;Gálvez,J。;莫雷诺,A。;Garcia Domenech,R.利用分子连接技术发现新的抗疟化合物。《药理学杂志》。 1999,51, 111–117. [谷歌学者][交叉参考][公共医学]

分享和引用

MDPI和ACS样式

彭斯,Y.M。;马雷罗,R.M。;卡斯特罗,E.A。;Ramos de Armas,R。;Díaz,H。G。;萨尔迪瓦尔,V.R。;托伦斯,F。“大分子伪图α-碳原子邻接矩阵”的蛋白质二次指数。1.电弧阻遏体丙氨酸突变体的稳定性预测。分子 2004,9, 1124-1147.https://doi.org/10.3390/91201124

AMA风格

Ponce YM、Marrero RM、Castro EA、Ramos de Armas R、Díaz HG、 扎尔迪瓦尔VR,托伦斯F。“大分子伪图α-碳原子邻接矩阵”的蛋白质二次指数。1.电弧阻遏体丙氨酸突变体的稳定性预测。分子. 2004; 9(12):1124-1147.https://doi.org/10.3390/91201124

芝加哥/图拉宾风格

蓬斯、约瓦尼·马拉罗、里卡多·麦迪纳·马拉罗(Ricardo Medina Marrero)、爱德华多·卡斯特罗(Eduardo A.Castro)、罗纳尔·拉莫斯·德·阿玛斯(Ronal Ramos de Armas)、温贝托(Humberto)González Díaz、Vicente Romero Zaldivar和Francisco Torrens。2004年,“大分子伪图α-碳原子邻接矩阵的蛋白质二次指数”。电弧抑制因子丙氨酸突变体的稳定性预测”分子9,编号12:1124-1147。https://doi.org/10.3390/91201124

文章度量标准

返回页首顶部