摘要
核受体是动物体内最丰富的转录调控因子之一。它们调节多种功能,如体内平衡、生殖、发育和新陈代谢。因此,NRs是药物开发的一个非常重要的目标。核受体是一个与系统发育相关的蛋白质超家族,由于其结构域的多样性,已被细分为不同的亚家族。在这项研究中,开发了一种称为NR-2L的两级预测因子,它可以用于识别查询蛋白是否为核受体,也可以不基于其序列信息;如果是,预测将自动继续,以在以下七个亚家族中进一步确定它:(1)甲状腺激素样(NR1),(2)HNF4样(NR2),(3)雌激素样,(4)神经生长因子IB样(NR4),(5)福氏塔拉祖-F1样(NR5),(6)生殖细胞核因子样(NR6)和(7)刀状(NR0)。通过模糊识别K(K)基于伪氨基酸组成的最近邻分类器(FK-NN),该伪氨基酸组成由蛋白质序列衍生的各种物理化学和统计特征组成,例如氨基酸组成、二肽组成、复杂性因子和低频傅里叶谱成分。作为证明,通过从NucleaRDB和UniProt获得的低冗余度基准数据集可以看出,在第一级和第二级,折刀测试的总体成功率分别约为93%和89%。高成功率表明,新的两级预测器可以成为识别NR及其子家族的有用工具。作为一个用户友好的web服务器,NR-2L型可在任一位置自由访问http://icpr.jci.edu.cn/bioinfo/NR2L或http://www.jci-bioinfo.cn/NR2L。每个作业提交给NR-2L型可以包含多达500个查询蛋白序列,并在2分钟内完成。查询蛋白的数量越少,时间通常越短NR-2L型可根据要求用于非商业目的。
介绍
核受体(NR)是调节关键基因网络的关键转录因子,对细胞生长、分化和内环境稳定至关重要[1],[2]它们作为配体激活的转录因子发挥作用,从而在控制这些过程的信号分子和转录反应之间提供直接联系。这些受体中的许多是治疗乳腺癌、糖尿病、炎症性疾病或骨质疏松症等疾病的潜在靶点。核受体形成一个系统发育相关蛋白质超家族,它们共享一个共同的结构组织。N末端区域(A/B域)是高度可变的,并且包含至少一个本质上活跃的交易激活区域(at-1)和几个自治的交易激活域(AD);A/B结构域的长度可变,从少于50个氨基酸到超过500个氨基酸。最保守的区域是DNA结合结构域(DBD,C结构域),它包含一个短基序,负责在通常包含AGGTCT基序的序列上的DNA结合特异性。非服务铰链(D域)位于DNA结合域和配体结合域之间,包含核定位信号。配体结合结构域(LBD,E结构域)是最大的结构域。它负责许多功能,如配体诱导、反式激活和抑制。F域位于E域的C端,E域的序列极其可变,其结构和功能未知[3]。并非所有NR都包含所有六个域。
核受体的重要性促使从众多研究领域积累了迅速增加的数据:序列、表达模式、三维结构、蛋白质相互作用、靶基因、生理作用、突变等。这些收集到的数据对数据挖掘和知识发现非常有用。根据保守结构域的排列,NR超家族被划分为七个亚家族[3],[4]作为一个新兴的分支,对新型核受体亚家族的识别对于开发上述疾病的治疗策略至关重要,因为核受体的功能与其类别密切相关。
尽管基于序列相似性搜索的工具,如BLAST[5],通常用于进行预测。然而,当查询蛋白与已知属性的序列没有显著的相似性时,这种方法就失败了。因此,提出了各种离散模型。常用的特征提取方法是基于伪氨基酸组成(PseAAC)的概念,这是Chou在研究蛋白质亚细胞位置预测和膜蛋白类型预测时提出的[6],其中详细描述了PseAAC。
2004年,巴辛和拉格哈瓦[7]提出了一种基于SVM预测因子和氨基酸组成和二肽组成输入特征的核受体亚家族预测方法。最近,Gao等人。[8]重建NR预测数据集,并引入PseAAC[6]作为特征表达,从而提高了预测质量。然而,现有预测因子存在以下不足:(1)构建用于训练预测因子的数据集涵盖非常有限的NRs亚家族。例如,这些作者构建的数据集[7],[8]仅涵盖四个亚家族。(2)他们设置的去除同源序列的截止阈值为90%,这意味着这样构建的基准数据集将允许包含那些与其他蛋白质具有高达90%配对序列一致性的蛋白质。为了避免同源性偏差,在构建基准数据集时应采用更严格的阈值。(3)现有的预测器无法过滤无关序列,所有输入序列都将被假定为属于NR,因此可能产生无意义的结果。(4)现有方法没有提供web服务器,或者它们提供的web服务器当前无法工作,因此其应用价值非常有限。
本研究旨在开发一种新的预测因子,称为NR-2L型通过解决上述四个缺点。为了扩大实际应用的覆盖范围并减少同源性偏差,构建了新的基准数据集,并开发了一个两级预测器。新的数据集涵盖了七个亚家族,其中没有一个蛋白质包含
与同一子集中的任何其他序列的成对序列同一性。新的基准数据集中还包括用于训练预测因子以识别非NR蛋白的非NR序列。为了使预测器更强大,使用了更多的序列衍生特征。这些功能能够通过PseAAC捕获关键信息[6]以及蛋白质的各种物理化学性质。最终将得到的特征向量输入到一个简单但功能强大的分类引擎,称为模糊K最近邻算法,以识别NR及其子家族。为了方便用户和处理某些链接可能偶尔关闭的情况,web服务器NR-2L型已在两家公司成立http://icpr.jci.edu.cn/bioinfo/NR2L和http://www.jci-bioinfo.cn/NR2L,其中任何一个Multi-Fasta蛋白质序列都可以以批处理模式输入和处理。此外,该算法的源代码可通过电子邮件向相应作者发送请求,用于教育目的和基础研究。
为了开发一种有效的方法来识别蛋白质属性,如NRs及其亚家族,以下五件事是必不可少的[9]:(1)构造一个有效的基准数据集来训练和测试预测器;(2)用一个有效的数学表达式来表示蛋白质样本,该表达式能够真实地反映其与待预测属性的内在相关性;(三)引入或开发强大的算法(或引擎)来操作预测;(4)正确执行交叉验证测试,客观评估预测值的预期准确性;(5)为公众可以访问的预测器建立一个用户友好的网络服务器。下面,让我们详细说明如何处理这些步骤。
材料和方法
2.序列衍生特征
如中所述[9],要开发一种用于识别蛋白质属性的预测器,关键之一是用一个有效的数学表达式来表达蛋白质样本,该表达式能够真正反映它们与待预测属性的内在相关性。
蛋白质序列
具有L(左)氨基酸残基可以表示为
为了从蛋白质序列中获取尽可能多的有用信息,我们将从四个不同的角度来处理这个问题,然后将由此获得的特征元素合并到PseAAC的一般形式中[9].
支持信息
支持信息S1训练数据集S包含500个非NR蛋白和159个NR蛋白,根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/):(1)NR1:甲状腺激素样;(2) NR2:HNF4类;(3) NR3:雌激素样;(4) NR4:神经生长因子IB样;(5) NR5:fushi tarazu-F1类;(6) NR6:生殖细胞核因子样;和(7)NR0:刀型和DAX型。给出了登录号和序列。除NR6亚家族外,所包含的蛋白质与同一亚群中的任何其他蛋白质都没有≥60%的配对序列一致性。
(PDF格式)
支持信息S2独立测试数据集ST包含500个非NR蛋白和568个NR蛋白,根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)(1)NR1:甲状腺激素样;(2) NR2:HNF4类;(3) NR3:雌激素样;(4) NR4:神经生长因子IB样;(5) NR5:fushi tarazu-F1类;(6) NR6:生殖细胞核因子样;和(7)NR0:刀型和DAX型。给出了登录号和序列。这里包含的所有蛋白质都没有出现在训练数据集S中。
(PDF格式)
支持信息S3NR-2L对数据集S中159个NR和500个非NR获得的弯折结果列表(参见。支持信息S1)以及NucleaRDB或UniProt中注释的相应观测结果。
(PDF格式)
支持信息S4NR-2L对独立测试数据集ST中的568个NR和500个非NR获得的结果列表(参见。支持信息S2)以及NucleaRDB或UniProt中注释的相应观测结果。
(PDF格式)
致谢
作者谨感谢尼尔·哈斯拉姆教授提出的建设性建议。作者还想感谢两位匿名审稿人的宝贵意见,这对加强论文的介绍非常有帮助。
脚注
基金:这项工作得到了国家自然科学基金(No.60961003)、教育部重点项目(No.210116)、江西省国家自然科学研究基金(2009GZS0064和2010GZS0122)、江苏省教育厅(No.GJJ09271)的资助,江西省青年科学家(井冈之星)培养计划。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。
工具书类
-
1Altucci L,Gronemeyer H。细胞生与死中的核受体。内分泌与代谢趋势。2001;12:460–468. doi:10.1016/s1043-2760(01)00502-1。[内政部] [公共医学] [谷歌学者]
-
2Mangelsdorf DJ、Thummel C、Beato M、Herrlich P、Schutz G等。核受体超家族:第二个十年。单元格。1995年;83:835–839. doi:10.1016/0092-8674(95)90199-x。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
-
三。Robinson-Rechavi M,Garcia HE,Laudet V.核受体超家族。细胞科学杂志。2003;116:585–586. doi:10.1242/jcs.00247。[内政部] [公共医学] [谷歌学者]
-
4Florence H、Gerrit V、Fred EC。收集和收集生物数据:GPCRDB和NucleaRDB信息系统。核酸研究。2001;29:346–349. doi:10.1093/nar/29.1.346。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
-
5Altschul SF、Madden TL、Schäffer AA、Zhang J、ZhangZ等。缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究1997;25:3389–3402. doi:10.1093/nar/25.17.3389。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
-
6周家川。使用伪氨基酸成分预测蛋白质细胞属性。蛋白质。2001;43:246–255. doi:10.1002/port.1035。[内政部] [公共医学] [谷歌学者]
-
7Bhasin M,Raghava GPS。基于氨基酸组成和二肽组成的核受体分类。生物化学杂志。2004;279:23262–23266. doi:10.1074/jbc。M401932200。[内政部] [公共医学] [谷歌学者]
-
8高庆斌,金振聪,叶XF,吴C,何J.用最佳伪氨基酸组成预测核受体。分析生物化学。2009;387:54–59. doi:10.1016/j.ab.2009.01.018。[内政部] [公共医学] [谷歌学者]
-
9周家川。关于蛋白质属性预测和伪氨基酸组成的一些评论(50周年回顾)。理论生物学杂志。2011;273:236–247. doi:10.1016/j.jtbi.2010.12.24。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
-
10Li W,Godzik A.Cd-hit:一个快速程序,用于聚类和比较大组蛋白质或核苷酸序列。生物信息学。2006;22:1658–1659. doi:10.1093/bioinformatics/btl158。[内政部] [公共医学] [谷歌学者]
-
11周家川。一种预测(20–1)-D氨基酸组成空间中蛋白质结构类的新方法。蛋白质:结构、功能和生物信息学。1995年;21:319–344. doi:10.1002/port.340210406。[内政部] [公共医学] [谷歌学者]
-
12Nakashima H,Nishikawa K,Ooi T。蛋白质的折叠类型与氨基酸组成有关。生物化学杂志。1986;99:153–162. doi:10.1093/oxfordjournals.jbchem.a135454。[内政部] [公共医学] [谷歌学者]
-
13周GP。关于蛋白质结构类预测的有趣争议。蛋白质化学杂志。1998;17:729–738. doi:10.1023/a:1020713915365。[内政部] [公共医学] [谷歌学者]
-
14周GP,K博士。凋亡蛋白的亚细胞定位预测。蛋白质:结构、功能和遗传学。2003;50:44–48. doi:10.1002/port.10251。[内政部] [公共医学] [谷歌学者]
-
15刘伟,周朝中。蛋白质二级结构含量预测。蛋白质工程,1999;12:1041–1050. doi:10.1093/protein/12.12.1041。[内政部] [公共医学] [谷歌学者]
-
16周家川。用于预测蛋白质中HIV蛋白酶裂解位点的矢量化序列耦合模型。生物化学杂志。1993;268:16938–16948.[公共医学] [谷歌学者]
-
17周家川。综述:预测蛋白质中的急转弯及其类型。分析生物化学。2000;286:1–16. doi:10.1006/abio.2000.4757。[内政部] [公共医学] [谷歌学者]
-
18肖X,邵SH,黄ZD,周KC。用伪氨基酸组成预测蛋白质结构类别:用复杂性度量因子探讨。计算化学杂志。2006;27:478–482。doi:10.1002/jcc.20354。[内政部] [公共医学] [谷歌学者]
-
19Gusev VD,Nemytikova LA,Chuzhanova NA。关于遗传序列的复杂性度量。生物信息学。1999;15:994–999. doi:10.1093/bioinformatics/15.12.994。[内政部] [公共医学] [谷歌学者]
-
20周家川。综述:生物大分子的低频集体运动及其生物功能。生物物理化学。1988;30:3–48. doi:10.1016/0301-4622(88)85002-6。[内政部] [公共医学] [谷歌学者]
-
21Cover T,Hart P.最近邻模式分类。IEEE信息论事务。1967;13:21–27.[谷歌学者]
-
22Chou KC,Wu ZC,Xiao X.iLoc-Euk:预测单复合体和复合真核蛋白亚细胞定位的多标记分类器。《公共科学图书馆·综合》。2011;6:e18258。doi:10.1371/journal.pone.0018258。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
-
23Keller JM、Gray MR、Givens JAJ。一种快速的K-最近邻算法。IEEE系统、人和控制论事务。1985;15:580–585.[谷歌学者]
-
24关于统计学中的广义距离。印度国家科学研究院。1936;2:49–55.[谷歌学者]
-
25周朝中,张春涛。综述:蛋白质结构类的预测。生物化学和分子生物学评论。1995年;30:275–349. doi:10.3109/10409239509083488。[内政部] [公共医学] [谷歌学者]
-
26Liu T,Jia C.一种使用预测的二级结构信息的高精度蛋白质结构类预测算法。理论生物学杂志。2010;267:272–275. doi:10.1016/j.jtbi.2010.09.007。[内政部] [公共医学] [谷歌学者]
-
27Masso M,Vaisman II。基于知识的计算突变用于预测人类非同义单核苷酸多态性的潜在疾病。理论生物学杂志。2010;266:560–568. doi:10.1016/j.jtbi.2010.07.026。[内政部] [公共医学] [谷歌学者]
-
28王涛,夏涛,胡XM。预测膜蛋白类型的几何保持投影算法。理论生物学杂志。2010;262:208–213。doi:10.1016/j.jtbi.2009.09.027。[内政部] [公共医学] [谷歌学者]
-
29Joshi RR,Sekharan S.蛋白质二级结构基序的特征肽。蛋白质和肽字母。2010;17:1198–1206. doi:10.2174/0929686610792231500。[内政部] [公共医学] [谷歌学者]
-
30Kandaswamy KK、Pugalenthi G、Moller S、Hartmann E、Kalies KU等。通过一种新的伪氨基酸组成模式,用遗传算法和支持向量机预测凋亡蛋白的位置。蛋白质和肽字母。2010;17:1473–1479. doi:10.2174/0929866511009011473。[内政部] [公共医学] [谷歌学者]
-
31Liu T,Zheng X,Wang C,Wang J.使用伪氨基酸成分预测凋亡蛋白的亚细胞位置:自协方差变换方法。蛋白质和肽字母。2010;17:1263–1269. doi:10.2174/092986610792231528。[内政部] [公共医学] [谷歌学者]
-
32Mohabatkar H.使用Chou的伪氨基酸组成预测细胞周期蛋白。蛋白质和肽字母。2010;17:1207–1214. doi:10.2174/092986610792231564。[内政部] [公共医学] [谷歌学者]
关联数据
本节收集本文中包含的任何数据引用、数据可用性声明或补充材料。
补充资料
支持信息S1训练数据集S包含500个非NR蛋白和159个NR蛋白,根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)(1)NR1:甲状腺激素样;(2) NR2:HNF4类;(3) NR3:雌激素样;(4) NR4:神经生长因子IB样;(5) NR5:fushi tarazu-F1类;(6) NR6:生殖细胞核因子样;和(7)NR0:刀型和DAX型。给出了登录号和序列。除NR6亚家族外,所包含的蛋白质与同一亚群中的任何其他蛋白质都没有≥60%的配对序列一致性。
(PDF格式)
支持信息S2独立测试数据集ST包含500个非NR蛋白和568个NR蛋白,根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)(1)NR1:甲状腺激素样;(2) NR2:HNF4类;(3) NR3:雌激素样;(4) NR4:神经生长因子IB样;(5) NR5:fushi tarazu-F1类;(6) NR6:生殖细胞核因子样;和(7)NR0:刀型和DAX型。给出了登录号和序列。这里包含的所有蛋白质都没有出现在训练数据集S中。
(PDF格式)
支持信息S3NR-2L对数据集S中159个NR和500个非NR获得的弯折结果列表(参见。支持信息S1)以及NucleaRDB或UniProt中注释的相应观测结果。
(PDF格式)
支持信息S4NR-2L对独立测试数据集ST中的568个NR和500个非NR获得的结果列表(参见。支持信息S2)以及NucleaRDB或UniProt中注释的相应观测结果。
(PDF格式)