公共科学图书馆一号。2011; 6(8):e23505。
NR-2L:基于序列衍生特征识别核受体亚家族的两级预测因子
,1 ,1,2,*和2
王璞(Pu Wang)
1中国景德镇陶瓷研究所计算机系
宣晓
1中国景德镇陶瓷研究所计算机系
2美国加利福尼亚州圣地亚哥市戈登生命科学研究所
郭振秋
2美国加利福尼亚州圣地亚哥市戈登生命科学研究所
尼尔·詹姆斯·哈斯拉姆,编辑器
1中国景德镇陶瓷研究所计算机系
2美国加利福尼亚州圣地亚哥市戈登生命科学研究所
爱尔兰都柏林大学学院
构思和设计实验:XX。执行实验:PW。分析数据:KCC。贡献的试剂/材料/分析工具:XX。论文撰写人:XX KCC。
2011年2月17日收到;2011年7月19日接受。
这是一篇根据知识共享公共领域声明条款发布的开放存取文章,该声明规定,一旦将本作品置于公共领域,任何人都可以出于任何合法目的自由复制、分发、传播、修改、构建或以其他方式使用本作品。
- 补充资料
支持信息S1:训练数据集S包含500个非NR蛋白和159个NR蛋白,根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)(1)NR1:甲状腺激素样;(2) NR2:HNF4类;(3) NR3:雌激素样;(4) NR4:神经生长因子IB样;(5) NR5:fushi tarazu-F1类;(6) NR6:生殖细胞核因子样;和(7)NR0:刀型和DAX型。给出了登录号和序列。除NR6亚家族外,所包含的蛋白质与同一亚群中的任何其他蛋白质都没有≥60%的配对序列一致性。(PDF格式)
GUID:8350BE0C-5B6D-4756-BE3F-C91732F4D511
支持信息S2:独立测试数据集ST包含500个非NR蛋白和568个NR蛋白,根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)(1)NR1:甲状腺激素样;(2) NR2:HNF4类;(3) NR3:雌激素样;(4) NR4:神经生长因子IB样;(5) NR5:fushi tarazu-F1类;(6) NR6:生殖细胞核因子样;和(7)NR0:刀型和DAX型。给出了登录号和序列。这里包含的所有蛋白质都没有出现在训练数据集S中。(PDF格式)
GUID:68EAD486-2ABE-476C-8829-6619CFCE418C
支持信息S3:NR-2L对数据集S中159个NR和500个非NR获得的弯折结果列表(参见。支持信息S1)以及NucleaRDB或UniProt中注释的相应观测结果。(PDF格式)
GUID:5E5A15F9-E92C-4587-AE1F-583AD2C1EEDD
支持信息S4:NR-2L对独立测试数据集ST中568个NR和500个非NR获得的结果列表(参见。支持信息S2)以及NucleaRDB或UniProt中注释的相应观测结果。(PDF格式)
GUID:D80E9933-597D-4C8A-8213-11211C59C658
摘要
核受体是动物体内最丰富的转录调控因子之一。它们调节多种功能,如体内平衡、生殖、发育和新陈代谢。因此,NRs是药物开发的一个非常重要的目标。核受体是一个与系统发育相关的蛋白质超家族,由于其结构域的多样性,已被细分为不同的亚家族。在这项研究中,开发了一种称为NR-2L的两级预测因子,可用于仅根据其序列信息识别查询蛋白是否为核受体;如果是,预测将自动继续,以在以下七个亚家族中进一步确定它:(1)甲状腺激素样(NR1),(2)HNF4样(NR2),(3)雌激素样,(4)神经生长因子IB样(NR4),(5)福氏塔拉祖-F1样(NR5),(6)生殖细胞核因子样(NR6)和(7)刀状(NR0)。通过模糊识别K(K)基于伪氨基酸组成的最近邻分类器(FK-NN),该伪氨基酸组成由蛋白质序列衍生的各种物理化学和统计特征组成,例如氨基酸组成、二肽组成、复杂性因子和低频傅里叶谱成分。作为证明,通过从NucleaRDB和UniProt获得的低冗余度基准数据集可以看出,在第一级和第二级,折刀测试的总体成功率分别约为93%和89%。高成功率表明,新的两级预测器可以成为识别NR及其子家族的有用工具。作为用户友好的网络服务器,NR-2L型可在任一位置自由访问http://icpr.jci.edu.cn/bioinfo/NR2L或http://www.jci-bioinfo.cn/NR2L。每个作业提交给NR-2L型可以包含多达500个查询蛋白序列,并在2分钟内完成。查询蛋白的数量越少,时间通常越短NR-2L型可根据要求用于非商业目的。
介绍
核受体(NR)是调节关键基因网络的关键转录因子,对细胞生长、分化和内环境稳定至关重要[1],[2]它们作为配体激活的转录因子发挥作用,从而在控制这些过程的信号分子和转录反应之间提供直接联系。其中许多受体是治疗乳腺癌、糖尿病、炎症疾病或骨质疏松症等疾病的潜在靶点。核受体形成一个系统发育相关蛋白质超家族,它们共享一个共同的结构组织。N末端区域(A/B域)是高度可变的,并且包含至少一个本质上活跃的交易激活区域(at-1)和几个自治的交易激活域(AD);A/B结构域的长度可变,从少于50个氨基酸到超过500个氨基酸。最保守的区域是DNA结合域(DBD,C域),它包含一个短的基序,负责对通常包含AGGTCT基序的序列进行DNA结合特异性。非服务铰链(D域)位于DNA结合域和配体结合域之间,包含核定位信号。配体结合结构域(LBD,E结构域)是最大的结构域。它负责许多功能,如配体诱导、反式激活和抑制。F域位于E域的C端,E域的序列极其可变,其结构和功能未知[3]。并非所有NR都包含所有六个域。
核受体的重要性促使从众多研究领域积累了迅速增加的数据:序列、表达模式、三维结构、蛋白质相互作用、靶基因、生理作用、突变等。这些收集到的数据对数据挖掘和知识发现非常有用。根据保守结构域的排列,NR超家族被划分为七个亚家族[3],[4]作为一个新兴的分支,对新型核受体亚家族的认识对于制定上述疾病的治疗策略至关重要,因为核受体的功能与其类别密切相关。
尽管基于序列相似性搜索的工具,如BLAST[5],通常用于进行预测。然而,当查询蛋白与已知属性的序列没有显著的相似性时,这种方法就失败了。因此,提出了各种离散模型。常用的特征提取方法是基于伪氨基酸组成(PseAAC)的概念,这是Chou在研究蛋白质亚细胞位置预测和膜蛋白类型预测时提出的[6],其中详细描述了PseAAC。
2004年,巴辛和拉格哈瓦[7]提出了一种基于SVM预测因子和氨基酸组成和二肽组成输入特征的核受体亚家族预测方法。最近,Gao等人。[8]重建NR预测数据集,并引入PseAAC[6]作为特征表达,从而提高了预测质量。然而,现有的预测因子存在以下缺点:(1)构建用于训练预测因子的数据集涵盖非常有限的NRs亚家族。例如,这些作者构建的数据集[7],[8]仅涵盖四个亚家族。(2)他们设置的去除同源序列的截止阈值为90%,这意味着这样构建的基准数据集将允许包含那些与其他蛋白质具有高达90%配对序列一致性的蛋白质。为了避免同源性偏差,在构建基准数据集时应采用更严格的阈值。(3)现有的预测器无法过滤无关序列,所有输入序列都将被假定为属于NR,因此可能产生无意义的结果。(4)现有方法没有提供web服务器,或者它们提供的web服务器目前无法工作,因此它们的应用价值非常有限。
本研究旨在开发一种新的预测因子,称为NR-2L型通过解决上述四个缺点。为了扩大实际应用的覆盖范围并减少同源性偏差,构建了新的基准数据集,并开发了一个两级预测器。新的数据集涵盖了七个亚家族,其中没有一个蛋白质包含将序列标识与同一子集中的任何其他序列标识配对。新的基准数据集中还包括用于训练预测因子以识别非NR蛋白的非NR序列。为了使预测器更强大,使用了更多的序列衍生特征。这些功能能够通过PseAAC捕获关键信息[6]以及蛋白质的各种物理化学性质。最终将得到的特征向量输入到一个简单但功能强大的分类引擎,称为模糊K最近邻算法,以识别NR及其子家族。为了方便用户并处理某些链接可能偶尔关闭的情况NR-2L型已在两家公司成立http://icpr.jci.edu.cn/bioinfo/NR2L和http://www.jci-bioinfo.cn/NR2L,其中任何一个Multi-Fasta蛋白质序列都可以以批处理模式输入和处理。此外,该算法的源代码可通过电子邮件向相应作者发送请求,用于教育目的和基础研究。
为了开发一种有效的方法来识别蛋白质属性,如NRs及其亚家族,以下五件事是必不可少的[9]:(1)构造一个有效的基准数据集来训练和测试预测器;(2)用一个有效的数学表达式来表示蛋白质样本,该表达式能够真实地反映其与待预测属性的内在相关性;(三)引入或开发强大的算法(或引擎)来操作预测;(4)适当地进行交叉验证测试,以客观地评估预测器的预期准确性;(5)为公众可以访问的预测器建立一个用户友好的网络服务器。下面,让我们详细说明如何处理这些步骤。
材料和方法
2.序列衍生特征
如中所述[9]为了开发识别蛋白质属性的预测器,关键之一是用一个有效的数学表达式来表示蛋白质样本,该表达式能够真实地反映其与待预测属性的内在相关性。
蛋白质序列具有L(左)氨基酸残基可以表示为
为了从蛋白质序列中获取尽可能多的有用信息,我们将从四个不同的角度来处理这个问题,然后将由此获得的特征元素合并到PseAAC的一般形式中[9].
2.2二肽组成(DC)
传统的二肽(氨基酸对)组成用于捕获蛋白质序列的局部顺序信息,该序列给出固定的模式长度400(20×20)[15].每种二肽的分数公式如下
哪里是u个-th二肽。此外,表达序列间隙大于二肽对的氨基酸的相互作用(),让我们考虑以下一般方程
哪里克 = 0、1、2或更大,以及是u个-th二肽克两个残留物之间的间隙。什么时候?,式4简化为式3,即传统二肽的配方。因此,具有不同间隙的二肽组合物通常可以公式化为
哪里是gap二肽的归一化出现频率.由于本地残留物之间的耦合效应通常强于远程残留物[16],[17],这里让我们考虑一下和1分别用DC(0)和DC(1)表示。因此,我们得到用于使用DC配制蛋白质样品的元素,其中400个元素来自DC(0),400个来自DC(1)。
显示沿着蛋白质链具有不同间隙的二肽的示意图。(a) 传统的(0-gap)二肽、(b)1-gap二肽和(c)2-gaps二肽,其中代表序列位置1、位置2的氨基酸残基,依此类推。经周允许改编[6].
结果和讨论
在统计预测中,通常使用以下三种交叉验证方法来检验预测因子在实际应用中的有效性:独立数据集检验、二次抽样检验和折刀检验[25]然而,如公式28-32所示[9]在这三种交叉验证方法中,刀切检验的任意性最小,对于给定的基准数据集总是能产生唯一的结果,因此研究人员越来越广泛地使用刀切检验来检验各种预测的准确性(参见,例如。,[26],[27],[28],[29],[30],[31],[32]). 因此,这里还采用了折刀试验来检验当前预测值的质量。”
参数的值和在里面等式16通过二维搜索优化总体折刀成功率来确定(). 研究发现,当和在第一级,而和在第二层。因此,利用优化的参数,对独立数据集中的蛋白质进行了进一步预测。中给出了通过升降刀测试和独立测试获得的成功率和分别用于第一级和第二级。通过折刀测试对基准数据集中每个蛋白质的预测结果在中给出支持信息S3,以及独立测试集中每个蛋白质的预测结果在中给出支持信息S4.
3D图形显示不同参数的折刀成功率。(a) 通过一级预测得到的结果,以及(b)通过二级预测获得的结果,其中参数和在公式16中定义。
从中可以看出和,通过折刀试验和独立数据集试验确定NR及其亚家族的成功率非常高,表明NR-2L型预测器在为基础研究和药物开发产生可靠结果方面非常有希望。
为了进一步评估NR-2L型马太相关系数(MCC)指数也是统计学中另一个广泛使用的标准。MCC指数的定义如下
其中TP代表真阳性;TN,真负数;FP,假阳性;和FN,假阴性(参见). 由此获得的相应MCC值也在和从中可以看出,NR-2L不仅具有较高的精度,而且即使子集大小相差很大,也相当稳定。
预测结果在四个象限中的分布。(I) TP,用于正数据集的正确预测的真正象限(绿色),(II)FP,用于负数据集的错误预测的假正象限(红色);(三) TN,正确预测负数据集的真负象限(蓝色);(IV)FN,错误预测阳性数据集的假阴性象限(粉红色)。
此外,在,其中分别列出了通过使用不同功能获得的成功率。从表中可以看出,在五种特征组合中,AAC+DC(0)对成功预测的贡献最大。
表4
通过分别使用基准数据集上的不同特征,在识别NR亚家族时获得的折刀成功率支持信息S1. 功能模式 | AAC公司 | AAC+DC(0) | AAC+DC(1) | AAC+CF | AAC和FSC |
成功率 | 66.67% | 81.76% | 80.50% | 72.33% | 73.58% |
中列出的结果,、和为基准数据集获得了60%的阈值,以排除那些具有将序列标识与同一子集中的任何其他序列标识配对。为了显示这些阈值对预测结果的影响,我们对按照“基准数据集”一节中描述的完全相同的程序构建的数据集进行了广泛的研究,但是,截止阈值分别为40%、50%、60%、70%。由此获得的结果如下所示从中我们可以看出,截止阈值越大,基准数据集越不严格,折刀测试的总体成功率越高,这与中所阐述的说明完全一致[9].
由于NRs的功能重要性及其序列的迅速增加,基于序列信息开发一种可靠的预测器来识别NRs及其子家族是重要且可行的。本研究开发的NR-2L预测仪可用于解决此类问题。NR-2L取得的高成功率再次表明,通过将几种不同的序列衍生特征融合到PseAAC中来构建蛋白质样本以识别其属性,这确实是一种有效的方法。预计NR-2L可能成为加快新发现核受体蛋白特征化速度的有用工具,或者至少可能在这方面发挥其他方法的重要补充作用。为了方便生物学家和药理学家使用NR-2L,已在http://icpr.jci.edu.cn/bioinfo/NR2L,即使对于大量的查询蛋白质序列,用户也可以在短时间内轻松地获得所需的结果。此外,作为备份,NR-2L的web服务器也可以访问http://www.jci-bioinfo.cn/NR2L以防前一个链接断开。根据要求,NR-2L的所有程序代码可用于非商业用途。
支持信息
支持信息S1
训练数据集S包含500个非NR蛋白和159个NR蛋白,根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)(1)NR1:甲状腺激素样;(2) NR2:HNF4类;(3) NR3:雌激素样;(4) NR4:神经生长因子IB样;(5) NR5:fushi tarazu-F1样;(6) NR6:生殖细胞核因子样;和(7)NR0:刀型和DAX型。给出了登录号和序列。除NR6亚家族外,所包含的蛋白质与同一亚群中的任何其他蛋白质都没有≥60%的配对序列一致性。
(PDF格式)
支持信息S2
独立测试数据集ST包含500种非NR蛋白和568种NR蛋白,根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)(1)NR1:甲状腺激素样;(2) NR2:HNF4类;(3) NR3:雌激素样;(4) NR4:神经生长因子IB样;(5) NR5:fushi tarazu-F1类;(6) NR6:生殖细胞核因子样;和(7)NR0:刀型和DAX型。给出了登录号和序列。这里包含的所有蛋白质都没有出现在训练数据集S中。
(PDF格式)
支持信息S3
NR-2L对数据集S中159个NR和500个非NR获得的弯折结果列表(参见。支持信息S1)以及NucleaRDB或UniProt中注释的相应观测结果。
(PDF格式)
支持信息S4
NR-2L对独立测试数据集ST中568个NR和500个非NR获得的结果列表(参见。支持信息S2)以及NucleaRDB或UniProt中注释的相应观测结果。
(PDF格式)
致谢
作者要感谢Niall Haslam教授提出的建设性建议。作者还想感谢两位匿名审稿人的宝贵意见,这对加强论文的介绍非常有帮助。
脚注
竞争利益:提交人声明,不存在相互竞争的利益。
基金:这项工作得到了国家自然科学基金(No.60961003)、教育部重点项目(No.210116)、江西省国家自然科学研究基金(2009GZS0064和2010GZS0122)、江苏省教育厅(No.GJJ09271)的资助,江西省青年科学家(井冈之星)培养计划。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。
工具书类
1Altucci L,Gronemeyer H。细胞生与死中的核受体。内分泌和代谢趋势。2001;12:460–468.[公共医学][谷歌学者] 2Mangelsdorf DJ、Thummel C、Beato M、Herrlich P、Schutz G等。核受体超家族:第二个十年。单元格。1995;83:835–839. [PMC免费文章][公共医学][谷歌学者] 三。Robinson-Rechavi M,Garcia HE,Laudet V.核受体超家族。细胞科学杂志。2003;116:585–586.[公共医学][谷歌学者] 4Florence H,Gerrit V,Fred EC。收集和收集生物数据:GPCRDB和NucleaRDB信息系统。核酸研究。2001;29:346–349. [PMC免费文章][公共医学][谷歌学者] 5Altschul SF、Madden TL、Schäffer AA、Zhang J、ZhangZ等。缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. [PMC免费文章][公共医学][谷歌学者] 6周家川。使用伪氨基酸成分预测蛋白质细胞属性。蛋白质。2001;43:246–255.[公共医学][谷歌学者] 7Bhasin M,Raghava全球定位系统。基于氨基酸组成和二肽组成的核受体分类。生物化学杂志。2004;279:23262–23266.[公共医学][谷歌学者] 8高庆斌,金振聪,叶XF,吴C,何J.用最佳伪氨基酸组成预测核受体。分析生物化学。2009;387:54–59.[公共医学][谷歌学者] 9周家川。关于蛋白质属性预测和伪氨基酸组成的一些评论(50周年回顾)。理论生物学杂志。2011;273:236–247. [PMC免费文章][公共医学][谷歌学者] 10Li W,Godzik A.Cd-hit:一个快速程序,用于聚类和比较大组蛋白质或核苷酸序列。生物信息学。2006;22:1658–1659.[公共医学][谷歌学者] 11周家川。一种预测(20–1)-D氨基酸组成空间中蛋白质结构类的新方法。蛋白质:结构、功能和生物信息学。1995;21:319–344.[公共医学][谷歌学者] 12Nakashima H,Nishikawa K,Ooi T。蛋白质的折叠类型与氨基酸组成有关。生物化学杂志。1986;99:153–162。[公共医学][谷歌学者] 13周GP。关于蛋白质结构类预测的有趣争议。蛋白质化学杂志。1998;17:729–738.[公共医学][谷歌学者] 14Zhou GP,K.博士。细胞凋亡蛋白的亚细胞定位预测。蛋白质:结构、功能和遗传学。2003;50:44–48.[公共医学][谷歌学者] 15刘伟,周朝中。蛋白质二级结构含量预测。蛋白质工程。1999;12:1041–1050.[公共医学][谷歌学者] 16周家川。用于预测蛋白质中HIV蛋白酶裂解位点的矢量化序列耦合模型。生物化学杂志。1993;268:16938–16948.[公共医学][谷歌学者] 17周家川。综述:蛋白质中紧转弯及其类型的预测。分析生物化学。2000年;286:1–16.[公共医学][谷歌学者] 18肖X,邵SH,黄ZD,周KC。用伪氨基酸组成预测蛋白质结构类别:用复杂性度量因子探讨。计算化学杂志。2006;27:478–482.[公共医学][谷歌学者] 19Gusev VD,Nemytkova LA,Chuzhanova NA。关于遗传序列的复杂性度量。生物信息学。1999;15:994–999.[公共医学][谷歌学者] 20周家川。综述:生物大分子的低频集体运动及其生物功能。生物物理化学。1988;30:3–48.[公共医学][谷歌学者] 21Cover T,Hart P.最近邻模式分类。IEEE信息论事务。1967;13:21–27. [谷歌学者] 22Chou KC,Wu ZC,Xiao X.iLoc-Euk:预测单复合体和复合真核蛋白亚细胞定位的多标记分类器。《公共科学图书馆·综合》。2011;6:e18258。 [PMC免费文章][公共医学][谷歌学者] 23Keller JM、Gray MR、Givens JAJ。一种快速的K-最近邻算法。IEEE系统、人和控制论事务。1985;15:580–585. [谷歌学者] 24关于统计学中的广义距离。印度国家科学研究院。1936年;2:49–55. [谷歌学者] 25周朝中,张春涛。综述:蛋白质结构类的预测。生物化学和分子生物学评论。1995;30:275–349。[公共医学][谷歌学者] 26Liu T,Jia C.一种使用预测的二级结构信息的高精度蛋白质结构类预测算法。理论生物学杂志。2010;267:272–275.[公共医学][谷歌学者] 27Masso M,Vaisman II。基于知识的计算突变用于预测人类非同义单核苷酸多态性的潜在疾病。理论生物学杂志。2010;266:560–568.[公共医学][谷歌学者] 28王涛,夏涛,胡XM。预测膜蛋白类型的几何保持投影算法。理论生物学杂志。2010;262:208–213.[公共医学][谷歌学者] 29Joshi RR,Sekharan S.蛋白质二级结构基序的特征肽。蛋白质和肽字母。2010;17:1198–1206.[公共医学][谷歌学者] 30Kandaswamy KK、Pugalenthi G、Moller S、Hartmann E、Kalies KU等。通过一种新的伪氨基酸组成模式,用遗传算法和支持向量机预测凋亡蛋白的位置。蛋白质和肽字母。2010;17:1473–1479.[公共医学][谷歌学者] 31Liu T,Zheng X,Wang C,Wang J.使用伪氨基酸成分预测凋亡蛋白的亚细胞位置:自协方差变换方法。蛋白质和肽字母。2010;17:1263–1269.[公共医学][谷歌学者] 32Mohabatkar H.使用Chou的伪氨基酸组成预测细胞周期蛋白。蛋白质和肽字母。2010;17:1207–1214.[公共医学][谷歌学者]