NR-2L: A Two-Level Predictor for Identifying Nuclear Receptor Subfamilies Based on Sequence-Derived Features

Pu Wang; Xuan Xiao; Kuo-Chen Chou

doi:10.1371/journal.pone.0023505

2011年8月15日；6（8）：e23505。doi（操作界面）：10.1371/journal.pone.0023505

NR-2L：基于序列衍生特征识别核受体亚家族的两级预测因子

王璞（Pu Wang） ¹,宣晓 ^1,^{2的情况下，}^*,郭振秋 ²

编辑：尼尔·詹姆斯·哈斯拉姆^三

PMCID:PMC3156231 PMID:21858146

摘要

核受体是动物体内最丰富的转录调控因子之一。它们调节多种功能，如体内平衡、生殖、发育和新陈代谢。因此，NRs是药物开发的一个非常重要的目标。核受体是一个与系统发育相关的蛋白质超家族，由于其结构域的多样性，已被细分为不同的亚家族。在这项研究中，开发了一种称为NR-2L的两级预测因子，它可以用于识别查询蛋白是否为核受体，也可以不基于其序列信息；如果是，预测将自动继续，以在以下七个亚家族中进一步确定它：（1）甲状腺激素样（NR1），（2）HNF4样（NR2），（3）雌激素样，（4）神经生长因子IB样（NR4），（5）福氏塔拉祖-F1样（NR5），（6）生殖细胞核因子样（NR6）和(7)刀状（NR0）。通过模糊识别K（K）基于伪氨基酸组成的最近邻分类器（FK-NN），该伪氨基酸组成由蛋白质序列衍生的各种物理化学和统计特征组成，例如氨基酸组成、二肽组成、复杂性因子和低频傅里叶谱成分。作为证明，通过从NucleaRDB和UniProt获得的低冗余度基准数据集可以看出，在第一级和第二级，折刀测试的总体成功率分别约为93%和89%。高成功率表明，新的两级预测器可以成为识别NR及其子家族的有用工具。作为一个用户友好的web服务器，NR-2L型可在任一位置自由访问http://icpr.jci.edu.cn/bioinfo/NR2L或http://www.jci-bioinfo.cn/NR2L。每个作业提交给NR-2L型可以包含多达500个查询蛋白序列，并在2分钟内完成。查询蛋白的数量越少，时间通常越短NR-2L型可根据要求用于非商业目的。

介绍

核受体（NR）是调节关键基因网络的关键转录因子，对细胞生长、分化和内环境稳定至关重要[1],[2]它们作为配体激活的转录因子发挥作用，从而在控制这些过程的信号分子和转录反应之间提供直接联系。这些受体中的许多是治疗乳腺癌、糖尿病、炎症性疾病或骨质疏松症等疾病的潜在靶点。核受体形成一个系统发育相关蛋白质超家族，它们共享一个共同的结构组织。N末端区域（A/B域）是高度可变的，并且包含至少一个本质上活跃的交易激活区域（at-1）和几个自治的交易激活域（AD）；A/B结构域的长度可变，从少于50个氨基酸到超过500个氨基酸。最保守的区域是DNA结合结构域（DBD，C结构域），它包含一个短基序，负责在通常包含AGGTCT基序的序列上的DNA结合特异性。非服务铰链（D域）位于DNA结合域和配体结合域之间，包含核定位信号。配体结合结构域（LBD，E结构域）是最大的结构域。它负责许多功能，如配体诱导、反式激活和抑制。F域位于E域的C端，E域的序列极其可变，其结构和功能未知[3]。并非所有NR都包含所有六个域。

核受体的重要性促使从众多研究领域积累了迅速增加的数据：序列、表达模式、三维结构、蛋白质相互作用、靶基因、生理作用、突变等。这些收集到的数据对数据挖掘和知识发现非常有用。根据保守结构域的排列，NR超家族被划分为七个亚家族[3],[4]作为一个新兴的分支，对新型核受体亚家族的识别对于开发上述疾病的治疗策略至关重要，因为核受体的功能与其类别密切相关。

尽管基于序列相似性搜索的工具，如BLAST[5]，通常用于进行预测。然而，当查询蛋白与已知属性的序列没有显著的相似性时，这种方法就失败了。因此，提出了各种离散模型。常用的特征提取方法是基于伪氨基酸组成（PseAAC）的概念，这是Chou在研究蛋白质亚细胞位置预测和膜蛋白类型预测时提出的[6]，其中详细描述了PseAAC。

2004年，巴辛和拉格哈瓦[7]提出了一种基于SVM预测因子和氨基酸组成和二肽组成输入特征的核受体亚家族预测方法。最近，Gao等人。[8]重建NR预测数据集，并引入PseAAC[6]作为特征表达，从而提高了预测质量。然而，现有预测因子存在以下不足：(1)构建用于训练预测因子的数据集涵盖非常有限的NRs亚家族。例如，这些作者构建的数据集[7],[8]仅涵盖四个亚家族。(2)他们设置的去除同源序列的截止阈值为90%，这意味着这样构建的基准数据集将允许包含那些与其他蛋白质具有高达90%配对序列一致性的蛋白质。为了避免同源性偏差，在构建基准数据集时应采用更严格的阈值。(3)现有的预测器无法过滤无关序列，所有输入序列都将被假定为属于NR，因此可能产生无意义的结果。(4)现有方法没有提供web服务器，或者它们提供的web服务器当前无法工作，因此其应用价值非常有限。

本研究旨在开发一种新的预测因子，称为NR-2L型通过解决上述四个缺点。为了扩大实际应用的覆盖范围并减少同源性偏差，构建了新的基准数据集，并开发了一个两级预测器。新的数据集涵盖了七个亚家族，其中没有一个蛋白质包含内联图形与同一子集中的任何其他序列的成对序列同一性。新的基准数据集中还包括用于训练预测因子以识别非NR蛋白的非NR序列。为了使预测器更强大，使用了更多的序列衍生特征。这些功能能够通过PseAAC捕获关键信息[6]以及蛋白质的各种物理化学性质。最终将得到的特征向量输入到一个简单但功能强大的分类引擎，称为模糊K最近邻算法，以识别NR及其子家族。为了方便用户和处理某些链接可能偶尔关闭的情况，web服务器NR-2L型已在两家公司成立http://icpr.jci.edu.cn/bioinfo/NR2L和http://www.jci-bioinfo.cn/NR2L，其中任何一个Multi-Fasta蛋白质序列都可以以批处理模式输入和处理。此外，该算法的源代码可通过电子邮件向相应作者发送请求，用于教育目的和基础研究。

为了开发一种有效的方法来识别蛋白质属性，如NRs及其亚家族，以下五件事是必不可少的[9]:(1)构造一个有效的基准数据集来训练和测试预测器；(2)用一个有效的数学表达式来表示蛋白质样本，该表达式能够真实地反映其与待预测属性的内在相关性；(三)引入或开发强大的算法（或引擎）来操作预测；(4)正确执行交叉验证测试，客观评估预测值的预期准确性；(5)为公众可以访问的预测器建立一个用户友好的网络服务器。下面，让我们详细说明如何处理这些步骤。

材料和方法

1.基准数据集

从核受体数据库（NucleaRDB 5.0版）中收集蛋白质序列http://www.receptors.org/NR网站/，这是一个项目的一部分，该项目致力于构建分子类别特定信息系统（MCSIS），以提供、传播和获取异构数据[4]数据库收集并收集了标记有(1)NR1：甲状腺激素样（甲状腺激素、维甲酸、RAR相关孤儿受体、过氧化物酶体增殖物激活、维生素D3样），(2)NR2:HNF4样（肝细胞核因子4、维甲酸X、无尾样、COUP-TF样、USP）(三)NR3：类雌激素（雌激素、雌激素相关、糖皮质激素类）(4)NR4：神经生长因子IB样（NGFI-B样）(5)NR5:fushi tarazu-F1类(6)NR6：生殖细胞核因子样（生殖细胞核因子），以及(7)NR0：刀样（刀，刀相关，胚胎性腺蛋白，ODR7，三胸）和DAX样（DAX，SHP）。有关数据库的详细信息，请参阅NucleaRDB(http://www.receptors.org/NR网站/). 因为NucleaRDB没有以FASTA格式提供核受体序列，所以我们在指定的URL处读取Web内容，并通过文本传递方法提取所有条目。最初的数据集有727个序列，属于7个核受体亚家族。为了避免任何同源性偏差，CD-HIT程序设置了冗余截断，以筛选那些具有以下特征的序列内联图形与除NR6亚家族外的同一亚群中的任何其他亚群的成对序列同一性，因为它只包含5个核受体蛋白序列[10]。如果也对该类执行了冗余截止操作，则剩下的样本太少，不会有任何统计意义。最终基准数据集，，因此获得的包含159个序列，分为7个不同的NR亚科，如表1 ，其中在内联图形训练预测员识别非NR。蛋白质序列在UniProt上随机收集网址：http://www.uniprot.org/根据他们在“关键字”字段中的注释，然后进行类似的冗余切断操作，以确保有将序列标识与任何其他标识配对。由此获得的基准数据集的登录号和序列内联图形和在中给出支持信息S1同时，为了演示当前预测器的实际应用，相应的独立测试数据集和也建造了(表1)在某种程度上，测试数据集中没有任何蛋白质出现在和.独立测试数据集的登录号和序列和在中给出支持信息S2有必要指出，从这些独立数据集得出的结果只是一种证明，不能用于客观衡量预测值的准确性；测量预测器准确性的真正标准应基于折刀试验，稍后将详细说明。

表1。学习数据集的细分和测试数据集.

属性	培训数据集
	设置	子家族	子集	编号
尼泊尔卢比		尼泊尔卢比1		50
		尼泊尔卢比2		36
		尼泊尔卢比3		37
		尼泊尔卢比4		7
		尼泊尔卢比5		12
		尼泊尔卢比6		5
		尼泊尔卢比		12
非NR		不适用	不适用	500
	独立测试数据集
尼泊尔卢比		尼泊尔卢比1		231
		尼泊尔卢比2		127
		尼泊尔卢比3		148
		尼泊尔卢比4		23
		尼泊尔卢比5		33
		编号6		0
		尼泊尔卢比		6
非NR		不适用	不适用	500

在新选项卡中打开

2.序列衍生特征

如中所述[9]，要开发一种用于识别蛋白质属性的预测器，关键之一是用一个有效的数学表达式来表达蛋白质样本，该表达式能够真正反映它们与待预测属性的内在相关性。

蛋白质序列内联图形具有L（左）氨基酸残基可以表示为

(1)

为了从蛋白质序列中获取尽可能多的有用信息，我们将从四个不同的角度来处理这个问题，然后将由此获得的特征元素合并到PseAAC的一般形式中[9].

2.1氨基酸组成（AAC）

如引言中所述，AAC被广泛用于将蛋白质序列转换为20-D（维）数值向量（参见，例如。，[11],[12],[13],[14]). 蛋白质的AAC定义为该蛋白质中20个氨基酸的标准化出现频率；即。，

(2)

哪里内联图形每个对应于20种天然氨基酸类型中的一种，以及类型的数量蛋白质中的氨基酸；虽然是转置运算符。

2.2二肽组成（DC）

传统的二肽（氨基酸对）组成用于捕获蛋白质序列的局部顺序信息，该序列给出固定的模式长度400（20×20）[15].每种二肽的分数公式如下

(3)

哪里内联图形是u个-th二肽。此外，表达序列间隙大于二肽对的氨基酸的相互作用( 图1 )，让我们考虑以下一般方程

(4)

哪里克 = 0、1、2或更大，以及内联图形是u个-th二肽克两个残留物之间的间隙。什么时候？，式4简化为式3，即传统二肽的配方。因此，具有不同间隙的二肽组合物通常可以公式化为

(5)

哪里内联图形是gap二肽的归一化出现频率.由于本地残留物之间的耦合效应通常强于远程残留物[16],[17]，这里让我们考虑一下和1分别用DC（0）和DC（1）表示。因此，我们得到用于使用DC配制蛋白质样品的元件，其中400个元件来自DC（0），400个元件来自DC（1）。

（a）传统的（0-gap）二肽、（b）1-gap二肽和（c）2-gaps二肽，其中代表序列位置1、位置2的氨基酸残基，依此类推。经周允许改编[6].

2.3复杂性因素（CF）

蛋白质序列实际上是一个符号序列，其复杂性度量因子可以用来反映其序列特征或模式，并已成功用于某些蛋白质属性预测[18]在已知的复杂性度量中，Lempel-Ziv（LZ）复杂性[19]反映了序列中保留的顺序，因此被本研究采用。

序列的LZ复杂性内联图形可以通过在某一过程中合成它所需的最少步骤来衡量。对于每个步骤，流程中只允许两个操作：要么生成一个额外的符号，以确保每个组件的唯一性或从合成序列的部分复制最长的片段。其子字符串表示为

(6)

复杂性度量因子，内联图形，根据以下程序合成的非空序列的定义为

(7)

让我们假设内联图形已被程序重建到剩余部分、和已新插入。最大字符串为将用表示，其中点表示新插入以检查字符串的其余部分可以通过简单的复制来重建。首先，假设，看看是否可从中复制，这意味着删除字符串中的最后一个字符。如果答案是“否”，则插入内联图形到后面跟着一个点的序列中。因此，无法通过复制操作获得。如果答案是“是”，则不需要新符号，我们可以继续并重复相同的步骤。LZ复杂性是点数（如果字符串没有以点结尾，则加一）。例如，对于序列，合成的LZ模式生成以下组件内联图形以及相应的复杂性:

（8）

2.4傅里叶频谱成分（FSC）

给定蛋白质序列内联图形，假设是第一个残留物的特定物理化学性质值,第二渣油等等。根据这些属性值，蛋白质序列可以转换为数字信号，我们对其进行离散傅里叶变换，获得频域值，

(9)

哪里j个表示虚数。对于每个内联图形我们可以计算它的振幅分量和相位分量

(10)

(11)

在哪里？防抱死制动系统获得复数幅值和角获取相位角。因此，我们可以生成2L离散傅里叶谱数，如下所示：

(12)

第2个L（左）傅里叶谱数字包含有关数字信号的大量信息，因此也可以用来反映蛋白质序列顺序的特征。此外，在L（左）相位分量内联图形，高频分量噪声更大，因此只有低频分量更重要。这就像蛋白质内部运动一样，低频成分在功能上更为重要[20].因此，对于某些物理化学性质，我们只需要考虑1^标准10相分量及其相应的振幅，即。

(13)

至于物理化学性质值，我们采用了每个组成氨基酸的疏水性，以及其亲水性和侧链质量，如[6]。这些值可以从网站获取，网址为http://www.csbio.sjtu.edu.cn/bioinf/PseAAC/PseAAReadme.htm因此，我们可以得到60个傅里叶谱分量。

2.5特征融入伪氨基酸成分（PseAAC）

最后，我们共获得881个特征元素，其中20个来自AAC，800个来自DC，1个来自CF，60个来自FSC。因此，根据PseAAC的一般公式（参见[9])，蛋白质样本可以通过以下公式表示为881-D载体

(14)

哪里

（15）

哪里内联图形是氨基酸组成，是来自二肽组成、复杂性因子和傅里叶谱分量的剩余861（=881-20）个特征元素；是权重因素。在这项研究中，DC的所有特征元素的权重因子设置为20，对于来自CF的人员，以及对于FSC人员。

2.6模糊K最近邻（FKNN）分类器

这个K（K）-最近的邻居(K（K）-NN）规则[21]是执行非参数分类的最简单但功能强大的方法之一。的主要思想K（K）-NN可以表示为：给定一个标签未知的测试样本，其标签是根据其标签分配的K（K）训练集中最近的邻居。最近K（K）-神经网络分类器已成功用于预测蛋白质亚细胞定位[22]，膜蛋白类型，蛋白酶类型，以及许多其他蛋白质属性（参见最近综述中引用的一长串论文[9]). 为了直观地说明如何K（K）-NN分类器工作，见图5[9].

模糊的K（K）-NN分类方法[23]是K（K）-NN分类系列。而不是根据来自K（K）最近邻，它试图估计表示查询样本属于相关类的程度的隶属度值。显然，任何特征描述都不可能包含完整的信息，这会导致分类不明确。有鉴于此，模糊原理在这种情况下是非常合理和特别有用的。

假设内联图形是表示训练集中的蛋白质类：，其中表示我-第个类。因此，对于查询蛋白，它的模糊隶属度值我-第h类由以下公式给出：

(16)

哪里K（K）是计算的最近邻居的数量；内联图形是蛋白质的模糊隶属值到我-th类（如果是; 否则为0）；是查询蛋白之间的距离及其j-th最近蛋白在训练数据集中；和是模糊系数，用于确定在计算每个最近邻居对成员值的贡献时，距离的权重有多大。可以为例如欧几里德距离、汉明距离和马氏距离[11],[24]本文使用了欧几里德度量。的值内联图形和稍后将提到。计算完查询蛋白的所有成员身份后，将其分配给具有最高成员身份值的类；即查询蛋白的预测类应该是

(17)

哪里内联图形是的论点最大化.

由此建立的预测器称为NR-2L型，其中“2L”表示由两层组成的预测。第1个^标准层是将查询蛋白识别为NR或非NR；如果是NR，则2^第图层将自动继续，以进一步识别七个子家族中的NR。为了提供直观的图片，以下给出了显示分类器工作过程的流程图图2 .

T1表示从支持信息S1用于训练一级预测；T2表示来自支持信息S1用于训练二级预测。有关进一步解释，请参阅正文。

结果和讨论

在统计预测中，通常使用以下三种交叉验证方法来检验预测因子在实际应用中的有效性：独立数据集检验、二次抽样检验和折刀检验[25]然而，如公式28-32所示[9]在这三种交叉验证方法中，刀切检验的任意性最小，对于给定的基准数据集总是能产生唯一的结果，因此研究人员越来越广泛地使用刀切检验来检验各种预测的准确性（参见，例如。，[26],[27],[28],[29],[30],[31],[32]). 因此，这里还采用了折刀试验来检验当前预测值的质量。”

参数的值内联图形和在里面等式16通过二维搜索优化总体折刀成功率来确定( 图3 ). 研究发现，当和在第一级，而和在第二层。因此，通过优化的参数，对独立数据集中的蛋白质进行了进一步的预测。折刀试验和独立试验获得的成功率如下所示表2 和表3 分别用于第一级和第二级。通过折刀测试对基准数据集中每个蛋白质的预测结果内联图形在中给出支持信息S3，以及独立测试集中每个蛋白质的预测结果在中给出支持信息S4.

（a）通过一级预测得到的结果，以及（b）通过二级预测获得的结果，其中参数和在公式16中定义。

表2。通过折刀试验和独立数据集试验预测NR和非NR识别的成功率和MCC指数。

属性	刀切法测试		独立数据集测试
	行政协调会	电动机控制中心	行政协调会	电动机控制中心
尼泊尔卢比		0.83		0.96
非NR		0.83		0.96
总体

在新选项卡中打开

表3。通过jackknife检验和独立检验鉴定NR亚家族的预测成功率和MCC指数。

NR亚家族	刀切法测试		独立数据集测试
	行政协调会	电动机控制中心	行政协调会	电动机控制中心
尼泊尔卢比1		0.88		0.99
尼泊尔卢比2		0.85		1
尼泊尔卢比3		0.86		1
尼泊尔卢比4		0.70		0.98
尼泊尔卢比5		0.86		0.98
尼泊尔卢比6		1	不适用	不适用
尼泊尔卢比		0.86		1
总体

在新选项卡中打开

从中可以看出表2 和表3 ，通过折刀试验和独立数据集试验确定NR及其亚家族的成功率非常高，表明NR-2L型预测器在为基础研究和药物开发产生可靠结果方面非常有希望。

为了进一步评估NR-2L型马太相关系数（MCC）指数也是统计学中另一个广泛使用的标准。MCC指数的定义如下

(18)

其中TP代表真阳性；TN，真负数；FP，假阳性；和FN，假阴性（参见图4). 由此获得的相应MCC值也在表2和表3从中我们可以看出，NR-2L不仅具有高精度，而且即使子集大小非常不同，也相当稳定。

（一） TP，正确预测阳性数据集的真阳性象限（绿色），（II）FP，错误预测阴性数据集的假阳性象限；（三） TN，正确预测负数据集的真负象限（蓝色）；以及（IV）FN，用于正数据集的错误预测的假负象限（粉红色）。

此外，在表4，其中分别列出了通过使用不同功能获得的成功率。从表中可以看出，在五种特征组合中，AAC+DC（0）对成功预测的贡献最大。

表4。通过分别使用基准数据集上的不同特征，在识别NR亚家族时获得的折刀成功率支持信息S1.

功能模式	AAC公司	AAC+DC（0）	AAC+DC（1）	AAC+CF公司	AAC+FSC
成功率	66.67%	81.76%	80.50%	72.33%	73.58%

在新选项卡中打开

中列出的结果表2,三、和4为基准数据集获得了60%的阈值，以排除那些具有内联图形将序列标识与同一子集中的任何其他序列标识配对。为了显示这些阈值对预测结果的影响，我们对按照“基准数据集”一节中描述的完全相同的程序构建的数据集进行了广泛的研究，但是，截止阈值分别为40%、50%、60%、70%。由此获得的结果如下所示表5从中我们可以看出，截止阈值越大，基准数据集越不严格，折刀测试的总体成功率越高，这与中所阐述的说明完全一致[9].

表5。识别具有不同冗余减少截止阈值的NR亚家族时获得的折弯成功率^一.

冗余子系列	40%	50%	60%	70%
尼泊尔卢比1
尼泊尔卢比2
尼泊尔卢比3
尼泊尔卢比4
尼泊尔卢比5
尼泊尔卢比6
尼泊尔卢比
总体

在新选项卡中打开

^一

我们没有消除NR6亚家族的冗余，因为它只包含5个核受体。如果对该类也执行了冗余截止操作，那么剩下的样本将太少，不会有任何统计意义。

由于NRs的功能重要性及其序列的迅速增加，基于序列信息开发一种可靠的预测器来识别NRs及其子家族是重要且可行的。本研究中开发的NR-2L预测器可用于解决这类问题。NR-2L取得的高成功率再次表明，通过将几种不同的序列衍生特征融合到PseAAC中来构建蛋白质样本以识别其属性，这确实是一种有效的方法。预计NR-2L可能成为加快新发现核受体蛋白特征化速度的有用工具，或者至少可能在这方面发挥其他方法的重要补充作用。为了方便生物学家和药理学家使用NR-2L，已在http://icpr.jci.edu.cn/bioinfo/NR2L用户可以在短时间内轻松获得所需的结果，即使是对于大量的查询蛋白质序列。此外，作为备份，NR-2L的web服务器也可以访问http://www.jci-bioinfo.cn/NR2L以防前一个链接断开。根据要求，NR-2L的所有程序代码可用于非商业用途。

支持信息

支持信息S1

训练数据集S包含500个非NR蛋白和159个NR蛋白，根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)：（1）NR1：甲状腺激素样；（2） NR2:HNF4类；（3） NR3：雌激素样；（4） NR4：神经生长因子IB样；（5） NR5:fushi tarazu-F1类；（6） NR6：生殖细胞核因子样；和（7）NR0：刀型和DAX型。给出了登录号和序列。除NR6亚家族外，所包含的蛋白质与同一亚群中的任何其他蛋白质都没有≥60%的配对序列一致性。

（PDF格式）

单击此处查看其他数据文件。^{（664.3KB，pdf）}

支持信息S2

独立测试数据集ST包含500个非NR蛋白和568个NR蛋白，根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)（1）NR1：甲状腺激素样；（2） NR2:HNF4类；（3） NR3：雌激素样；（4） NR4：神经生长因子IB样；（5） NR5:fushi tarazu-F1类；（6） NR6：生殖细胞核因子样；和（7）NR0：刀型和DAX型。给出了登录号和序列。这里包含的所有蛋白质都没有出现在训练数据集S中。

（PDF格式）

单击此处查看其他数据文件。^{（915.4KB，pdf）}

支持信息S3

NR-2L对数据集S中159个NR和500个非NR获得的弯折结果列表（参见。支持信息S1)以及NucleaRDB或UniProt中注释的相应观测结果。

（PDF格式）

单击此处查看其他数据文件。^{（219.4KB，pdf）}

支持信息S4

NR-2L对独立测试数据集ST中的568个NR和500个非NR获得的结果列表（参见。支持信息S2)以及NucleaRDB或UniProt中注释的相应观测结果。

（PDF格式）

单击此处查看其他数据文件。^{（328.6KB，pdf）}

致谢

作者谨感谢尼尔·哈斯拉姆教授提出的建设性建议。作者还想感谢两位匿名审稿人的宝贵意见，这对加强论文的介绍非常有帮助。

脚注

竞争利益：提交人声明，不存在相互竞争的利益。

基金：这项工作得到了国家自然科学基金（No.60961003）、教育部重点项目（No.210116）、江西省国家自然科学研究基金（2009GZS0064和2010GZS0122）、江苏省教育厅（No.GJJ09271）的资助，江西省青年科学家（井冈之星）培养计划。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。

工具书类

1Altucci L，Gronemeyer H。细胞生与死中的核受体。内分泌与代谢趋势。2001;12:460–468. doi:10.1016/s1043-2760（01）00502-1。[内政部] [公共医学] [谷歌学者]
2Mangelsdorf DJ、Thummel C、Beato M、Herrlich P、Schutz G等。核受体超家族：第二个十年。单元格。1995年；83:835–839. doi:10.1016/0092-8674（95）90199-x。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
三。Robinson-Rechavi M，Garcia HE，Laudet V.核受体超家族。细胞科学杂志。2003;116:585–586. doi:10.1242/jcs.00247。[内政部] [公共医学] [谷歌学者]
4Florence H、Gerrit V、Fred EC。收集和收集生物数据：GPCRDB和NucleaRDB信息系统。核酸研究。2001;29:346–349. doi:10.1093/nar/29.1.346。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
5Altschul SF、Madden TL、Schäffer AA、Zhang J、ZhangZ等。缺口BLAST和PSI-BLAST：新一代蛋白质数据库搜索程序。核酸研究1997；25:3389–3402. doi:10.1093/nar/25.17.3389。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
6周家川。使用伪氨基酸成分预测蛋白质细胞属性。蛋白质。2001;43:246–255. doi:10.1002/port.1035。[内政部] [公共医学] [谷歌学者]
7Bhasin M，Raghava GPS。基于氨基酸组成和二肽组成的核受体分类。生物化学杂志。2004;279:23262–23266. doi:10.1074/jbc。M401932200。[内政部] [公共医学] [谷歌学者]
8高庆斌，金振聪，叶XF，吴C，何J.用最佳伪氨基酸组成预测核受体。分析生物化学。2009;387:54–59. doi:10.1016/j.ab.2009.01.018。[内政部] [公共医学] [谷歌学者]
9周家川。关于蛋白质属性预测和伪氨基酸组成的一些评论（50周年回顾）。理论生物学杂志。2011;273:236–247. doi:10.1016/j.jtbi.2010.12.24。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
10Li W，Godzik A.Cd-hit：一个快速程序，用于聚类和比较大组蛋白质或核苷酸序列。生物信息学。2006;22:1658–1659. doi:10.1093/bioinformatics/btl158。[内政部] [公共医学] [谷歌学者]
11周家川。一种预测（20–1）-D氨基酸组成空间中蛋白质结构类的新方法。蛋白质：结构、功能和生物信息学。1995年；21:319–344. doi:10.1002/port.340210406。[内政部] [公共医学] [谷歌学者]
12Nakashima H，Nishikawa K，Ooi T。蛋白质的折叠类型与氨基酸组成有关。生物化学杂志。1986;99:153–162. doi:10.1093/oxfordjournals.jbchem.a135454。[内政部] [公共医学] [谷歌学者]
13周GP。关于蛋白质结构类预测的有趣争议。蛋白质化学杂志。1998;17:729–738. doi:10.1023/a:1020713915365。[内政部] [公共医学] [谷歌学者]
14周GP，K博士。凋亡蛋白的亚细胞定位预测。蛋白质：结构、功能和遗传学。2003;50:44–48. doi:10.1002/port.10251。[内政部] [公共医学] [谷歌学者]
15刘伟，周朝中。蛋白质二级结构含量预测。蛋白质工程，1999；12:1041–1050. doi:10.1093/protein/12.12.1041。[内政部] [公共医学] [谷歌学者]
16周家川。用于预测蛋白质中HIV蛋白酶裂解位点的矢量化序列耦合模型。生物化学杂志。1993;268:16938–16948.[公共医学] [谷歌学者]
17周家川。综述：预测蛋白质中的急转弯及其类型。分析生物化学。2000;286:1–16. doi:10.1006/abio.2000.4757。[内政部] [公共医学] [谷歌学者]
18肖X，邵SH，黄ZD，周KC。用伪氨基酸组成预测蛋白质结构类别：用复杂性度量因子探讨。计算化学杂志。2006;27:478–482。doi:10.1002/jcc.20354。[内政部] [公共医学] [谷歌学者]
19Gusev VD，Nemytikova LA，Chuzhanova NA。关于遗传序列的复杂性度量。生物信息学。1999;15:994–999. doi:10.1093/bioinformatics/15.12.994。[内政部] [公共医学] [谷歌学者]
20周家川。综述：生物大分子的低频集体运动及其生物功能。生物物理化学。1988;30:3–48. doi:10.1016/0301-4622（88）85002-6。[内政部] [公共医学] [谷歌学者]
21Cover T，Hart P.最近邻模式分类。IEEE信息论事务。1967;13:21–27.[谷歌学者]
22Chou KC，Wu ZC，Xiao X.iLoc-Euk：预测单复合体和复合真核蛋白亚细胞定位的多标记分类器。《公共科学图书馆·综合》。2011;6:e18258。doi:10.1371/journal.pone.0018258。[内政部] [PMC免费文章] [公共医学] [谷歌学者]
23Keller JM、Gray MR、Givens JAJ。一种快速的K-最近邻算法。IEEE系统、人和控制论事务。1985;15:580–585.[谷歌学者]
24关于统计学中的广义距离。印度国家科学研究院。1936;2:49–55.[谷歌学者]
25周朝中，张春涛。综述：蛋白质结构类的预测。生物化学和分子生物学评论。1995年；30:275–349. doi:10.3109/10409239509083488。[内政部] [公共医学] [谷歌学者]
26Liu T，Jia C.一种使用预测的二级结构信息的高精度蛋白质结构类预测算法。理论生物学杂志。2010;267:272–275. doi:10.1016/j.jtbi.2010.09.007。[内政部] [公共医学] [谷歌学者]
27Masso M，Vaisman II。基于知识的计算突变用于预测人类非同义单核苷酸多态性的潜在疾病。理论生物学杂志。2010;266:560–568. doi:10.1016/j.jtbi.2010.07.026。[内政部] [公共医学] [谷歌学者]
28王涛，夏涛，胡XM。预测膜蛋白类型的几何保持投影算法。理论生物学杂志。2010;262:208–213。doi:10.1016/j.jtbi.2009.09.027。[内政部] [公共医学] [谷歌学者]
29Joshi RR，Sekharan S.蛋白质二级结构基序的特征肽。蛋白质和肽字母。2010;17:1198–1206. doi:10.2174/0929686610792231500。[内政部] [公共医学] [谷歌学者]
30Kandaswamy KK、Pugalenthi G、Moller S、Hartmann E、Kalies KU等。通过一种新的伪氨基酸组成模式，用遗传算法和支持向量机预测凋亡蛋白的位置。蛋白质和肽字母。2010;17:1473–1479. doi:10.2174/0929866511009011473。[内政部] [公共医学] [谷歌学者]
31Liu T，Zheng X，Wang C，Wang J.使用伪氨基酸成分预测凋亡蛋白的亚细胞位置：自协方差变换方法。蛋白质和肽字母。2010;17:1263–1269. doi:10.2174/092986610792231528。[内政部] [公共医学] [谷歌学者]
32Mohabatkar H.使用Chou的伪氨基酸组成预测细胞周期蛋白。蛋白质和肽字母。2010;17:1207–1214. doi:10.2174/092986610792231564。[内政部] [公共医学] [谷歌学者]

关联数据

本节收集本文中包含的任何数据引用、数据可用性声明或补充材料。

补充资料

支持信息S1

训练数据集S包含500个非NR蛋白和159个NR蛋白，根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)（1）NR1：甲状腺激素样；（2） NR2:HNF4类；（3） NR3：雌激素样；（4） NR4：神经生长因子IB样；（5） NR5:fushi tarazu-F1类；（6） NR6：生殖细胞核因子样；和（7）NR0：刀型和DAX型。给出了登录号和序列。除NR6亚家族外，所包含的蛋白质与同一亚群中的任何其他蛋白质都没有≥60%的配对序列一致性。

（PDF格式）

单击此处查看其他数据文件。^{（664.3KB，pdf）}

支持信息S2

（PDF格式）

单击此处查看其他数据文件。^{（915.4KB，pdf）}

支持信息S3

NR-2L对数据集S中159个NR和500个非NR获得的弯折结果列表（参见。支持信息S1)以及NucleaRDB或UniProt中注释的相应观测结果。

（PDF格式）

单击此处查看其他数据文件。^{（219.4KB，pdf）}

支持信息S4

NR-2L对独立测试数据集ST中的568个NR和500个非NR获得的结果列表（参见。支持信息S2)以及NucleaRDB或UniProt中注释的相应观测结果。

（PDF格式）

单击此处查看其他数据文件。^{（328.6KB，pdf）}

[pone.0023505-Altucci1] 1Altucci L，Gronemeyer H。细胞生与死中的核受体。内分泌与代谢趋势。2001;12:460–468. doi:10.1016/s1043-2760（01）00502-1。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Mangelsdorf1] 2Mangelsdorf DJ、Thummel C、Beato M、Herrlich P、Schutz G等。核受体超家族：第二个十年。单元格。1995年；83:835–839. doi:10.1016/0092-8674（95）90199-x。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[pone.0023505-RobinsonRechavi1] 三。Robinson-Rechavi M，Garcia HE，Laudet V.核受体超家族。细胞科学杂志。2003;116:585–586. doi:10.1242/jcs.00247。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Florence1] 4Florence H、Gerrit V、Fred EC。收集和收集生物数据：GPCRDB和NucleaRDB信息系统。核酸研究。2001;29:346–349. doi:10.1093/nar/29.1.346。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[pone.0023505-Altschul1] 5Altschul SF、Madden TL、Schäffer AA、Zhang J、ZhangZ等。缺口BLAST和PSI-BLAST：新一代蛋白质数据库搜索程序。核酸研究1997；25:3389–3402. doi:10.1093/nar/25.17.3389。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[pone.0023505-Chou1] 6周家川。使用伪氨基酸成分预测蛋白质细胞属性。蛋白质。2001;43:246–255. doi:10.1002/port.1035。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Bhasin1] 7Bhasin M，Raghava GPS。基于氨基酸组成和二肽组成的核受体分类。生物化学杂志。2004;279:23262–23266. doi:10.1074/jbc。M401932200。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Gao1] 8高庆斌，金振聪，叶XF，吴C，何J.用最佳伪氨基酸组成预测核受体。分析生物化学。2009;387:54–59. doi:10.1016/j.ab.2009.01.018。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Chou2] 9周家川。关于蛋白质属性预测和伪氨基酸组成的一些评论（50周年回顾）。理论生物学杂志。2011;273:236–247. doi:10.1016/j.jtbi.2010.12.24。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[pone.0023505-Li1] 10Li W，Godzik A.Cd-hit：一个快速程序，用于聚类和比较大组蛋白质或核苷酸序列。生物信息学。2006;22:1658–1659. doi:10.1093/bioinformatics/btl158。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Chou3] 11周家川。一种预测（20–1）-D氨基酸组成空间中蛋白质结构类的新方法。蛋白质：结构、功能和生物信息学。1995年；21:319–344. doi:10.1002/port.340210406。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Nakashima1] 12Nakashima H，Nishikawa K，Ooi T。蛋白质的折叠类型与氨基酸组成有关。生物化学杂志。1986;99:153–162. doi:10.1093/oxfordjournals.jbchem.a135454。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Zhou1] 13周GP。关于蛋白质结构类预测的有趣争议。蛋白质化学杂志。1998;17:729–738. doi:10.1023/a:1020713915365。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Zhou2] 14周GP，K博士。凋亡蛋白的亚细胞定位预测。蛋白质：结构、功能和遗传学。2003;50:44–48. doi:10.1002/port.10251。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Liu1] 15刘伟，周朝中。蛋白质二级结构含量预测。蛋白质工程，1999；12:1041–1050. doi:10.1093/protein/12.12.1041。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Chou4] 16周家川。用于预测蛋白质中HIV蛋白酶裂解位点的矢量化序列耦合模型。生物化学杂志。1993;268:16938–16948.[公共医学] [谷歌学者]

[pone.0023505-Chou5] 17周家川。综述：预测蛋白质中的急转弯及其类型。分析生物化学。2000;286:1–16. doi:10.1006/abio.2000.4757。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Xiao1] 18肖X，邵SH，黄ZD，周KC。用伪氨基酸组成预测蛋白质结构类别：用复杂性度量因子探讨。计算化学杂志。2006;27:478–482。doi:10.1002/jcc.20354。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Gusev1] 19Gusev VD，Nemytikova LA，Chuzhanova NA。关于遗传序列的复杂性度量。生物信息学。1999;15:994–999. doi:10.1093/bioinformatics/15.12.994。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Chou6] 20周家川。综述：生物大分子的低频集体运动及其生物功能。生物物理化学。1988;30:3–48. doi:10.1016/0301-4622（88）85002-6。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Cover1] 21Cover T，Hart P.最近邻模式分类。IEEE信息论事务。1967;13:21–27.[谷歌学者]

[pone.0023505-Chou7] 22Chou KC，Wu ZC，Xiao X.iLoc-Euk：预测单复合体和复合真核蛋白亚细胞定位的多标记分类器。《公共科学图书馆·综合》。2011;6:e18258。doi:10.1371/journal.pone.0018258。[内政部] [PMC免费文章] [公共医学] [谷歌学者]

[pone.0023505-Keller1] 23Keller JM、Gray MR、Givens JAJ。一种快速的K-最近邻算法。IEEE系统、人和控制论事务。1985;15:580–585.[谷歌学者]

[pone.0023505-Mahalanobis1] 24关于统计学中的广义距离。印度国家科学研究院。1936;2:49–55.[谷歌学者]

[pone.0023505-Chou8] 25周朝中，张春涛。综述：蛋白质结构类的预测。生物化学和分子生物学评论。1995年；30:275–349. doi:10.3109/10409239509083488。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Liu2] 26Liu T，Jia C.一种使用预测的二级结构信息的高精度蛋白质结构类预测算法。理论生物学杂志。2010;267:272–275. doi:10.1016/j.jtbi.2010.09.007。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Masso1] 27Masso M，Vaisman II。基于知识的计算突变用于预测人类非同义单核苷酸多态性的潜在疾病。理论生物学杂志。2010;266:560–568. doi:10.1016/j.jtbi.2010.07.026。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Wang1] 28王涛，夏涛，胡XM。预测膜蛋白类型的几何保持投影算法。理论生物学杂志。2010;262:208–213。doi:10.1016/j.jtbi.2009.09.027。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Joshi1] 29Joshi RR，Sekharan S.蛋白质二级结构基序的特征肽。蛋白质和肽字母。2010;17:1198–1206. doi:10.2174/0929686610792231500。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Kandaswamy1] 30Kandaswamy KK、Pugalenthi G、Moller S、Hartmann E、Kalies KU等。通过一种新的伪氨基酸组成模式，用遗传算法和支持向量机预测凋亡蛋白的位置。蛋白质和肽字母。2010;17:1473–1479. doi:10.2174/0929866511009011473。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Liu3] 31Liu T，Zheng X，Wang C，Wang J.使用伪氨基酸成分预测凋亡蛋白的亚细胞位置：自协方差变换方法。蛋白质和肽字母。2010;17:1263–1269. doi:10.2174/092986610792231528。[内政部] [公共医学] [谷歌学者]

[pone.0023505-Mohabatkar1] 32Mohabatkar H.使用Chou的伪氨基酸组成预测细胞周期蛋白。蛋白质和肽字母。2010;17:1207–1214. doi:10.2174/092986610792231564。[内政部] [公共医学] [谷歌学者]

PERMALINK公司

NR-2L：基于序列衍生特征识别核受体亚家族的两级预测因子

王璞（Pu Wang）

宣晓

郭振秋

角色

摘要

介绍

材料和方法

1.基准数据集

表1。学习数据集的细分和测试数据集.

2.序列衍生特征

2.1氨基酸组成（AAC）

2.2二肽组成（DC）

图1。显示沿着蛋白质链具有不同间隙的二肽的示意图。

2.3复杂性因素（CF）

2.4傅里叶频谱成分（FSC）

2.5特征融入伪氨基酸成分（PseAAC）

2.6模糊K最近邻（FKNN）分类器

图2。显示NR-2L操作过程的流程图。

结果和讨论

图3。3D图形显示不同参数的折刀成功率。

表2。通过折刀试验和独立数据集试验预测NR和非NR识别的成功率和MCC指数。

表3。通过jackknife检验和独立检验鉴定NR亚家族的预测成功率和MCC指数。

图4。预测结果在四个象限中的分布。

表4。通过分别使用基准数据集上的不同特征，在识别NR亚家族时获得的折刀成功率支持信息S1.

表5。识别具有不同冗余减少截止阈值的NR亚家族时获得的折弯成功率^一.

支持信息

致谢

脚注

工具书类

关联数据

补充资料

其他格式

行动

股份

PERMALINK公司

资源

引用

添加到集合

PERMALINK公司

NR-2L：基于序列衍生特征识别核受体亚家族的两级预测因子

王璞（Pu Wang）

宣晓

郭振秋

角色

摘要

介绍

材料和方法

1.基准数据集

表1。学习数据集的细分和测试数据集.

2.序列衍生特征

2.1氨基酸组成（AAC）

2.2二肽组成（DC）

图1。显示沿着蛋白质链具有不同间隙的二肽的示意图。

2.3复杂性因素（CF）

2.4傅里叶频谱成分（FSC）

2.5特征融入伪氨基酸成分（PseAAC）

2.6模糊K最近邻（FKNN）分类器

图2。显示NR-2L操作过程的流程图。

结果和讨论

图3。3D图形显示不同参数的折刀成功率。

表2。通过折刀试验和独立数据集试验预测NR和非NR识别的成功率和MCC指数。

表3。通过jackknife检验和独立检验鉴定NR亚家族的预测成功率和MCC指数。

图4。预测结果在四个象限中的分布。

表4。通过分别使用基准数据集上的不同特征，在识别NR亚家族时获得的折刀成功率支持信息S1.

表5。识别具有不同冗余减少截止阈值的NR亚家族时获得的折弯成功率一.

支持信息

致谢

脚注

工具书类

关联数据

补充资料

其他格式

行动

股份

PERMALINK公司

资源

类似文章

其他文章引用

NCBI数据库链接

表5。识别具有不同冗余减少截止阈值的NR亚家族时获得的折弯成功率^一.