NR-2L: A Two-Level Predictor for Identifying Nuclear Receptor Subfamilies Based on Sequence-Derived Features

Pu Wang; Xuan Xiao; Kuo-Chen Chou

doi:10.1371/journal.pone.0023505

公共科学图书馆一号。2011; 6（8）：e23505。

2011年8月15日在线发布。数字对象标识：10.1371/journal.pone.0023505

预防性维修识别码：下午3156231

PMID：21858146

NR-2L：基于序列衍生特征识别核受体亚家族的两级预测因子

王璞（Pu Wang），¹ 宣晓，^1，^2，^*和郭振秋²

尼尔·詹姆斯·哈斯拉姆，编辑器

作者信息文章注释版权和许可信息 PMC免责声明

关联数据

补充资料: 支持信息S1：训练数据集S包含500个非NR蛋白和159个NR蛋白，根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)（1）NR1：甲状腺激素样；（2） NR2:HNF4类；（3） NR3：雌激素样；（4） NR4：神经生长因子IB样；（5） NR5:fushi tarazu-F1类；（6） NR6：生殖细胞核因子样；和（7）NR0：刀型和DAX型。给出了登录号和序列。除NR6亚家族外，所包含的蛋白质与同一亚群中的任何其他蛋白质都没有≥60%的配对序列一致性。
（PDF格式）
电话：0023505.s001.pdf（664000）
GUID:8350BE0C-5B6D-4756-BE3F-C91732F4D511
支持信息S2：独立测试数据集ST包含500个非NR蛋白和568个NR蛋白，根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)（1）NR1：甲状腺激素样；（2） NR2:HNF4类；（3） NR3：雌激素样；（4） NR4：神经生长因子IB样；（5） NR5:fushi tarazu-F1类；（6） NR6：生殖细胞核因子样；和（7）NR0：刀型和DAX型。给出了登录号和序列。这里包含的所有蛋白质都没有出现在训练数据集S中。
（PDF格式）
电话：0023505.s002.pdf（915K）
GUID:68EAD486-2ABE-476C-8829-6619CFCE418C
支持信息S3：NR-2L对数据集S中159个NR和500个非NR获得的弯折结果列表（参见。支持信息S1)以及NucleaRDB或UniProt中注释的相应观测结果。
（PDF格式）
电话：0023505.s003.pdf（219K）
GUID:5E5A15F9-E92C-4587-AE1F-583AD2C1EEDD
支持信息S4：NR-2L对独立测试数据集ST中568个NR和500个非NR获得的结果列表（参见。支持信息S2)以及NucleaRDB或UniProt中注释的相应观测结果。
（PDF格式）
电话：0023505.s004.pdf（329K）
GUID:D80E9933-597D-4C8A-8213-11211C59C658

摘要

核受体是动物体内最丰富的转录调控因子之一。它们调节多种功能，如体内平衡、生殖、发育和新陈代谢。因此，NRs是药物开发的一个非常重要的目标。核受体是一个与系统发育相关的蛋白质超家族，由于其结构域的多样性，已被细分为不同的亚家族。在这项研究中，开发了一种称为NR-2L的两级预测因子，可用于仅根据其序列信息识别查询蛋白是否为核受体；如果是，预测将自动继续，以在以下七个亚家族中进一步确定它：（1）甲状腺激素样（NR1），（2）HNF4样（NR2），（3）雌激素样，（4）神经生长因子IB样（NR4），（5）福氏塔拉祖-F1样（NR5），（6）生殖细胞核因子样（NR6）和(7)刀状（NR0）。通过模糊识别K（K）基于伪氨基酸组成的最近邻分类器（FK-NN），该伪氨基酸组成由蛋白质序列衍生的各种物理化学和统计特征组成，例如氨基酸组成、二肽组成、复杂性因子和低频傅里叶谱成分。作为证明，通过从NucleaRDB和UniProt获得的低冗余度基准数据集可以看出，在第一级和第二级，折刀测试的总体成功率分别约为93%和89%。高成功率表明，新的两级预测器可以成为识别NR及其子家族的有用工具。作为用户友好的网络服务器，NR-2L型可在任一位置自由访问http://icpr.jci.edu.cn/bioinfo/NR2L或http://www.jci-bioinfo.cn/NR2L。每个作业提交给NR-2L型可以包含多达500个查询蛋白序列，并在2分钟内完成。查询蛋白的数量越少，时间通常越短NR-2L型可根据要求用于非商业目的。

介绍

核受体（NR）是调节关键基因网络的关键转录因子，对细胞生长、分化和内环境稳定至关重要[1]，[2]它们作为配体激活的转录因子发挥作用，从而在控制这些过程的信号分子和转录反应之间提供直接联系。其中许多受体是治疗乳腺癌、糖尿病、炎症疾病或骨质疏松症等疾病的潜在靶点。核受体形成一个系统发育相关蛋白质超家族，它们共享一个共同的结构组织。N末端区域（A/B域）是高度可变的，并且包含至少一个本质上活跃的交易激活区域（at-1）和几个自治的交易激活域（AD）；A/B结构域的长度可变，从少于50个氨基酸到超过500个氨基酸。最保守的区域是DNA结合域（DBD，C域），它包含一个短的基序，负责对通常包含AGGTCT基序的序列进行DNA结合特异性。非服务铰链（D域）位于DNA结合域和配体结合域之间，包含核定位信号。配体结合结构域（LBD，E结构域）是最大的结构域。它负责许多功能，如配体诱导、反式激活和抑制。F域位于E域的C端，E域的序列极其可变，其结构和功能未知[3]。并非所有NR都包含所有六个域。

核受体的重要性促使从众多研究领域积累了迅速增加的数据：序列、表达模式、三维结构、蛋白质相互作用、靶基因、生理作用、突变等。这些收集到的数据对数据挖掘和知识发现非常有用。根据保守结构域的排列，NR超家族被划分为七个亚家族[3]，[4]作为一个新兴的分支，对新型核受体亚家族的认识对于制定上述疾病的治疗策略至关重要，因为核受体的功能与其类别密切相关。

尽管基于序列相似性搜索的工具，如BLAST[5]，通常用于进行预测。然而，当查询蛋白与已知属性的序列没有显著的相似性时，这种方法就失败了。因此，提出了各种离散模型。常用的特征提取方法是基于伪氨基酸组成（PseAAC）的概念，这是Chou在研究蛋白质亚细胞位置预测和膜蛋白类型预测时提出的[6]，其中详细描述了PseAAC。

2004年，巴辛和拉格哈瓦[7]提出了一种基于SVM预测因子和氨基酸组成和二肽组成输入特征的核受体亚家族预测方法。最近，Gao等人。[8]重建NR预测数据集，并引入PseAAC[6]作为特征表达，从而提高了预测质量。然而，现有的预测因子存在以下缺点：(1)构建用于训练预测因子的数据集涵盖非常有限的NRs亚家族。例如，这些作者构建的数据集[7]，[8]仅涵盖四个亚家族。（2）他们设置的去除同源序列的截止阈值为90%，这意味着这样构建的基准数据集将允许包含那些与其他蛋白质具有高达90%配对序列一致性的蛋白质。为了避免同源性偏差，在构建基准数据集时应采用更严格的阈值。(3)现有的预测器无法过滤无关序列，所有输入序列都将被假定为属于NR，因此可能产生无意义的结果。(4)现有方法没有提供web服务器，或者它们提供的web服务器目前无法工作，因此它们的应用价值非常有限。

本研究旨在开发一种新的预测因子，称为NR-2L型通过解决上述四个缺点。为了扩大实际应用的覆盖范围并减少同源性偏差，构建了新的基准数据集，并开发了一个两级预测器。新的数据集涵盖了七个亚家族，其中没有一个蛋白质包含保存图片、插图等的外部文件。对象名称为pone.002355.e001.jpg 将序列标识与同一子集中的任何其他序列标识配对。新的基准数据集中还包括用于训练预测因子以识别非NR蛋白的非NR序列。为了使预测器更强大，使用了更多的序列衍生特征。这些功能能够通过PseAAC捕获关键信息[6]以及蛋白质的各种物理化学性质。最终将得到的特征向量输入到一个简单但功能强大的分类引擎，称为模糊K最近邻算法，以识别NR及其子家族。为了方便用户并处理某些链接可能偶尔关闭的情况NR-2L型已在两家公司成立http://icpr.jci.edu.cn/bioinfo/NR2L和http://www.jci-bioinfo.cn/NR2L，其中任何一个Multi-Fasta蛋白质序列都可以以批处理模式输入和处理。此外，该算法的源代码可通过电子邮件向相应作者发送请求，用于教育目的和基础研究。

为了开发一种有效的方法来识别蛋白质属性，如NRs及其亚家族，以下五件事是必不可少的[9]:(1)构造一个有效的基准数据集来训练和测试预测器；(2)用一个有效的数学表达式来表示蛋白质样本，该表达式能够真实地反映其与待预测属性的内在相关性；(三)引入或开发强大的算法（或引擎）来操作预测；(4)适当地进行交叉验证测试，以客观地评估预测器的预期准确性；(5)为公众可以访问的预测器建立一个用户友好的网络服务器。下面，让我们详细说明如何处理这些步骤。

材料和方法

1.基准数据集

从核受体数据库（NucleaRDB 5.0版）中收集蛋白质序列http://www.receptors.org/NR网站/，这是一个项目的一部分，该项目致力于构建分子类别特定信息系统（MCSIS），以提供、传播和获取异构数据[4]该数据库已经收集并收获了标记有(1)NR1：甲状腺激素样（甲状腺激素、维甲酸、RAR相关孤儿受体、过氧化物酶体增殖物激活、维生素D3样），(2)NR2:HNF4样（肝细胞核因子4、维甲酸X、无尾样、COUP-TF样、USP）(三)NR3：类雌激素（雌激素、雌激素相关、糖皮质激素类）(4)NR4：神经生长因子IB样（NGFI-B样）(5)NR5:fushi tarazu-F1类(6)NR6：生殖细胞核因子样（生殖细胞核因子），以及(7)NR0：刀样（刀，刀相关，胚胎性腺蛋白，ODR7，三胸）和DAX样（DAX，SHP）。有关数据库的详细信息，请参阅NucleaRDB(http://www.receptors.org/NR网站/). 因为NucleaRDB没有以FASTA格式提供核受体序列，所以我们在指定的URL处读取Web内容，并通过文本传递方法提取所有条目。最初的数据集有727个序列，属于7个核受体亚家族。为了避免任何同源性偏差，CD-HIT程序设置了冗余截断，以筛选那些具有以下特征的序列保存图片、插图等的外部文件。对象名称为pone.002355.e002.jpg 除NR6亚家族外，同一子集中的任何其他序列都具有配对序列一致性，因为它只包含5个核受体蛋白序列[10]。如果也对该类执行了冗余截止操作，则剩下的样本太少，不会有任何统计意义。最终基准数据集，保存图片、插图等的外部文件。对象名称为pone.002355.e003.jpg ，因此获得的包含159个序列，分为7个不同的NR亚科，如表1 其中还收集了500个非NRs蛋白序列保存图片、插图等的外部文件。对象名称为pone.0023505.e004.jpg 训练预测员识别非NR。蛋白质序列保存图片、插图等的外部文件。对象名称为pone.002355.e005.jpg 在UniProt上随机收集网址：http://www.uniprot.org/根据他们在“关键字”字段中的注释，然后进行类似的冗余切断操作，以确保有将序列标识与任何其他标识配对。由此获得的基准数据集的登录号和序列保存图片、插图等的外部文件。对象名称为pone.0023505.e008.jpg 和保存图片、插图等的外部文件。对象名称为pone.002355.e009.jpg 在中给出支持信息S1同时，为了演示当前预测器的实际应用，相应的独立测试数据集和也建造了(表1)在某种程度上，测试数据集中没有蛋白质出现在和.独立测试数据集的登录号和序列保存图片、插图等的外部文件。对象名称为pone.002355.e014.jpg 和在中给出支持信息S2有必要指出，从这些独立数据集得出的结果只是一种证明，不能用于客观衡量预测值的准确性；测量预测器准确性的真正标准应基于折刀试验，稍后将详细说明。

表1

学习数据集的细分和测试数据集.

属性	培训数据集
	设置	子家族	子集	编号
尼泊尔卢比		尼泊尔卢比1		50
		编号2		36
		尼泊尔卢比3		37
		尼泊尔卢比4		7
		尼泊尔卢比5		12
		尼泊尔卢比6		5
		尼泊尔卢比		12
非NR		不适用	不适用	500
	独立测试数据集
尼泊尔卢比		尼泊尔卢比1		231
		尼泊尔卢比2		127
		尼泊尔卢比3		148
		NR4号机组		23
		尼泊尔卢比5		33
		尼泊尔卢比6		0
		尼泊尔卢比		6
非NR		不适用	不适用	500

在单独的窗口中打开

2.序列衍生特征

如中所述[9]为了开发识别蛋白质属性的预测器，关键之一是用一个有效的数学表达式来表示蛋白质样本，该表达式能够真实地反映其与待预测属性的内在相关性。

蛋白质序列保存图片、插图等的外部文件。对象名称为pone.002355.e038.jpg 具有L（左）氨基酸残基可以表示为

(1)

为了从蛋白质序列中获取尽可能多的有用信息，我们将从四个不同的角度来处理这个问题，然后将由此获得的特征元素合并到PseAAC的一般形式中[9].

2.1氨基酸组成（AAC）

如引言中所述，AAC被广泛用于将蛋白质序列转换为20-D（维）数值向量（参见，例如。，[11]，[12]，[13]，[14]). 蛋白质的AAC定义为该蛋白质中20个氨基酸的标准化出现频率；即。，

（2）

哪里保存图片、插图等的外部文件。对象名称为pone.002355.e041.jpg 每个对应于20种天然氨基酸中的一种，以及类型的数量保存图片、插图等的外部文件。对象名称为pone.0023505.e0044.jpg 蛋白质中的氨基酸；虽然是转置运算符。

2.2二肽组成（DC）

传统的二肽（氨基酸对）组成用于捕获蛋白质序列的局部顺序信息，该序列给出固定的模式长度400（20×20）[15].每种二肽的分数公式如下

(3)

哪里保存图片、插图等的外部文件。对象名称为pone.0023505.e047.jpg 是u个-th二肽。此外，表达序列间隙大于二肽对的氨基酸的相互作用( 图1 )，让我们考虑以下一般方程

(4)

哪里克 = 0、1、2或更大，以及保存图片、插图等的外部文件。对象名称为pone.002355.e049.jpg 是u个-th二肽克两个残留物之间的间隙。什么时候？，式4简化为式3，即传统二肽的配方。因此，具有不同间隙的二肽组合物通常可以公式化为

(5)

哪里保存图片、插图等的外部文件。对象名称为pone.002355.e052.jpg 是gap二肽的归一化出现频率.由于本地残留物之间的耦合效应通常强于远程残留物[16]，[17]，这里让我们考虑一下和1分别用DC（0）和DC（1）表示。因此，我们得到保存图片、插图等的外部文件。对象名称为pone.0023505.e056.jpg 用于使用DC配制蛋白质样品的元素，其中400个元素来自DC（0），400个来自DC（1）。

在单独的窗口中打开

图1

显示沿着蛋白质链具有不同间隙的二肽的示意图。

（a）传统的（0-gap）二肽、（b）1-gap二肽和（c）2-gaps二肽，其中代表序列位置1、位置2的氨基酸残基，依此类推。经周允许改编[6].

2.3复杂性因素（CF）

蛋白质序列实际上是一个符号序列，其复杂性度量因子可以用来反映其序列特征或模式，并已成功用于某些蛋白质属性预测[18]在已知的复杂性度量中，Lempel-Ziv（LZ）复杂性[19]反映了序列中保留的顺序，因此在本研究中采用。

序列的LZ复杂性保存图片、插图等的外部文件。对象名称为pone.0023505.e057.jpg 可以通过在某一过程中合成它所需的最少步骤来衡量。对于每个步骤，流程中只允许两个操作：要么生成一个额外的符号，以确保每个组件的唯一性保存图片、插图等的外部文件。对象名称为pone.002355.e058.jpg 或从合成序列的部分复制最长的片段。其子字符串表示为

(6)

复杂性度量因子，保存图片、插图等的外部文件。对象名称为pone.0023505.e060.jpg ，根据以下程序合成的非空序列的定义为

（7）

让我们假设保存图片、插图等的外部文件。对象名称为pone.002355.e062.jpg 已被程序重建到剩余部分、和已新插入。最大字符串为将用表示，其中点表示新插入以检查字符串的其余部分可以通过简单的复制来重建。首先，假设，看看是否保存图片、插图等的外部文件。对象名称为pone.0023505.e070.jpg 可从中复制保存图片、插图等的外部文件。对象名称为pone.002355.e071.jpg ，这意味着删除字符串中的最后一个字符。如果答案是“否”，则插入到后面跟着一个点的序列中。因此，无法通过复制操作获得。如果答案是“是”，则不需要新符号，我们可以继续保存图片、插图等的外部文件。对象名称为pone.002355.e074.jpg 并重复相同的过程。LZ复杂性是点数（如果字符串没有以点结尾，则加一）。例如，对于序列，合成的LZ模式生成以下组件以及相应的复杂性保存图片、插图等的外部文件。对象名称为pone.0023505.e077.jpg :

(8)

2.4傅里叶频谱成分（FSC）

给定蛋白质序列保存图片、插图等的外部文件。对象名称为pone.002355.e079.jpg ，假设是第一个残渣的特定物理化学性质值，第二渣油等等。根据这些属性值，蛋白质序列可以转换为数字信号，我们对其进行离散傅里叶变换，获得频域值，

(9)

哪里j个表示虚数。对于每个保存图片、插图等的外部文件。对象名称为pone.002355.e086.jpg 我们可以计算它的振幅分量和相位分量保存图片、插图等的外部文件。对象名称为pone.0023505.e088.jpg

(10)

(11)

其中腹肌获得复数幅值和角获取相位角。因此，我们可以生成2L离散傅里叶谱数，如下所示：

(12)

第2个L（左）傅里叶谱数字包含有关数字信号的大量信息，因此也可以用来反映蛋白质序列顺序的特征。此外，在L（左）相位分量保存图片、插图等的外部文件。对象名称为pone.002355.e092.jpg ，高频分量噪声更大，因此只有低频分量更重要。这就像蛋白质内部运动一样，低频成分在功能上更为重要[20].因此，对于某些物理化学性质，我们只需要考虑1^标准10个相位分量及其相应的振幅，即。

(13)

至于物理化学性质值，我们采用了每个组成氨基酸的疏水性，以及其亲水性和侧链质量，如[6]。这些值可以从网站获取，网址为http://www.csbio.sjtu.edu.cn/bioinf/PseAAC/PseAAReadme.htm因此，我们可以得到60个傅里叶谱分量。

2.5特征融入伪氨基酸成分（PseAAC）

最后，我们共获得881个特征元素，其中20个来自AAC，800个来自DC，1个来自CF，60个来自FSC。因此，根据PseAAC的一般公式（参见[9])，蛋白质样本可以通过以下公式表示为881-D载体

(14)

哪里

(15)

哪里保存图片、插图等的外部文件。对象名称为pone.002355.e096.jpg 是氨基酸组成，剩下的861个( = 881-20）二肽组成、复杂性因子和傅里叶谱成分的特征元素；是权重因素。在这项研究中，DC的所有特征元素的权重因子设置为20，对于来自CF的人员，以及保存图片、插图等的外部文件。对象名称为pone.002355.e100.jpg 对于FSC人员。

2.6模糊K最近邻分类器

这个K（K）-最近的邻居(K（K）-NN）规则[21]是执行非参数分类的最简单但功能强大的方法之一。的主要思想K（K）-NN可以表示为：给定一个标签未知的测试样本，其标签是根据其标签分配的K（K）训练集中最近的邻居。最近K（K）-神经网络分类器已成功用于预测蛋白质亚细胞定位[22]、膜蛋白类型、蛋白酶类型以及许多其他蛋白质属性（参见最近综述中引用的一长串论文[9]). 为了直观地说明如何K（K）-NN分类器工作，见图5[9].

模糊的K（K）-NN分类方法[23]是K（K）-NN分类系列。而不是根据来自K（K）最近邻，它试图估计表示查询样本属于相关类的程度的隶属度值。显然，任何特征描述都不可能包含完整的信息，这会导致分类不明确。有鉴于此，模糊原理是非常合理的，在这种情况下特别有用。

假设保存图片、插图等的外部文件。对象名称为pone.002355.e101.jpg 是表示训练集中的蛋白质类：，其中保存图片、插图等的外部文件。对象名称为pone.002350.e105.jpg 表示我-第个类。因此，对于查询蛋白，它的模糊隶属度值我-第h类由以下公式给出：

(16)

哪里K（K）是计算的最近邻居的数量；保存图片、插图等的外部文件。对象名称为pone.002355.e108.jpg 是蛋白质的模糊隶属值到我-th类（如果是; 否则为0）；是查询蛋白之间的距离及其j个-th最近蛋白在训练数据集中；和是模糊系数，用于确定在计算每个最近邻居对成员值的贡献时，距离的权重有多大。可以为以下各项选择各种指标保存图片、插图等的外部文件。对象名称为pone.002355.e116.jpg 例如欧几里德距离、汉明距离和马氏距离[11]，[24]本文使用了欧几里德度量。的值和稍后将提到。计算完查询蛋白的所有成员身份后，将其分配给具有最高成员身份值的类；即查询蛋白质的预测类别保存图片、插图等的外部文件。对象名称为pone.002355.e119.jpg 应该是

(17)

哪里保存图片、插图等的外部文件。对象名称为pone.002355.e121.jpg 是的论点最大化.

由此建立的预测器称为NR-2L型，其中“2L”表示由两层组成的预测。第1个^标准层是将查询蛋白识别为NR或非NR；如果是NR，则2^第图层将自动继续，以进一步识别七个子家族中的NR。为了提供直观的图片，以下给出了显示分类器工作过程的流程图图2 .

在单独的窗口中打开

图2

显示NR-2L操作过程的流程图。

T1表示从支持信息S1用于训练一级预测；T2表示来自支持信息S1用于训练二级预测。有关进一步解释，请参阅正文。

结果和讨论

在统计预测中，通常使用以下三种交叉验证方法来检验预测因子在实际应用中的有效性：独立数据集检验、二次抽样检验和折刀检验[25]然而，如公式28-32所示[9]在这三种交叉验证方法中，刀切检验的任意性最小，对于给定的基准数据集总是能产生唯一的结果，因此研究人员越来越广泛地使用刀切检验来检验各种预测的准确性（参见，例如。，[26]，[27]，[28]，[29]，[30]，[31]，[32]). 因此，这里还采用了折刀试验来检验当前预测值的质量。”

参数的值保存图片、插图等的外部文件。对象名称为pone.002355.e124.jpg 和保存图片、插图等的外部文件。对象名称为pone.0023505.e125.jpg 在里面等式16通过二维搜索优化总体折刀成功率来确定( 图3 ). 研究发现，当和在第一级，而和在第二层。因此，利用优化的参数，对独立数据集中的蛋白质进行了进一步预测。中给出了通过升降刀测试和独立测试获得的成功率表2 和表3 分别用于第一级和第二级。通过折刀测试对基准数据集中每个蛋白质的预测结果保存图片、插图等的外部文件。对象名称为pone.002355.e130.jpg 在中给出支持信息S3，以及独立测试集中每个蛋白质的预测结果在中给出支持信息S4.

在单独的窗口中打开

图3

3D图形显示不同参数的折刀成功率。

（a）通过一级预测得到的结果，以及（b）通过二级预测获得的结果，其中参数和在公式16中定义。

表2

通过折刀试验和独立数据集试验预测NR和非NR识别的成功率和MCC指数。

属性	刀切法测试		独立数据集测试
	行政协调会	电动机控制中心	行政协调会	电动机控制中心
尼泊尔卢比		0.83		0.96
非NR		0.83		0.96
总体

在单独的窗口中打开

表3

通过折刀试验和独立试验预测NR亚家族鉴定的成功率和MCC指数。

NR亚家族	刀切法测试		独立数据集测试
	行政协调会	电动机控制中心	行政协调会	电动机控制中心
尼泊尔卢比1		0.88		0.99
尼泊尔卢比2		0.85		1
尼泊尔卢比3		0.86		1
尼泊尔卢比4		0.70		0.98
编号5		0.86		0.98
尼泊尔卢比6		1	不适用	不适用
尼泊尔卢比		0.86		1
总体

在单独的窗口中打开

从中可以看出表2 和表3 ，通过折刀试验和独立数据集试验确定NR及其亚家族的成功率非常高，表明NR-2L型预测器在为基础研究和药物开发产生可靠结果方面非常有希望。

为了进一步评估NR-2L型马太相关系数（MCC）指数也是统计学中另一个广泛使用的标准。MCC指数的定义如下

(18)

其中TP代表真阳性；TN，真负数；FP，假阳性；和FN，假阴性（参见图4). 由此获得的相应MCC值也在表2和表3从中可以看出，NR-2L不仅具有较高的精度，而且即使子集大小相差很大，也相当稳定。

在单独的窗口中打开

图4

预测结果在四个象限中的分布。

（I） TP，用于正数据集的正确预测的真正象限（绿色），（II）FP，用于负数据集的错误预测的假正象限（红色）；（三） TN，正确预测负数据集的真负象限（蓝色）；（IV）FN，错误预测阳性数据集的假阴性象限（粉红色）。

此外，在表4，其中分别列出了通过使用不同功能获得的成功率。从表中可以看出，在五种特征组合中，AAC+DC（0）对成功预测的贡献最大。

表4

通过分别使用基准数据集上的不同特征，在识别NR亚家族时获得的折刀成功率支持信息S1.

功能模式	AAC公司	AAC+DC（0）	AAC+DC（1）	AAC+CF	AAC和FSC
成功率	66.67%	81.76%	80.50%	72.33%	73.58%

在单独的窗口中打开

中列出的结果表2，,3,三、和和44为基准数据集获得了60%的阈值，以排除那些具有保存图片、插图等的外部文件。对象名称为pone.002355.e154.jpg 将序列标识与同一子集中的任何其他序列标识配对。为了显示这些阈值对预测结果的影响，我们对按照“基准数据集”一节中描述的完全相同的程序构建的数据集进行了广泛的研究，但是，截止阈值分别为40%、50%、60%、70%。由此获得的结果如下所示表5从中我们可以看出，截止阈值越大，基准数据集越不严格，折刀测试的总体成功率越高，这与中所阐述的说明完全一致[9].

表5

识别具有不同冗余减少截止阈值的NR亚家族时获得的折弯成功率^一.

冗余子系列	40%	50%	60%	70%
尼泊尔卢比1
尼泊尔卢比2
尼泊尔卢比3
NR4号机组
编号5
尼泊尔卢比6
尼泊尔卢比
总体

在单独的窗口中打开

^一我们没有消除NR6亚家族的冗余，因为它只包含5个核受体。如果对该类也执行了冗余截止操作，那么剩下的样本将太少，不会有任何统计意义。

由于NRs的功能重要性及其序列的迅速增加，基于序列信息开发一种可靠的预测器来识别NRs及其子家族是重要且可行的。本研究开发的NR-2L预测仪可用于解决此类问题。NR-2L取得的高成功率再次表明，通过将几种不同的序列衍生特征融合到PseAAC中来构建蛋白质样本以识别其属性，这确实是一种有效的方法。预计NR-2L可能成为加快新发现核受体蛋白特征化速度的有用工具，或者至少可能在这方面发挥其他方法的重要补充作用。为了方便生物学家和药理学家使用NR-2L，已在http://icpr.jci.edu.cn/bioinfo/NR2L，即使对于大量的查询蛋白质序列，用户也可以在短时间内轻松地获得所需的结果。此外，作为备份，NR-2L的web服务器也可以访问http://www.jci-bioinfo.cn/NR2L以防前一个链接断开。根据要求，NR-2L的所有程序代码可用于非商业用途。

支持信息

支持信息S1

训练数据集S包含500个非NR蛋白和159个NR蛋白，根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)（1）NR1：甲状腺激素样；（2） NR2:HNF4类；（3） NR3：雌激素样；（4） NR4：神经生长因子IB样；（5） NR5:fushi tarazu-F1样；（6） NR6：生殖细胞核因子样；和（7）NR0：刀型和DAX型。给出了登录号和序列。除NR6亚家族外，所包含的蛋白质与同一亚群中的任何其他蛋白质都没有≥60%的配对序列一致性。

（PDF格式）

单击此处获取其他数据文件。^{（664K，pdf格式）}

支持信息S2

独立测试数据集ST包含500种非NR蛋白和568种NR蛋白，根据NucleaRDB分类为以下7个主要亚家族(http://www.receptors.org/NR网站/)（1）NR1：甲状腺激素样；（2） NR2:HNF4类；（3） NR3：雌激素样；（4） NR4：神经生长因子IB样；（5） NR5:fushi tarazu-F1类；（6） NR6：生殖细胞核因子样；和（7）NR0：刀型和DAX型。给出了登录号和序列。这里包含的所有蛋白质都没有出现在训练数据集S中。

（PDF格式）

单击此处获取其他数据文件。^{（915K，pdf）}

支持信息S3

NR-2L对数据集S中159个NR和500个非NR获得的弯折结果列表（参见。支持信息S1)以及NucleaRDB或UniProt中注释的相应观测结果。

（PDF格式）

单击此处获取其他数据文件。^{（219K，pdf）}

支持信息S4

NR-2L对独立测试数据集ST中568个NR和500个非NR获得的结果列表（参见。支持信息S2)以及NucleaRDB或UniProt中注释的相应观测结果。

（PDF格式）

单击此处获取其他数据文件。^{（329K，pdf）}

致谢

作者要感谢Niall Haslam教授提出的建设性建议。作者还想感谢两位匿名审稿人的宝贵意见，这对加强论文的介绍非常有帮助。

脚注

竞争利益：提交人声明，不存在相互竞争的利益。

基金：这项工作得到了国家自然科学基金（No.60961003）、教育部重点项目（No.210116）、江西省国家自然科学研究基金（2009GZS0064和2010GZS0122）、江苏省教育厅（No.GJJ09271）的资助，江西省青年科学家（井冈之星）培养计划。资助者在研究设计、数据收集和分析、决定出版或编写手稿方面没有任何作用。

工具书类

1Altucci L，Gronemeyer H。细胞生与死中的核受体。内分泌和代谢趋势。2001;12:460–468.[公共医学][谷歌学者]

2Mangelsdorf DJ、Thummel C、Beato M、Herrlich P、Schutz G等。核受体超家族：第二个十年。单元格。1995;83:835–839. [PMC免费文章][公共医学][谷歌学者]

三。Robinson-Rechavi M，Garcia HE，Laudet V.核受体超家族。细胞科学杂志。2003;116:585–586.[公共医学][谷歌学者]

4Florence H，Gerrit V，Fred EC。收集和收集生物数据：GPCRDB和NucleaRDB信息系统。核酸研究。2001;29:346–349. [PMC免费文章][公共医学][谷歌学者]

5Altschul SF、Madden TL、Schäffer AA、Zhang J、ZhangZ等。缺口BLAST和PSI-BLAST：新一代蛋白质数据库搜索程序。核酸研究。1997;25:3389–3402. [PMC免费文章][公共医学][谷歌学者]

6周家川。使用伪氨基酸成分预测蛋白质细胞属性。蛋白质。2001;43:246–255.[公共医学][谷歌学者]

7Bhasin M，Raghava全球定位系统。基于氨基酸组成和二肽组成的核受体分类。生物化学杂志。2004;279:23262–23266.[公共医学][谷歌学者]

8高庆斌，金振聪，叶XF，吴C，何J.用最佳伪氨基酸组成预测核受体。分析生物化学。2009;387:54–59.[公共医学][谷歌学者]

9周家川。关于蛋白质属性预测和伪氨基酸组成的一些评论（50周年回顾）。理论生物学杂志。2011;273:236–247. [PMC免费文章][公共医学][谷歌学者]

10Li W，Godzik A.Cd-hit：一个快速程序，用于聚类和比较大组蛋白质或核苷酸序列。生物信息学。2006;22:1658–1659.[公共医学][谷歌学者]

11周家川。一种预测（20–1）-D氨基酸组成空间中蛋白质结构类的新方法。蛋白质：结构、功能和生物信息学。1995;21:319–344.[公共医学][谷歌学者]

12Nakashima H，Nishikawa K，Ooi T。蛋白质的折叠类型与氨基酸组成有关。生物化学杂志。1986;99：153–162。[公共医学][谷歌学者]

13周GP。关于蛋白质结构类预测的有趣争议。蛋白质化学杂志。1998;17:729–738.[公共医学][谷歌学者]

14Zhou GP，K.博士。细胞凋亡蛋白的亚细胞定位预测。蛋白质：结构、功能和遗传学。2003;50:44–48.[公共医学][谷歌学者]

15刘伟，周朝中。蛋白质二级结构含量预测。蛋白质工程。1999;12:1041–1050.[公共医学][谷歌学者]

16周家川。用于预测蛋白质中HIV蛋白酶裂解位点的矢量化序列耦合模型。生物化学杂志。1993;268:16938–16948.[公共医学][谷歌学者]

17周家川。综述：蛋白质中紧转弯及其类型的预测。分析生物化学。2000年；286:1–16.[公共医学][谷歌学者]

18肖X，邵SH，黄ZD，周KC。用伪氨基酸组成预测蛋白质结构类别：用复杂性度量因子探讨。计算化学杂志。2006;27:478–482.[公共医学][谷歌学者]

19Gusev VD，Nemytkova LA，Chuzhanova NA。关于遗传序列的复杂性度量。生物信息学。1999;15:994–999.[公共医学][谷歌学者]

20周家川。综述：生物大分子的低频集体运动及其生物功能。生物物理化学。1988;30:3–48.[公共医学][谷歌学者]

21Cover T，Hart P.最近邻模式分类。IEEE信息论事务。1967;13:21–27. [谷歌学者]

22Chou KC，Wu ZC，Xiao X.iLoc-Euk：预测单复合体和复合真核蛋白亚细胞定位的多标记分类器。《公共科学图书馆·综合》。2011;6：e18258。 [PMC免费文章][公共医学][谷歌学者]

23Keller JM、Gray MR、Givens JAJ。一种快速的K-最近邻算法。IEEE系统、人和控制论事务。1985;15:580–585. [谷歌学者]

24关于统计学中的广义距离。印度国家科学研究院。1936年；2:49–55. [谷歌学者]

25周朝中，张春涛。综述：蛋白质结构类的预测。生物化学和分子生物学评论。1995;30：275–349。[公共医学][谷歌学者]

26Liu T，Jia C.一种使用预测的二级结构信息的高精度蛋白质结构类预测算法。理论生物学杂志。2010;267:272–275.[公共医学][谷歌学者]

27Masso M，Vaisman II。基于知识的计算突变用于预测人类非同义单核苷酸多态性的潜在疾病。理论生物学杂志。2010;266:560–568.[公共医学][谷歌学者]

28王涛，夏涛，胡XM。预测膜蛋白类型的几何保持投影算法。理论生物学杂志。2010;262:208–213.[公共医学][谷歌学者]

29Joshi RR，Sekharan S.蛋白质二级结构基序的特征肽。蛋白质和肽字母。2010;17:1198–1206.[公共医学][谷歌学者]

30Kandaswamy KK、Pugalenthi G、Moller S、Hartmann E、Kalies KU等。通过一种新的伪氨基酸组成模式，用遗传算法和支持向量机预测凋亡蛋白的位置。蛋白质和肽字母。2010;17:1473–1479.[公共医学][谷歌学者]

31Liu T，Zheng X，Wang C，Wang J.使用伪氨基酸成分预测凋亡蛋白的亚细胞位置：自协方差变换方法。蛋白质和肽字母。2010;17:1263–1269.[公共医学][谷歌学者]

32Mohabatkar H.使用Chou的伪氨基酸组成预测细胞周期蛋白。蛋白质和肽字母。2010;17:1207–1214.[公共医学][谷歌学者]

文章来自PLOS ONE系列由以下人员提供多环芳烃