计算机工程与应用››2019,第55卷››问题(6): 145-150.内政部:10.3778/j.issn.1002-8331.1712-0265

模式识别与人工智能 • 上一篇   下一篇

序列信息融合与两阶段特征选择的膜蛋白预测

  磊,王顺芳  

  1. 云南大学 信息学院 计算机科学与工程系,昆明 650504
  • 出版日期:2019-03-15 发布日期:2019-03-14

基于序列信息融合和两阶段特征选择的膜蛋白预测

郭雷、王顺芳  

  1. 云南大学信息科学与工程学院计算机科学与工程系,昆明650504
  • 在线:2019-03-15 出版:2019-03-14

摘要:膜蛋白的功能与其类型密切相关,因此膜蛋白类型的预测具有重要意义。针对膜蛋白特征表达过程中出现的特征维数高的问题,结合最大信息系数与遗传算法提出一种两阶段特征选择(MIC-GA)抽取膜蛋白序列信息中的伪氨基酸组成、二肽组成和位置特异性分数矩阵等特征融合后作为特征参数,并在融合过程中提出一种改进的救济基金得到更有效的特征分数。基于堆叠集成学习框架,两次使用极端随机树对膜蛋白类型进行合理化预测。结果表明该方法能够有效提高膜蛋白预测的准确率。

关键词: 膜蛋白预测, 最大信息系数, 遗传算法, 特征选择, 特征融合, 极端随机树

摘要:膜蛋白的类型与其功能密切相关,因此对膜蛋白类型预测的研究具有重要意义。本研究提出了一种基于最大信息系数(MIC)和遗传算法(GA)的两阶段特征选择方法(MIC-GA),以解决膜蛋白特征提取过程中的高维特征问题。从膜蛋白序列中提取了三种特征表示,即PseAAC、DC和PSSM。在特征融合过程中,提出了一种改进的ReliefF算法(FReliefF),以获得有效的特征分数。最后,基于Stacking集成学习框架,将极端随机树分两次使用,实现对膜蛋白类型的合理预测。结果表明,该方法能有效提高膜蛋白预测的准确性。

关键词: 膜蛋白类型预测, 最大信息系数, 遗传算法, 特征选择, 特征融合, 极随机树