计算机工程与应用››2020,第56卷››发行(17): 136-141.内政部:10.3778/j.issn.1002-8331.1908-0337

模式识别与人工智能 • 上一篇   下一篇

基于XGBoost公司特征选择的疾病诊断XLC-堆叠

岳鹏,侯凌燕,杨大利,佟强  

  1. 北京信息科技大学 计算机开放系统实验室,北京 100101
  • 出版日期:2020-09-01 发布日期:2020-08-31

基于XGBoost特征选择的疾病诊断XLC-Stacking方法

岳鹏、周灵岩、杨大理、佟强  

  1. 北京信息科技大学开放计算机系统实验室,北京100101
  • 在线:2020-09-01 出版:2020-08-31

摘要:

针对医学疾病数据中存在特征冗余的问题,以XGBoost公司特征选择方法度量特征重要度,删除冗余特征,选择最佳分类特征;针对识别精度不高的问题,使用堆叠XGBoost、LightGBM等多种异质分类器,并在异质分类器中引入性能更好的CatBoost公司分类器提升集成分类器分类精度。为了避免过拟合,选择基层分类器输出的分类概率作为高层分类器输入。实验结果表明,提出的基于XGBoost XLC堆叠方法相比当前主流分类算法以及单一的XGBoost和堆叠方法有较大提升,识别的准确率和F1-核心97.73%和98.21%更加适用于疾病的诊断。

关键词: 疾病诊断, 特征选择, XGBoost, CatBoost、, 堆叠

摘要:

针对医疗疾病数据中的特征冗余问题,采用XGBoost特征选择方法测量特征重要性,删除冗余特征,选择最佳分类特征。针对识别精度低的问题,采用堆叠方法集成XGBoost、LightGBM等异构分类器,并在异构分类器中引入更好的CatBoost分类器,以提高集成分类器的分类精度。为了避免过拟合,选择基本分类器输出的分类概率作为高级分类器输入。实验结果表明,基于XGBoost特征选择的XLC-Stacking方法与当前主流的分类算法以及单一的XGBooster算法和Stacking算法相比有了很大的改进。识别和F1-Score的准确率分别达到97.73%和98.21%,更适合于疾病的诊断。

关键词: 疾病诊断, 特征选择, XGBoost, CatBoost、, 堆叠