基于模糊Pareto优势的在线流媒体特征选择多目标优化方法

文件类型:研究论文

作者

1伊朗亚兹德亚兹德大学工程学院计算机工程系

2伊朗霍拉马巴德洛雷斯坦大学工程学院计算机工程系。

摘要

特征选择是机器学习中最重要的任务之一。传统的特征选择方法不足以降低在线数据流的维数,因为它们假设特征空间是固定的,并且每次添加特征时,都必须从头开始执行算法,这除了不执行实时处理外,导致许多不必要的计算和资源消耗。在许多实际应用中,如天气预报、股市、临床研究、自然灾害和生命体征监测,特征空间会动态变化,并且随着时间的推移,特征流会添加到数据中。现有的在线流特征选择(OSFS)方法存在计算复杂度高、处理时间长、对参数敏感以及无法考虑特征之间冗余等问题。本文首次将OSFS过程建模为一个多目标优化问题。当特征流到达时,使用模糊Pareto优势在多目标空间中对其进行评估,其中三种特征选择方法被视为我们的目标。特征根据其在多目标空间中相对于其他特征的优势度进行排序。我们提出了一种在短时间内选择最小特征子集的有效方法。使用两个分类器和八个OSFS算法对真实数据集进行了实验。结果表明,该方法在合理的时间内为所有数据集选择了最小的特征子集。

关键词

主要研究对象


[1] Bayati,H.、Dowlatshahi,M.B.和Hashemi,A.(2022)。MSSL:基于内存的稀疏
多标签分类的子空间学习算法。国际机械杂志
学习与控制论,13(11),3607-3624。https://doi.org/10.1007/s13042-
022-01616-5.
[2] Bolón-Canedo,V.和Alonso-Betanzos,A.(2018年)。特征信号群的评估
选择。V.Bolón-Canedo和A.Alonso Betanzos(编辑),《最新进展》
《特征选择合奏》(第97–113页)。施普林格国际出版公司。
https://doi.org/10.1007/978-3-319-90080-3-6。
[3] Dhal,P.和Azad,C.(2022)。中特征选择的综述
机器学习的各个领域。应用情报,52(4),4543–4581。
https://doi.org/10.1007/s10489-021-02550-9。
[4] Dowlatshahi,M.B.和Hashemi,A.(2023)。无监督特征选择:模糊
多标准决策方法。伊朗模糊系统杂志,20(7),55-
70https://doi.org/10.22111/IJFS.2023.7630.
[5] Dowlatshahi,M.B.,Zare-Chahooki,M.A.,Beiranvand,S.和Hashemi,A。
(2022). GKRR:用于软件开发的基于引力的核岭回归
工作量估算。《马哈尼数学研究杂志》,11(3),147-174。
https://doi.org/10.22103/jmmr.2022.18988.1202。
[6] Eskandari,S.和Seifaddini,M.(2023)。在线和离线流媒体功能选择
方法采用bat算法进行冗余分析。模式识别,133109007。
https://doi.org/10.1016/j.patcog.2022.109007。
[7] 弗里德曼M.(1940)。不同显著性检验的比较
m排名问题。《数理统计年鉴》,11(1),86–92。
https://doi.org/10.1214/aoms/117731944。
[8] Hashemi,A.、Bagher Dowlatshahi,M.和Nezamabadi-pour,H.(2021)。基于pareto的
特征选择算法的集成。应用专家系统,180,115130。
https://doi.org/10.1016/j.eswa.2021.115130。
[9] Hashemi,A.、Bagher Dowlatshahi,M.和Nezamabadi-pour,H.(2021)。一个高效的
基于Pareto的多标签分类特征选择算法。信息科学,
581, 428–447. https://doi.org/10.1016/j.ins.20210.09052。
[10] Hashemi,A.、Dowlatshahi,M.B.和Nezamabadi-pour,H.(2021)。最小冗余
最大相关集成特征选择:一种基于Pareto的双目标方法。
软计算与信息技术杂志。https://jscit.nit.ac.ir/article网站-
138958-en.html。
[11] Hashemi,A.、Dowlatshahi,M.B.和Nezamabadi-pour,H.(2021)。VMFS:基于VIKOR
多目标特征选择。应用专家系统,182,115224。
https://doi.org/10.1016/j.eswa.2021.115224。
[12] Hashemi,A.、Dowlatshahi,M.B.和Nezamabadi-pour,H.(2022)。特征的集合
选择算法:一种多标准决策方法。国际期刊
机器学习和控制论,13(1),49–69。https://doi.org/10.1007/s13042-
021-01347-z。
[13] Hashemi,A.、Joodaki,M.、Joodagi,N.Z.和Dowlatshahi,M.B.(2022年)。蚁群优化
通过多标准决策配备整套启发式:
集成特征选择的案例研究。应用软计算,124109046。
https://doi.org/10.1016/j.asoc.2022.109046。
[14] Hashemi,A.、Pajoohan,M.-R.和Dowlatshahi,M.B.(2022年)。在线流媒体功能
基于Sugeno模糊积分的选择。2022年伊朗第九届模糊和
智能系统(CFIS),1-6。https://doi.org/10.109/CFIS54774.2022.9756477。
[15] Hashemi,A.、Pajoohan,M.-R.和Dowlatshahi,M.B.(2023年)。选举策略
在线流媒体功能选择。第28届国际计算机会议
伊朗社会(CSICC),01–04。https://doi.org/10.1109/CSICC58665.2023.10105319。
[16] Hu,X.,Zhou,P.,Li,P.、Wang,J.和Wu,X.(2018)。关于在线功能的调查
具有流媒体功能的选择。计算机科学前沿,12(3),479–493。
https://doi.org/10.1007/s11704-016-5489-3。
[17] Joodaki,M.、Dowlatshahi,M.B.和Joodaky,N.Z(2021)。集合特征选择
基于PageRank中心性和模糊逻辑的算法。基于知识的系统,233,
107538https://doi.org/10.1016/j.knosys.2021.107538。
[18] Kashef,S.和Nezamabadi-pour,H.(2019年)。一种特定于标签的多标签特征选择
基于帕累托优势概念的算法。模式识别,88,654–667。
https://doi.org/10.1016/j.patcog.2018.12.020。
[19] Krzeszowska-Zakrzewska,B.(2015)。多准则下的模糊Pareto优势
项目进度问题。多标准决策,10,93–104。
[20] Li,M.、Yang,S.和Liu,X.(2015)。多目标双目标进化
优化问题。人工智能,228,45-65。
https://doi.org/10.1016/j.artint.2015.06.007.
[21]罗,C.,王,S.,李,T.,陈,H.,吕,J.,&易,Z.(2023)。RHDOFS公司:
一种面向可扩展流媒体特征选择的分布式在线算法。
IEEE并行和分布式系统汇刊,34(6),1830-1847。
https://doi.org/10.109/TPDS.2023.3265974。
[22]Miri,M.、Dowlatshahi,M.B.、Hashemi,A.、Rafsanjani,M.K.、Gupta,B.B.和Alhalabi,
W.(2022)。多标签文本分类的集成特征选择:一种智能的
订单统计方法。国际智能系统杂志,37(12),11319–
11341https://doi.org/10.1002/int.23044。
[23]Pajoohan,M.-R.,Hashemi,A.和Dowlatshahi,M.B.(2022年)。在线流媒体
基于Choquet模糊积分的特征选择方法。模糊系统及其应用
应用,5(1),161–185。https://doi.org/10.22034/jfsa.2022.331660.1116。
[24]Prajapati,A.(2021)。双存档模糊-帕累托优势群优化
多目标软件架构重建。阿拉伯科学与
工程,46(4),3503–3518。https://doi.org/10.1007/s13369-020-05147-5。
[25]Rafie,A.、Moradi,P.和Ghaderzadeh,A.(2023)。多目标在线流媒体
使用互信息的多标签特征选择。带应用程序的专家系统,
216, 119428. https://doi.org/10.1016/j.eswa.2022.119428。
[26]Rahmaninia,M.和Moradi,P.(2018年)。OSFSMI:在线流功能选择
基于互信息的方法。应用软计算,68,733–746。
https://doi.org/10.1016/j.asoc.2017.08.034。
[27]Serrano-Guerrero,J.、Romero,F.P.和Olivas,J.A.(2021)。应用模糊逻辑
观点挖掘:综述。基于知识的系统,222107018。
https://doi.org/10.1016/j.knosys.2021.107018。
[28]Suryanarayan,P.、Subramanian,A.和Mandalapu,D.(2010)。动态手势
使用深度数据进行识别。第20届国际模式识别会议,
3105–3108. https://doi.org/10.109/ICPR.2010.760。
[29]Talbi,E.(2009)。元启发式:从设计到实现。约翰·威利父子公司。
[30]Wang,J.,Zhao,P.,Hoi,S.C.H.,&Jin,R.(2014)。在线特征选择及其应用
应用。IEEE知识与数据工程汇刊,26(3),698–710。
https://doi.org/10.1109/TKDE.2013.32。
[31]Wu,D.,He,Y.,Luo,X.和Zhou,M.(2022)。潜在因素分析-
基于在线稀疏流特征选择的方法。IEEE事务
《系统、人与控制论:系统》,52(11),6744-6758。
https://doi.org/10.109/TSMC.2021.3096065。
[32]You,D.,Sun,M.,Liang,S.,Li,R.,Wang,Y.,Xiao,J.,Yuan,F.,Shen,L.,&Wu,
十、(2022年)。多源流特征的在线特征选择。信息科学,
590, 267–295. https://doi.org/10.1016/j.ins.2022.01.008。
[33]扎德,洛杉矶(1965)。模糊集。信息与控制,8(3),338–353。
https://doi.org/10.1016/S0019-9958(65)90241-X。
[34]Zaman,E.A.K.、Mohamed,A.和Ahmad,A.(2022)。在线功能选择
流式传输高维数据:最新综述。应用软计算,
127, 109355. https://doi.org/10.1016/j.asoc.2022.109355。
[35]周,J.,P.Foster,D.,A.Stine,R.,&H.Ungar,L.(2006)。流式(Streamwise)
特征选择。《机器学习研究杂志》,3(2),1532–4435。
https://dl.acm.org/doi/abs/10.5555/1248547.1248614。
[36]周,P.,胡,X.,李,P.和吴,X.(2019)。OFS-密度:一种新颖的
在线流媒体特征选择方法。模式识别,86,48–61。
https://doi.org/10.1016/j.patcog.2018.08.009。
[37]周,P.,胡,X.,李,P.和吴,X.(2019)。在线流媒体功能选择
使用自适应邻域粗糙集。信息科学,481258–279。
https://doi.org/10.1016/j.ins.2018.12.074.
[38]Zhou,P.、Zhang,Y.、Li,P.和Wu,X.(2022)。在线通用装配框架
通过粗糙集模型进行流特征选择。带应用程序的专家系统,
204, 117520. https://doi.org/10.1016/j.eswa.2022.117520。
[39]周鹏,赵曙,颜元廷,吴新东。(2022). 在线可扩展流媒体
通过动态决策进行特征选择。ACM知识发现事务
来自数据(TKDD),16(5),1–20。https://doi.org/10.1145/3502737。