×

通过预测标签策略对部分标记的多集值数据进行半监督属性约简。 (英语) Zbl 07832117号

摘要:大量部分标记数据的存在是由于标记数据的高成本。对于这类数据,传统的粗糙集模型无法很好地表示实际数据中对象的分布。这限制了数据的有效决策和分类。用预测标签替换缺少的标签可以在一定程度上弥补标签的缺失。然后,考虑带有预测标签的多值数据。本文通过预测标记策略研究了部分标记多值数据的半监督属性约简。首先,构造了多值决策信息系统(MSVDIS)中信息值之间的距离,并引入了MSVDIS对象集上的容差关系。然后,定义了部分标记的多值决策信息系统(p-MSVDIS)。接下来,提出了一种预测标签策略(即,p-MSVDIS中的现有标签保持不变,并且用预测标签替换缺失的标签)。顺便提一下,获得了一个新的MSVDIS,并通过决策属性对对象集进行了重新分类。此外,还提出了所获得的MSVDIS中的相关性和条件熵,并讨论了一些性质。设计了p-MSVDIS中基于依赖和条件熵的半监督属性约简算法。最后,在实际数据集上的实验表明,预测标记策略优于传统的粗糙集方法,并且所设计的算法比现有算法具有更好的分类和离群点检测性能。

MSC公司:

68倍 计算机科学
62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 香港Aljobouri。;H.A.Jaber。;O.M.科卡。;藻类,O。;Cankaya,I.,《神经科学数据挖掘用鲁棒无监督学习算法聚类fMRI数据》,J.Neurosci。方法,299,45-54(2018)
[2] Barlow,H.B.,无监督学习,神经计算。,1, 295-311 (1989)
[3] 坎帕纳,A。;Ciucci,D。;Huellermeier,E.,《弱标记数据的基于粗糙集的特征选择》,《国际期刊近似原因》。,136150-167(2021)·兹比尔1522.68447
[4] 陈,Y。;Liu,K.Y。;宋,J.J。;Fujita,H。;杨晓波(Yang,X.B.)。;Qian,Y.H.,属性约简的属性组,Inf.Sci。,535, 64-80 (2020) ·Zbl 1459.68204号
[5] 陈,Y。;杨晓波(Yang,X.B.)。;Li,J.H。;王,P.X。;Qian,Y.H.,融合属性约简加速器,信息科学。,587, 354-370 (2022)
[6] 坎宁安,P。;绳索,M。;Delany,S.J.,监督学习,(多媒体机器学习技术(2008),施普林格:施普林格柏林,海德堡),21-49
[7] Dai,J.H。;胡庆华。;Zhang,J.H。;胡,H。;Zheng,N.G.,用粗糙集方法选择部分标记分类数据的属性,IEEE Trans。赛博。,47, 2460-2471 (2016)
[8] Dai,J.H。;Han,H.F。;胡,H。;胡庆华。;Zhang,J.H。;Wang,W.T.,DualPOS:基于粗糙集理论的符号数据半监督属性选择方法,(网络时代信息管理国际会议(2016),Springer:Springer-Cham),392-402
[9] Dai,J.H。;Liu,Q.,基于误分类代价的区间数据半监督属性约简,Int.J.Mach。学习。赛博。,13, 1739-1750 (2022)
[10] 丁,W.P。;Lin,C.T。;Cao,Z.H.,通过量子跳跃PSO与最近邻成员进行模糊属性约简的深层神经认知协同进化,IEEE Trans。赛博。,49, 7, 2744-2757 (2019)
[11] 丁,W.P。;秦先生。;沈小杰。;Ju,H.R。;Wang,H.P。;Huang,J.S。;李明,基于属性树的并行增量式高效属性约简算法,信息科学。,6101102-1121(2022)
[12] 达努卡,R。;特里帕蒂,A。;Singh,J.P.,基于半监督自动编码器的蛋白质功能预测方法,IEEE J.Biomed。健康信息。,26, 4957-4965 (2022)
[13] Dunn,O.J.,《均值之间的多重比较》,《美国统计协会期刊》,56,52-64(1961)·Zbl 0103.37001号
[14] Fehenberger,T。;Millar,D.S。;Koike-Akino,T。;Kojima,K。;Parsons,K.,多集部分分布匹配,IEEE Trans。社区。,1885-1893年(2018年)
[15] Feofanov,V。;Devijver,E。;Amini,M.R.,《部分标记数据的包装器特征选择》,应用。智力。,52, 12316-12329 (2022)
[16] Friedman,M.,《替代性显著性检验对mrankings问题的比较》,《数学年鉴》。《统计》,第11卷,第86-92页(1940年)
[17] 高,C。;周,J。;Miao,D.Q。;Yue,X.D。;Wan,J.,《具有代理标签的部分标记数据的基于粒度条件熵的属性约简》,《信息科学》。,580, 111-128 (2021)
[18] Girish,K.P。;John,S.J.,由多集关系诱导的多集拓扑,信息科学。,188, 298-313 (2012) ·Zbl 1305.54019号
[19] Grzymala-Busse,J.W。;Hu,M.,《数据挖掘中缺失属性值的几种方法比较》,(国际粗糙集会议和当前计算趋势(2000),施普林格:施普林格-柏林,海德堡),378-385·Zbl 1014.68558号
[20] 黄,D。;Lin,H。;Li,Z.W.,多值信息系统中的信息结构及其在不确定性测量中的应用,J.Intell。模糊系统。,43, 7447-7469 (2022)
[21] Jena,S.P。;Ghosh,S.K。;Tripathy,B.K.,《关于包和列表的理论》,《信息科学》。,132, 241-254 (2001) ·Zbl 0980.68041号
[22] 贾晓云。;Rao,Y。;Shang,L。;Li,T.J.,《粗糙集理论中基于相似性的属性约简:聚类视角》,国际期刊Mach。学习。赛博。,11, 1047-1060 (2020)
[23] 江,F。;隋永福。;Cao,C.G.,关于粗糙集理论中异常值检测的一些问题,专家系统。申请。,36, 4680-4687 (2009)
[24] 克诺尔,E.M。;Ng,R.T。;Tucakov,V.,《基于距离的离群值:算法和应用》,VLDB J.,8237-253(2000)
[25] Lee,D.H.,Pseudo-label:深度神经网络的简单高效半监督学习方法(表征学习挑战研讨会,ICML(2013))
[26] 李·G。;Li,J.X。;刘永清。;刘杰。;Shi,B.F。;张,H。;Rao,W.Z。;张志平,基于绿色经济数据的高维属性约简方法建模与评价:来自中国15个副省级城市的证据,软计算。,24, 9753-9764 (2020)
[27] 李,B.Z。;魏振华。;Miao,D.Q。;张,N。;沈伟(Shen,W.)。;龚,C。;张海勇。;Sun,L.J.,《改进的通用属性约简算法》,《信息科学》。,536, 298-316 (2020) ·Zbl 1474.68359号
[28] 林,Z.C。;马,J。;马,S.M。;Zhou,Y.H.B.,多集上的弱增长树,Adv.Appl。数学。,129,第102206条pp.(2021)·Zbl 1468.05008号
[29] 刘玉霞。;龚,Z.C。;Liu,K.Y。;徐世平。;Yang,X.B.,属性约简的Q-学习方法,应用。智力。,2022年1月16日
[30] Liu,K.Y。;杨晓波(Yang,X.B.)。;Yu,H.L。;Mi,J.S。;王,P.X。;Chen,X.J.,基于粗糙集的集成选择器半监督特征选择,Knowl-基于系统。,165, 282-296 (2019)
[31] 马吉,P。;Garai,P.,模糊粗糙同时属性选择和特征提取算法,IEEE Trans。赛博。,43, 1166-1177 (2012)
[32] Mikalsen,K。;Soguero-Ruiz,C。;比安奇,F.M。;Jenssen,R.,噪声多标签半监督降维,模式识别。,90, 257-270 (2019)
[33] Miyamoto,S.,基于模糊多集的信息聚类,Inf.Process。管理。,39, 195-213 (2003) ·Zbl 1056.68080号
[34] Miyamoto,S.,作为信息系统框架的多集和模糊多集,(人工智能决策建模国际会议(2004),施普林格:施普林格柏林,海德堡),27-40·兹比尔1109.68656
[35] Nikulin,M.S.,Hellinger distance,(Hazewinkel,Michiel,数学百科全书(2001),Springer Science)
[36] Pawlak,Z.,《粗糙集》,《国际计算杂志》。信息科学。,11, 341-356 (1982) ·Zbl 0501.68053号
[37] Pawlak,Z.,《粗糙集:数据推理的理论方面》(Rough Sets:Theory Aspects of Reasoning About Data)(1991年),Kluwer Academic Publishers:Kluwer-Academical Publishers Dordrecht·Zbl 0758.68054号
[38] 拉马斯瓦米,南卡罗来纳州。;Rastogi,R。;Shim,K.,从大数据集挖掘离群值的高效算法,(2000年ACM SIGMOD国际数据管理会议论文集(2000)),427-438
[39] Reddy,G.T。;Reddy,M.P.K。;拉克希曼纳,K。;Kaluri,R。;Rajput,D.S。;斯利瓦斯塔瓦,G。;Baker,T.,《大数据降维技术分析》,IEEE Access,8,54776-54788(2020)
[40] Richards,J.A.,监督分类技术,(遥感数字图像分析(2022),Springer:Springer-Cham),263-367
[41] 辛格,S。;Shreevastava,S。;索姆·T。;Somani,G.,集值信息系统中基于模糊相似性的粗糙集属性选择方法,软计算。,24, 4675-4691 (2020) ·Zbl 1436.68357号
[42] Tauler,R。;梅德,M。;De Juan,A.,多集数据分析:扩展多元曲线分辨率,综合化学计量学,2305-336(2020)
[43] 范·恩格伦,J.E。;Hoos,H.H.,《关于半监督学习的调查》,马赫。学习。,109373-440(2020)·Zbl 1441.68215号
[44] Wang,C.Z。;黄,Y。;丁,W.P。;曹振华,用模糊粗糙自我信息测度进行属性约简,信息科学。,549, 68-86 (2021) ·Zbl 1474.68367号
[45] Wang,C.Z。;Qian,Y.H。;丁,W.P。;冯晓东,基于模糊粗糙最小分类误差准则的特征选择,IEEE Trans。模糊系统。,2930-2942年3月30日(2022年)
[46] 杨晓波(Yang,X.B.)。;Liang,S.C。;Yu,H.L。;高,S。;Qian,Y.H.,伪拉贝尔邻域粗糙集:度量与属性约简,国际期刊近似推理。,105, 112-129 (2019) ·Zbl 1452.68236号
[47] 杨晓波(Yang,X.B.)。;Yao,Y.Y.,用于属性约简的信号群选择器,应用。软计算。,70, 1-11 (2018)
[48] 张,M.L。;Wu,J.H。;Bao,W.X.,用于部分标签降维的消歧线性判别分析,ACM Trans。知识。发现。数据,16,1-18(2022)
[49] X.R.Zhao。;胡碧琴,多值信息表中基于决策论粗糙集的三向决策,信息科学。,507, 684-699 (2020) ·Zbl 1456.68214号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。