×

用于零成分数据分类的Kent特征嵌入。 (英语) Zbl 07840054号

摘要:由于非负和单位和约束,特别是当某些成分为零时,成分数据对当前的分类方法提出了挑战。本文针对某些成分等于零的多元成分数据,提出了一种有效的分类方法。具体来说,本文首次提出了一种肯特特征嵌入技术,用于变换成分数据,提高数据质量。然后,我们使用支持向量机作为最先进的机器学习模型来构建分类器。通过数值模拟验证了该方法的有效性。在多个实际数据集上的结果,包括物种分类、昼夜图像分类和家庭消费模式识别,进一步验证了该方法能够实现良好的分类性能,并优于其他竞争对手。该方法有助于拓宽零成分数据在分类任务中的实际应用。

MSC公司:

62-08 统计问题的计算方法
62E15型 统计学中的精确分布理论
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安·W。;Liang,M.,一种新的基于支持向量机的入侵检测方法,具有最小类内散布,Secur。Commun公司。净值。,6, 9, 1064-1074 (2013) ·doi:10.1002/sec.666
[2] Armanfard,N。;雷利,JP;Komeili,M.,数据分类的局部特征选择,IEEE Trans。模式分析。机器。整数。,38, 6, 1217-1227 (2016) ·doi:10.1109/TPAMI.2015.2478471
[3] 贝洛,M。;Nápoles,G。;Vanhoof,K。;Bello,R.,《基于粒度计算的多标签分类数据质量度量》,《信息科学》。,560, 51-67 (2021) ·doi:10.1016/j.ins.2021.01.027
[4] 司法部长Cuesta Albertos;Cuevas,A。;Fraiman,R.,《关于定向和成分数据的基于投影的测试》,《统计计算》。,19, 4, 367 (2009) ·doi:10.1007/s11222-008-9098-3
[5] 范,J。;Feng,Y。;姜杰。;Tong,X.,《在高维分类中通过非参数和选择(扇子)进行特征增强》,美国统计协会,111,513,275-287(2016)·doi:10.1080/01621459.2015.1005212
[6] Fiksel,J。;Zeger,S。;Datta,A.,成分结果和预测因素的无转换线性回归,生物计量学(2021)·Zbl 1520.62197号 ·doi:10.1111/biom.13465
[7] Filzmoser,P。;赫隆,K。;Templ,M.,成分数据的判别分析和稳健参数估计,计算。《统计》,第27、4、585-604页(2012年)·Zbl 1304.65033号 ·doi:10.1007/s00180-011-0279-8
[8] 弗莱,吉咪;油炸,TR;McLaren,KR,成分数据分析和微观数据中的零点,Appl。经济学。,32, 8, 953-959 (2000) ·doi:10.1080/000368400322002
[9] 郭,J。;Sun,L。;杜,L。;马,H。;熊,T。;Ou,W。;Zhan,Y.,一种基于表示系数的k-最近质心邻域分类器,专家系统。申请。,194 (2022) ·doi:10.1016/j.eswa.2022.116529
[10] 格林纳克,M。;Grunsky,E。;Bacon-Shone,J。;Erb,I。;Quinn,T.,艾奇逊40年来的成分数据分析:重新评估,统计科学。,38, 3, 386-410 (2023) ·Zbl 07792873号 ·doi:10.1214/22-STS880
[11] 顾J。;Wang,L。;Wang,H。;Wang,S.,一种使用svm集成和特征增强的入侵检测新方法,Comput。安全。,86, 53-62 (2019) ·doi:10.1016/j.cose.2019.05.022
[12] 顾J。;崔,B。;Lu,S.,带dirichlet特征嵌入的多元成分数据分类框架,Knowl-基于系统。,212 (2021) ·doi:10.1016/j.knosys.2020.106614
[13] 黄,X。;Shi,L。;Suykens,JAK,带弹球损失的支持向量机分类器,IEEE Trans。模式分析。机器。整数。,36, 5, 984-997 (2014) ·doi:10.1109/TPAMI.2013.178
[14] Jiménez-Cordero,A。;莫拉莱斯,JM;Pineda,S.,《非线性支持向量机分类中用于特征选择的一种新的嵌入式min-max方法》,Eur.J.Oper。第293、1、24-35号决议(2021)·Zbl 1487.68195号 ·doi:10.1016/j.ejor.2020.12.009
[15] Kaiser,M.、Klier,M.和Heinrich,B.:如何衡量数据质量-基于度量的方法。ICIS 2007年会议记录,第108页,2007
[16] Kalivodová,A。;赫隆,K。;Filzmoser,P。;内德克尔,L。;简契科娃,H。;Adam,T.,Pls-da,用于代谢组学的成分数据,J.Chemom。,29, 1, 21-28 (2015) ·doi:10.1002/cem.2657
[17] Kent,JT,球体上的fisher-bingham分布,J.Roy。统计社会:序号。B(Methodol.),44,1,71-80(1982)·Zbl 0485.62015.中 ·doi:10.1111/j.2517-6161.1982.tb01189.x
[18] Kovács,L.、Ková)cs,G.、Martín-Fernández,J.A.、Barceló-Vidal,C.:匈牙利新生代火山岩中的主要氧化物成分判别。Buccianti,A.、Mateu-Figueras,G.和Pawlowsky-Glahn,V.编辑,《地球科学中的成分数据分析:从理论到实践》,第11-23页。伦敦地质学会,2006年。doi:10.1144/GSL。SP.2006.264.01.02
[19] Kume,A。;Walker,SG,成分和方向分布抽样,统计计算。,16, 3, 261-265 (2006) ·doi:10.1007/s11222-006-8077-9
[20] A.库姆。;Wood,AT,宾汉和费希尔-宾汉姆归一化常数的鞍点近似值,生物统计学,92,2465-476(2005)·Zbl 1094.62063号 ·doi:10.1093/biomet/92.2.465
[21] 拉瓦尼亚,P。;Kouser,K。;Suresha,M.,《使用符号方法进行大数据分类和聚类的有效特征表示》,专家系统。申请。,173 (2021) ·doi:10.1016/j.eswa.2021.114658
[22] 李毅。;Chai,Y。;周,H。;Yin,H.,一种用于高维数据分类的新型降维和字典学习框架,模式识别。,112 (2021) ·doi:10.1016/j.patcog.020.107793
[23] 李毅。;朱,L。;Wang,H。;Yu,法国;Liu,S.,边缘智能化cbtc系统对抗mitm攻击的跨层防御方案,IEEE Trans。智力。运输。系统。,22, 4, 2286-2298 (2021) ·doi:10.1009/TITS.2020.3030496
[24] 刘,P。;田,G-L;KC袁;孙,Y。;Zhang,C.,组合逆高斯模型及其在可能零观测值组合数据分析中的应用,J.Stat.Compute。模拟。(2023) ·Zbl 07862332号 ·网址:10.1080/00949655.2023.2242550
[25] 卢,S。;赵,J。;Wang,H.,Md-mbpls:计算社会科学中一种新的解释模型,Knowl-基于系统。,223 (2021) ·doi:10.1016/j.knosys.2021.107023
[26] Lunga,D.,Ersoy,O.:球形流形上遥感数据分类的Kent混合模型。2011年IEEE应用图像模式识别研讨会(AIPR),第1-7页。IEEE,2011年
[27] 马吉,S。;Berg,AC;Malik,J.,《加性内核svm的有效分类》,IEEE Trans。模式分析。机器。整数。,35, 1, 66-77 (2013) ·doi:10.1109/TPAMI.2012.62
[28] 马萨诸塞州马丁·费尔南德斯;Barceló-Vidal,C。;Pawlowsky-Glahn,V.,《使用非参数插补处理成分数据集中的零和缺失值》,数学。地质。,35, 253-278 (2003) ·Zbl 1302.86027号 ·doi:10.1023/A:1023866030544
[29] 马图克,J。;Bharath,K。;克雷布提伊,O。;Kurtek,S.,《同时注册和估计含噪、稀疏和碎片功能数据的贝叶斯框架》,美国统计协会期刊(2021)·Zbl 1515.62139号 ·doi:10.1080/01621459.2021.1893179
[30] 纳皮尔,G。;Neocleous,T。;Nobile,A.,《零成分数据的复合贝叶斯层次模型》,J.Chemom。,29, 2, 96-108 (2015) ·doi:10.1002/cem.2681
[31] Neocleous,T。;艾特肯,C。;Zadora,G.,《零成分数据的转换及其在法医证据评估中的应用》,《化学》。智力。实验室系统。,109, 77-85 (2011) ·doi:10.1016/j.chemolab.2011.08.003
[32] 佩恩,P。;普雷斯顿,SP;Tsagris,M。;Wood,AT,椭圆对称角高斯分布,统计计算。,28, 3, 689-697 (2018) ·Zbl 1384.62047号 ·数字标识代码:10.1007/s11222-017-9756-4
[33] 潘多尔夫,G。;D'Ambrosio,A.,定向数据的深度分类,专家系统。申请。,169 (2021) ·doi:10.1016/j.eswa.2020.114433
[34] Pawlowsky-Glahn,V.,Buccianti,A.:编辑。成分数据分析:理论与应用。John Wiley&Sons,2011年a
[35] Pawlowsky-Glahn,V.,Buccianti,A.:成分数据分析。威利在线图书馆,2011年b
[36] 彭,Q。;林,X。;施,H。;Bao,J。;李,X。;庄,Y.,超高频射频识别系统中基于支持向量机分类的信号检测方法,IEEE Trans。工业。信息,17,7,4646-4656(2021)·doi:10.1016/10.1109/TII.2020.3015241
[37] 皮皮诺,LL;Lee,YW;Wang,RY,数据质量评估,Commun。ACM,45,4,211-218(2002)·doi:10.1145/505248.506010
[38] 拉斯穆森,CL;Palarea-Albaladejo,J。;约翰逊,理学硕士;克劳利,P。;史蒂文斯,马里兰州;古普塔,N。;Karstad,K。;Holtermann,A.,《物理行为成分数据的零问题:三种零替换方法的比较》,国际期刊Behav。螺母。物理学。法案。,17, 126 (2020) ·doi:10.1186/s12966-020-01029-z
[39] 里瑟,C。;Filzmoser,P.,从图形信号处理的角度扩展成分数据分析,J.Multiv。分析。,198 (2023) ·Zbl 07740027号 ·doi:10.1016/j.jmva.2023.105209
[40] Scealy,J。;Welsh,AH,《将肯特模型拟合到低浓度组分数据》,《统计计算》。,24, 2, 165-179 (2014) ·Zbl 1325.62049号 ·doi:10.1007/s11222-012-9361-5
[41] Scealy,J。;de Caritat,P。;欧共体格伦斯基;马萨诸塞州Tsagris;Welsh,A.,《功率转换成分数据的稳健主成分分析》,美国统计协会,110,509,136-148(2015)·doi:10.1080/01621459.2014.990563
[42] 斯克利,JL;Wilsh,AH,《使用超球面上定义的分布回归成分数据》,J.Royal Stat.Soc.Ser。B-Stat.方法。,73, 3, 351-375 (2011) ·Zbl 1411.62179号 ·文件编号:10.1111/j.1467-9868.2010.00766.x
[43] 马萨诸塞州斯蒂芬斯,《利用von mises分布分析连续比例》,《生物统计学》,69,1,197-203(1982)·doi:10.1093/biomet/69.1.197
[44] 斯图尔特,C。;Field,C.,《管理定量脂肪酸特征分析中的基本零点》,J.Agric。生物与环境。统计,16,1,45-69(2011)·Zbl 1306.62237号 ·doi:10.1007/s13253-010-0040-8
[45] Taghia,J.,Ma,Z.,Leijon,A.:变分推理的von-mises-fisher混合模型的贝叶斯估计。IEEE传输。模式分析。机器。智力。36(9), 1701-1715 (2014). doi:10.1109/TPAMI.2014.2306426
[46] 坦普尔,M。;Hron,K。;Filzmoser,P.,《结构零点成分数据中离群值检测的探索工具》,J.Appl。Stat.,44,4,734-752(2017)·兹比尔1516.62625 ·doi:10.1080/02664763.2016.1182135
[47] Tian-Tsong,N.、Shih-Fu,C.、Jessie,H.、Martin,P.:哥伦比亚摄影图像和真实感计算机图形数据集。技术报告205-2004-5,ADVENT,哥伦比亚大学,2004
[48] Tsagris,M。;普雷斯顿,S。;Wood,AT,使用(阿尔法)变换改进成分数据分类,J.Classif。,33, 2, 243-261 (2016) ·Zbl 1349.62284号 ·文件编号:10.1007/s00357-016-9207-5
[49] 齐利米格拉斯,MC;Fodor,AA,《微生物组分数据分析:基础、工具和挑战》,《流行病学年鉴》。,26, 5, 330-335 (2016) ·doi:10.1016/j.annepidem.2016.03.002
[50] von Eynatten,H。;Barceló-Vidal,C。;Pawlowsky-Glahn,V.,《砂岩的成分和鉴别:不同分析方法的统计评估》,J.泥沙。Res.,73,1,47-57(2003年)·doi:10.1306/070102730047
[51] Wang,H。;刘,Q。;Mok,HM;Fu,L。;Tse,WM,成分数据的超球面变换预测模型,欧洲期刊Oper。第179、2459-468号决议(2007年)·Zbl 1114.90049号 ·doi:10.1016/j.ejor.2006.03.039
[52] Wang,H.,Meng,J.,Tenenhaus,M.:成分数据的回归建模分析。《偏最小二乘法手册》,第381-406页。施普林格,2010年
[53] Wang,H。;顾J。;Wang,S.,一种基于支持向量机的有效入侵检测框架,具有特征增强,Knowl-基于系统。,136, 130-139 (2017) ·doi:10.1016/j.knosys.2017.09.014
[54] Wang,H。;卢,S。;赵,J.,《在股市预测中聚合多种类型的复杂数据:模型依赖性框架》,Knowl。基于系统。,164, 193-204 (2019) ·doi:10.1016/j.knosys.2018.10.035
[55] Weiss,S。;徐,ZZ;佩达达,S。;Amir,A。;Bittinger,K。;冈萨雷斯,A。;Lozupone,C。;Zaneveld,JR;Vázquez-Baeza,Y。;伯明翰,A.,归一化和微生物差异丰度策略取决于数据特征,微生物组,5,27(2017)·doi:10.1186/s40168-017-0237-y
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。