×

具有不确定性的不平衡和二分数据的稳健相关性分析框架。 (英语) Zbl 1441.68208号

摘要:相关性分析是识别类之间依赖性的基本数学工具之一。然而,由于数据集中的方差误差,分析的准确性可能会受到影响。本文对皮尔逊产品矩相关(PPMC)分析中不平衡数据的影响进行了数学分析。为了解决这个问题,提出了一种新的框架——稳健相关分析框架(RCAF),以提高相关分析的准确性。综述了机器学习中由于数据不平衡和数据不确定性引起的问题。通过对南非约翰内斯堡真实太阳辐照度和天气状况数据的深入分析,对所提出的框架进行了测试。此外,还将相关分析与主要抽样技术,即合成少数过抽样技术(SMOTE)和自适应合成抽样技术(ADASYN)进行了比较。最后,利用K-Means聚类和Wards聚类对相关结果进行了研究。与传统的PPMC相比,RCAF可以在32.5%–93.02%的范围内降低不平衡数据下相关系数的标准偏差。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H20个 关联度量(相关性、典型相关性等)
62H30型 分类和区分;聚类分析(统计方面)
62页第12页 统计在环境和相关主题中的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 阿明,A。;Anwar,S。;阿德南,A。;纳瓦兹,M。;北卡罗来纳州霍华德。;卡迪尔,J。;哈瓦拉,A。;Hussain,A.,《比较过采样技术处理类别不平衡问题:客户流失预测案例研究》,IEEE Access,47940-7957(2016)
[2] 巴图维塔,R。;Palade,V.,FSVM-CIL:用于类不平衡学习的模糊支持向量机,IEEE Trans。模糊系统。,18, 558-571 (2010)
[3] Chawla,N.V.公司。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,SMOTE:合成少数人过采样技术,J.Artif。智力。第16号决议,第321-357页(2002年)·Zbl 0994.68128号
[4] Chow,T.W。;王,P。;Ma,E.W.,使用无监督标称数据的数据分布因子的新特征选择方案,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),38,499-509(2008)
[5] 迪亚曼蒂尼,C。;Potena,D.,类不平衡问题的贝叶斯矢量量化器,IEEE Trans。知识。数据工程,21638-651(2009)
[6] 迪奥·R。;Chao,F。;彭,T。;斯诺克,N。;Shen,Q.,受特征选择启发的分类器集成约简,IEEE Trans。赛博。,44, 1259-1268 (2014)
[7] 迪奥·R。;Shen,Q.,和声搜索的特征选择,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),421509-1523(2012)
[8] Duin,R.P.W.,关于概率密度函数Parzen估计的平滑参数的选择,IEEE Trans。计算。,C-251175-1179(1976)·Zbl 0359.93035号
[9] 弗朗西斯,D.P。;Coats,A.J。;Gibson,D.G.,相关系数能有多高?《普通心脏病学测量的有限再现性的影响》,国际心脏病杂志。,69, 185-189 (1999)
[10] Habbema,J.,使用密度估计的逐步判别分析程序,(Compstat.Physica-Verlag(1974)),101-110
[11] He,H。;Bai,Y。;加西亚,E.A。;Li,S.,ADASYN:不平衡学习的自适应合成采样方法,(IEEE国际联合会议,IEEE(2008)),1322-1328,神经网络,2008。IJCNN 2008.(IEEE世界计算智能大会)
[12] He,H。;Garcia,E.A.,《从不平衡数据中学习》,IEEE Trans。知识。数据工程,21,1263-1284(2009)
[13] 科拉德曼达,S。;俄亥俄州线虫。;Ayoobia,A.R.,使用集成人工神经网络(ANN)方法预测Clearness指数,可再生可持续性。《能源评论》,58,1357-1365(2016)
[14] Krstic,M。;Bjelica,M.,《阶级不平衡对个性化节目指南性能的影响》,IEEE Trans。消费电子。,61, 90-95 (2015)
[15] 赖,C.S。;贾毅。;McCulloch,M。;Xu,Z.,光伏系统每日清洁度指数曲线聚类分析,IEEE Trans。工业。通知。,13, 2322-2332 (2017)
[16] 赖,C.S。;Lai,L.L.,大数据在智能电网中的应用,(系统、人与控制论(SMC),2015年IEEE国际会议(2015年),IEEE),665-670
[17] 赖,C.S。;李,X。;Lai,L.L.公司。;McCulloch,M.D.,《光伏系统的每日清洁指数概况和天气条件研究》,《能源媒体》,142,77-82(2017)
[18] 赖,C.S。;McCulloch,M.D.,《带厌氧消化沼气发电厂的独立太阳能光伏和存储系统的尺寸确定》,IEEE Trans。工业。电子。,64, 2112-2121 (2017)
[19] 李博士。;刘长伟。;Hu,S.C.,《利用医学数据集解决班级不平衡问题的学习方法》,计算机。生物医学,40509-518(2010)
[20] 林,M。;Tang,K。;Yao,X.,用于训练神经网络进行多类不平衡分类的动态采样方法,IEEE Trans。神经网络学习。系统。,24, 647-660 (2013)
[21] 刘杰。;方,W。;张,X。;Yang,C.,利用气溶胶指数数据改进的光伏功率预测模型,IEEE Trans。维持。能源,6434-442(2015)
[22] 刘晓云。;吴杰。;Zhou,Z.-H.,《班级平衡学习的探索性欠采样》,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),39,539-550(2009)
[23] 刘,Y。;潘·T。;Aluru,S.,英特尔xeon phi集群上的并行成对相关计算,(计算机体系结构与高性能计算(SBAC-PAD),2016年第28届国际研讨会(2016年),IEEE),141-149
[24] 刘,Y。;唐,F。;Zeng,Z.,基于依存度的特征选择,IEEE Trans。赛博。,451209-1221(2015)
[25] Locatelli,G。;米奇,M。;科瓦切维奇,M。;新泽西州布鲁克斯。;Ivanišević,N.,《大型项目的成功交付:一种新的研究方法》,项目管理。J.,48,78-94(2017)
[26] 马洛夫,J.M。;Mazurowski,医学硕士。;Tourassi,G.D.,类别不平衡对基于案例分类器的案例选择的影响:医疗决策支持背景下的实证研究,神经网络。,25, 141-145 (2012)
[27] 米斯,D。;Wyner,A.J。;Buja,A.,Boosted分类树和类概率/分位数估计,J.Mach。学习。第8号决议,第409-439页(2007年)·Zbl 1222.68261号
[28] Mitra,P。;Murthy,C。;Pal,S.K.,使用特征相似性的无监督特征选择,IEEE Trans。模式分析。机器。智力。,24, 301-312 (2002)
[29] 默塔格,F。;Legendre,P.,Ward的层次凝聚聚类方法:哪些算法实现了Ward的准则?,J.分类。,31, 274-295 (2014) ·Zbl 1360.62344号
[30] Ng、W.W。;胡,J。;Yeung,D.S。;尹,S。;Roli,F.,《不平衡分类问题的基于灵敏度的多样化欠采样》,IEEE Trans。赛博。,45, 2402-2412 (2015)
[31] 哦,I.-S。;Lee,J.-S。;Moon,B.-R.,用于特征选择的混合遗传算法,IEEE Trans。模式分析。机器。智力。,26, 1424-1437 (2004)
[32] 拉赫曼,A。;史密斯,D.V。;Timms,G.,传感器数据质量评估的新型机器学习方法,IEEE Sensors J.,14,1035-1047(2014)
[33] Ratner,B.,相关系数:其值在+1/−1之间,还是?,J.目标。,米苏尔。分析。市场。,17, 139-142 (2009)
[34] 医学博士鲁伊斯。;Hüllermeier,E.,模糊伽玛秩相关系数的形式化和实证分析,Inf.Sci。,206, 1-17 (2012) ·Zbl 1314.68313号
[35] 塞弗特,C。;Khoshgoftaar,T.M。;Van Hulse,J。;Napolitano,A.,RUSBoost:缓解阶级不平衡的混合方法,IEEE Trans。系统。,天啊,赛博-A部分,40,185-197(2010)
[36] Silverman,B.W.,《统计和数据分析密度估计》(1986),CRC出版社·Zbl 0617.62042号
[37] Tang,Y。;张义清。;Chawla,N.V.公司。;Krasser,S.,高度不平衡分类的SVM建模,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),39,281-288(2009)
[38] 王,S。;Yao,X.,《多类不平衡问题:分析和潜在解决方案》,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),421119-1130(2012)
[39] 王,S。;Yao,X.,使用类不平衡学习进行软件缺陷预测,IEEE Trans。信实。,62, 434-443 (2013)
[40] Weatherunderground.com,历史数据。[在线]。可用:https://www.wunderground.com/history网站/; Weatherunderground.com,历史数据。[在线]。可用:https://www.wunderground.com/history(网址:https://www.wunderground.com/history)/
[41] 魏斯,G.M。;Provost,F.,《训练数据昂贵时的学习:类别分布对树归纳的影响》,J.Artif。智力。决议,19,315-354(2003)·Zbl 1046.68094号
[42] Woyte,A。;贝尔曼斯,R。;Nijs,J.,《瞬时清晰度指数的波动:分析和统计》,太阳能,81195-206(2007)
[43] Woyte,A。;Van Thong,V。;贝尔曼斯,R。;Nijs,J.,光伏系统引入的配电水平上的电压波动,IEEE Trans。能量转换。,21, 202-209 (2006)
[44] 吴,X。;朱,X。;吴国庆。;丁伟,大数据数据挖掘,IEEE Trans。知识。数据工程,26,97-107(2014)
[45] Xiao,Y。;刘,B。;Hao,Z.,《基于球体描述的多实例学习方法》,IEEE Trans。模式分析。机器。智力。,39, 242-257 (2017)
[46] 姚明,Y。;Tong,H。;谢涛。;Akoglu,L。;徐,F。;Lu,J.,检测社区问答网站中的高质量帖子,信息科学。,302, 70-82 (2015)
[47] Yeung,D.S。;Li,J.-C。;Ng、W.W。;Chan,P.P.,通过训练误差和随机灵敏度的多目标优化进行MLPNN训练,IEEE Trans。神经网络。学习。系统。,27, 978-992 (2016)
[48] 张,F。;Chan,P.P。;比吉奥,B。;Yeung,D.S。;Roli,F.,对抗规避攻击的对抗特征选择,IEEE Trans。赛博。,46766-777(2016)
[49] 张,X。;Hu,B.-G.,《班级不平衡问题中的无成本学习新策略》,IEEE Trans。知识。数据工程,26,2872-2885(2014)
[50] 周,Z.-H。;Liu,X.-Y.,用解决阶级不平衡问题的方法训练成本敏感型神经网络,IEEE Trans。知识。数据工程,18,63-77(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。