赖春星;陶英山;徐方元;Ng,Wing W.Y。;贾有伟;袁浩良;黄超;Lai、Loi Lei;徐,赵;乔治·罗泰利 具有不确定性的不平衡和二分数据的稳健相关性分析框架。 (英语) Zbl 1441.68208号 信息科学。 470, 58-77 (2019). 摘要:相关性分析是识别类之间依赖性的基本数学工具之一。然而,由于数据集中的方差误差,分析的准确性可能会受到影响。本文对皮尔逊产品矩相关(PPMC)分析中不平衡数据的影响进行了数学分析。为了解决这个问题,提出了一种新的框架——稳健相关分析框架(RCAF),以提高相关分析的准确性。综述了机器学习中由于数据不平衡和数据不确定性引起的问题。通过对南非约翰内斯堡真实太阳辐照度和天气状况数据的深入分析,对所提出的框架进行了测试。此外,还将相关分析与主要抽样技术,即合成少数过抽样技术(SMOTE)和自适应合成抽样技术(ADASYN)进行了比较。最后,利用K-Means聚类和Wards聚类对相关结果进行了研究。与传统的PPMC相比,RCAF可以在32.5%–93.02%的范围内降低不平衡数据下相关系数的标准偏差。 引用于1文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 62H20个 关联度量(相关性、典型相关性等) 62H30型 分类和区分;聚类分析(统计方面) 62页第12页 统计在环境和相关主题中的应用 关键词:皮尔逊生产-动量相关性;不平衡数据;清晰度;二分变量 软件:阿达欣;SMOTE公司 PDF格式BibTeX公司 XML格式引用 \textit{C.S.Lai}等人,《信息科学》。470、58--77(2019年;Zbl 1441.68208) 全文: 内政部 链接 参考文献: [1] 阿明,A。;Anwar,S。;阿德南,A。;纳瓦兹,M。;北卡罗来纳州霍华德。;卡迪尔,J。;哈瓦拉,A。;Hussain,A.,《比较过采样技术处理类别不平衡问题:客户流失预测案例研究》,IEEE Access,47940-7957(2016) [2] 巴图维塔,R。;Palade,V.,FSVM-CIL:用于类不平衡学习的模糊支持向量机,IEEE Trans。模糊系统。,18, 558-571 (2010) [3] Chawla,N.V.公司。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,SMOTE:合成少数人过采样技术,J.Artif。智力。第16号决议,第321-357页(2002年)·Zbl 0994.68128号 [4] Chow,T.W。;王,P。;Ma,E.W.,使用无监督标称数据的数据分布因子的新特征选择方案,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),38,499-509(2008) [5] 迪亚曼蒂尼,C。;Potena,D.,类不平衡问题的贝叶斯矢量量化器,IEEE Trans。知识。数据工程,21638-651(2009) [6] 迪奥·R。;Chao,F。;彭,T。;斯诺克,N。;Shen,Q.,受特征选择启发的分类器集成约简,IEEE Trans。赛博。,44, 1259-1268 (2014) [7] 迪奥·R。;Shen,Q.,和声搜索的特征选择,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),421509-1523(2012) [8] Duin,R.P.W.,关于概率密度函数Parzen估计的平滑参数的选择,IEEE Trans。计算。,C-251175-1179(1976)·Zbl 0359.93035号 [9] 弗朗西斯,D.P。;Coats,A.J。;Gibson,D.G.,相关系数能有多高?《普通心脏病学测量的有限再现性的影响》,国际心脏病杂志。,69, 185-189 (1999) [10] Habbema,J.,使用密度估计的逐步判别分析程序,(Compstat.Physica-Verlag(1974)),101-110 [11] He,H。;Bai,Y。;加西亚,E.A。;Li,S.,ADASYN:不平衡学习的自适应合成采样方法,(IEEE国际联合会议,IEEE(2008)),1322-1328,神经网络,2008。IJCNN 2008.(IEEE世界计算智能大会) [12] He,H。;Garcia,E.A.,《从不平衡数据中学习》,IEEE Trans。知识。数据工程,21,1263-1284(2009) [13] 科拉德曼达,S。;俄亥俄州线虫。;Ayoobia,A.R.,使用集成人工神经网络(ANN)方法预测Clearness指数,可再生可持续性。《能源评论》,58,1357-1365(2016) [14] Krstic,M。;Bjelica,M.,《阶级不平衡对个性化节目指南性能的影响》,IEEE Trans。消费电子。,61, 90-95 (2015) [15] 赖,C.S。;贾毅。;McCulloch,M。;Xu,Z.,光伏系统每日清洁度指数曲线聚类分析,IEEE Trans。工业。通知。,13, 2322-2332 (2017) [16] 赖,C.S。;Lai,L.L.,大数据在智能电网中的应用,(系统、人与控制论(SMC),2015年IEEE国际会议(2015年),IEEE),665-670 [17] 赖,C.S。;李,X。;Lai,L.L.公司。;McCulloch,M.D.,《光伏系统的每日清洁指数概况和天气条件研究》,《能源媒体》,142,77-82(2017) [18] 赖,C.S。;McCulloch,M.D.,《带厌氧消化沼气发电厂的独立太阳能光伏和存储系统的尺寸确定》,IEEE Trans。工业。电子。,64, 2112-2121 (2017) [19] 李博士。;刘长伟。;Hu,S.C.,《利用医学数据集解决班级不平衡问题的学习方法》,计算机。生物医学,40509-518(2010) [20] 林,M。;Tang,K。;Yao,X.,用于训练神经网络进行多类不平衡分类的动态采样方法,IEEE Trans。神经网络学习。系统。,24, 647-660 (2013) [21] 刘杰。;方,W。;张,X。;Yang,C.,利用气溶胶指数数据改进的光伏功率预测模型,IEEE Trans。维持。能源,6434-442(2015) [22] 刘晓云。;吴杰。;Zhou,Z.-H.,《班级平衡学习的探索性欠采样》,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),39,539-550(2009) [23] 刘,Y。;潘·T。;Aluru,S.,英特尔xeon phi集群上的并行成对相关计算,(计算机体系结构与高性能计算(SBAC-PAD),2016年第28届国际研讨会(2016年),IEEE),141-149 [24] 刘,Y。;唐,F。;Zeng,Z.,基于依存度的特征选择,IEEE Trans。赛博。,451209-1221(2015) [25] Locatelli,G。;米奇,M。;科瓦切维奇,M。;新泽西州布鲁克斯。;Ivanišević,N.,《大型项目的成功交付:一种新的研究方法》,项目管理。J.,48,78-94(2017) [26] 马洛夫,J.M。;Mazurowski,医学硕士。;Tourassi,G.D.,类别不平衡对基于案例分类器的案例选择的影响:医疗决策支持背景下的实证研究,神经网络。,25, 141-145 (2012) [27] 米斯,D。;Wyner,A.J。;Buja,A.,Boosted分类树和类概率/分位数估计,J.Mach。学习。第8号决议,第409-439页(2007年)·Zbl 1222.68261号 [28] Mitra,P。;Murthy,C。;Pal,S.K.,使用特征相似性的无监督特征选择,IEEE Trans。模式分析。机器。智力。,24, 301-312 (2002) [29] 默塔格,F。;Legendre,P.,Ward的层次凝聚聚类方法:哪些算法实现了Ward的准则?,J.分类。,31, 274-295 (2014) ·Zbl 1360.62344号 [30] Ng、W.W。;胡,J。;Yeung,D.S。;尹,S。;Roli,F.,《不平衡分类问题的基于灵敏度的多样化欠采样》,IEEE Trans。赛博。,45, 2402-2412 (2015) [31] 哦,I.-S。;Lee,J.-S。;Moon,B.-R.,用于特征选择的混合遗传算法,IEEE Trans。模式分析。机器。智力。,26, 1424-1437 (2004) [32] 拉赫曼,A。;史密斯,D.V。;Timms,G.,传感器数据质量评估的新型机器学习方法,IEEE Sensors J.,14,1035-1047(2014) [33] Ratner,B.,相关系数:其值在+1/−1之间,还是?,J.目标。,米苏尔。分析。市场。,17, 139-142 (2009) [34] 医学博士鲁伊斯。;Hüllermeier,E.,模糊伽玛秩相关系数的形式化和实证分析,Inf.Sci。,206, 1-17 (2012) ·Zbl 1314.68313号 [35] 塞弗特,C。;Khoshgoftaar,T.M。;Van Hulse,J。;Napolitano,A.,RUSBoost:缓解阶级不平衡的混合方法,IEEE Trans。系统。,天啊,赛博-A部分,40,185-197(2010) [36] Silverman,B.W.,《统计和数据分析密度估计》(1986),CRC出版社·Zbl 0617.62042号 [37] Tang,Y。;张义清。;Chawla,N.V.公司。;Krasser,S.,高度不平衡分类的SVM建模,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),39,281-288(2009) [38] 王,S。;Yao,X.,《多类不平衡问题:分析和潜在解决方案》,IEEE Trans。系统。,人,赛博。,B部分(Cybern.),421119-1130(2012) [39] 王,S。;Yao,X.,使用类不平衡学习进行软件缺陷预测,IEEE Trans。信实。,62, 434-443 (2013) [40] Weatherunderground.com,历史数据。[在线]。可用:https://www.wunderground.com/history网站/; Weatherunderground.com,历史数据。[在线]。可用:https://www.wunderground.com/history(网址:https://www.wunderground.com/history)/ [41] 魏斯,G.M。;Provost,F.,《训练数据昂贵时的学习:类别分布对树归纳的影响》,J.Artif。智力。决议,19,315-354(2003)·Zbl 1046.68094号 [42] Woyte,A。;贝尔曼斯,R。;Nijs,J.,《瞬时清晰度指数的波动:分析和统计》,太阳能,81195-206(2007) [43] Woyte,A。;Van Thong,V。;贝尔曼斯,R。;Nijs,J.,光伏系统引入的配电水平上的电压波动,IEEE Trans。能量转换。,21, 202-209 (2006) [44] 吴,X。;朱,X。;吴国庆。;丁伟,大数据数据挖掘,IEEE Trans。知识。数据工程,26,97-107(2014) [45] Xiao,Y。;刘,B。;Hao,Z.,《基于球体描述的多实例学习方法》,IEEE Trans。模式分析。机器。智力。,39, 242-257 (2017) [46] 姚明,Y。;Tong,H。;谢涛。;Akoglu,L。;徐,F。;Lu,J.,检测社区问答网站中的高质量帖子,信息科学。,302, 70-82 (2015) [47] Yeung,D.S。;Li,J.-C。;Ng、W.W。;Chan,P.P.,通过训练误差和随机灵敏度的多目标优化进行MLPNN训练,IEEE Trans。神经网络。学习。系统。,27, 978-992 (2016) [48] 张,F。;Chan,P.P。;比吉奥,B。;Yeung,D.S。;Roli,F.,对抗规避攻击的对抗特征选择,IEEE Trans。赛博。,46766-777(2016) [49] 张,X。;Hu,B.-G.,《班级不平衡问题中的无成本学习新策略》,IEEE Trans。知识。数据工程,26,2872-2885(2014) [50] 周,Z.-H。;Liu,X.-Y.,用解决阶级不平衡问题的方法训练成本敏感型神经网络,IEEE Trans。知识。数据工程,18,63-77(2006) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。