×

由数据和知识驱动的稳健分层特征选择。 (英语) Zbl 1484.62081号

摘要:标签空间的扩大和不可避免的噪声数据给特征选择带来了巨大的挑战。平面特征选择方法由于类众多,无法获得紧凑的特征子集。此外,这些数据驱动方法对数据异常值很敏感。幸运的是,许多实际任务通常通过从粗到细的层次结构来组织类,并且可以使用分治策略来解决。本文提出了一种基于数据和知识驱动的分层特征选择方法(HFSDK),该方法对数据离群点具有较强的鲁棒性,并通过分割原始的大标签空间来生成紧凑的特征子集。首先,HFSDK将一个大规模的分类任务分解为一组具有多粒度的小子类化任务,这是由层次类结构知识驱动的。然后,使用数据的类标签从下到上构造相应的数据集,这是一个数据驱动的过程。最后,通过消除数据异常值并添加语义关系约束,为这些子任务递归地选择鲁棒和有判别力的特征子集。在六个真实数据集上的实验验证了该方法的优越性能。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Al_Janabi,S。;帕特尔,S。;香港法特拉维。;AlShourbaji,I。;Kalajdzic,K.,云计算环境中数据挖掘任务的经验快速准确预测模型,(国际知识、信息和软件工程会议,第pp卷(2014)),1-8
[2] Alkaim,A.F。;Al_Janabi,S.,从石油生产中减少天然气燃烧的多目标优化,(大数据和网络技术国际会议(2019)),117-139
[3] Asdaghi,F。;Soleimani,A.,一种有效的网页垃圾邮件检测特征选择方法,基于知识的系统,166198-206(2019)
[4] Che,X。;陈,D。;Mi,J.,学习标签相关性的新方法及其在多标签数据特征选择中的应用,信息科学,512,795-812(2020)·Zbl 1456.68145号
[5] Chen,L.,视觉感知中的拓扑结构,《科学》,218,4573,699-700(1982)
[6] 陈,X。;袁,G。;聂,F。;Zhong,M.,通过稀疏重标线性平方回归进行半监督特征选择,IEEE知识与数据工程汇刊,165-176(2020)
[7] Chiew,K.L。;Tan,C.L。;Wong,K。;Yong,K.S.C。;Tiong,W.K.,基于机器学习的钓鱼检测系统的新混合集成特征选择框架,信息科学,484153-166(2019)
[8] 北卡罗来纳州克里斯蒂亚尼尼。;Shawe Taylor,J.,《支持向量机和其他基于内核的学习方法导论》(2000),剑桥大学出版社:剑桥大学出版社,美国纽约
[9] 戴J。;胡,H。;吴,W。;钱,Y。;Huang,D.,模糊粗糙集属性约简的最大可分辨对方法,IEEE模糊系统事务,26,4,2174-2187(2018)
[10] Dekel,O。;Keshet,J。;Singer,Y.,《大幅度分级分类》(机器学习国际会议(2004)),1-8
[11] 迪米特洛夫斯基,I。;科切夫,D。;Loskovska,S。;Deroski,S.,医学图像的层次注释,模式识别,44,10,2436-2449(2011)
[12] 丁,C。;Dubchak,I.,使用支持向量机和神经网络的多类蛋白质折叠识别,生物信息学,17,4,349-358(2001)
[13] 杜达,R.O。;哈特,体育。;斯托克·D·G,《模式分类》(第二版)(2001年),威利·Zbl 0968.68140号
[14] 埃弗林厄姆,M。;Van Gool,L。;威廉姆斯,C.K.I。;Winn,J。;Zisserman,A.,《PASCAL视觉对象类(VOC)挑战》,《国际计算机视觉杂志》,88,2,303-338(2010)
[15] Evgeniou,T。;Pontil,M.,《规则化多任务学习》(ACM SIGKDD知识发现和数据挖掘国际会议(2004)),109-117
[16] 范,J。;张杰。;梅,K。;彭杰。;Gao,L.,用于大规模图像分类和新类别检测的分层树分类器的成本敏感学习,模式识别,48,5,1673-1687(2015)
[17] 范,J。;周,N。;彭杰。;Gao,L.,用于大规模植物物种识别的树分类器层次学习,IEEE图像处理汇刊,24,11,4172-4184(2015)·Zbl 1408.94172号
[18] J.C.Gomez,M.Moens,《基于分层判别分析的网络文档层次分类》,载《信息检索设施会议》,2012年,第94-108页。
[19] Gupta,M.R。;Bengio,S。;Weston,J.,《训练高度多类分类器》,《机器学习研究杂志》,15,11461-1492(2014)·Zbl 1318.68143号
[20] 胡,Q。;Wang,Y。;周,Y。;赵,H。;钱,Y。;Liang,J.,《大规模分类任务的分层学习方法综述》,中国科学院,48,5,7-20(2018)
[21] 贾,D。;克劳斯,J。;A.C.Berg。;Li,F.,对冲你的赌注:优化大规模视觉识别中的准确性-特异性权衡,(IEEE计算机视觉和模式识别会议(2012)),3450-3457
[22] 小C.N.S。;Freitas,A.A.,《跨不同应用领域的分层分类调查》,《数据挖掘与知识发现》,第22、1-2、31-72页(2011年)·Zbl 1235.68190号
[23] Kira,K。;Rendell,L.A.,《特征选择的实用方法》,《机器学习学报》,48,1,249-256(1992)
[24] Kosmopoulos,A。;帕塔拉斯,I。;Gaussier,E。;Paliouras,G。;Androutsopoulos,I.,《等级分类的评估方法:统一观点和新方法》,《数据挖掘和知识发现》,29,3,820-865(2015)·Zbl 1405.62079号
[25] 科托夫,R。;Krueger,R.F。;Watson,D.,《精神病分类的范式转换:精神病理学的层次分类》,《世界精神病学》,17,1,24-25(2018)
[26] 克劳斯,J。;斯塔克,M。;邓,J。;Li,F.,用于细粒度分类的3D对象表示,(IEEE国际计算机视觉研讨会(2013)),554-561
[27] 兰·G。;侯,C。;聂,F。;Luo,T。;Yi,D.,通过同时消减范数和稀疏正则化器最小化进行鲁棒特征选择,神经计算,283228-240(2018)
[28] 李,D。;Ju,Y。;邹强,用层次结构SVM预测蛋白质折叠,《现代蛋白质组学》,13,2,79-85(2016)
[29] 刘杰。;李,M。;兰,W。;Wu,F。;潘,Y。;Wang,J.,使用全脑分层网络对阿尔茨海默病进行分类,IEEE/ACM计算生物学和生物信息学汇刊,15,2,624-632(2018)
[30] Miller,G.A.,WordNet:英语词汇数据库,ACM通讯,38,11,39-41(1995)
[31] Ming,D。;Ding,C.,通过独家ℓ^2,1正规化,(国际人工智能联合会议(2019)),3158-3164
[32] Ming,D。;丁,C。;Nie,F.,套索和ℓ^2,1-范数特征选择,AAAI人工智能会议,33,4586-4593(2019)
[33] 聂,F。;黄,H。;蔡,X。;Ding,C.,通过联合进行高效稳健的特征选择ℓ^2,1-规范最小化,(神经信息处理系统国际会议(2010)),1813-1821
[34] 聂,F。;王,X。;Huang,H.,多层帽ℓ_稳健分类的p-范数SVM(AAAI人工智能会议(2017)),2415-2421
[35] 潘,B。;施,Z。;Xu,X.,基于层次制导滤波的高光谱图像集成分类,IEEE地球科学与遥感汇刊,55,7,4177-4189(2017)
[36] 彭,H。;朗,F。;丁,C.,基于最大依赖、最大相关和最小冗余的互信息准则的特征选择,IEEE模式分析和机器智能学报,27,8,1226-1238(2005)
[37] Schieber,B。;美国维什金,《关于发现最低共同祖先:简化和并行化》,《SIAM计算杂志》,第17期,第111-123页(2006年)·Zbl 0652.68038号
[38] 斯坦因,R.A。;Jaques,P.A。;Valiati,J.F.,《使用单词嵌入的分层文本分类分析》,《信息科学》,471216-232(2019)
[39] 塔芬茨瓦,V。;维涅奥,E。;沙帕瓦尔,V。;卡里奥,V。;坎纳里,E.M。;Kohler,A.,基于高维表型数据的微生物层次分类,《生物光子学杂志》,11,3,1-13(2018)
[40] 陀,Q。;赵,H。;胡琼,基于子树图正则化的层次特征选择,基于知识的系统,163996-1008(2019)
[41] Wang,Y。;胡,Q。;周,Y。;赵,H。;钱,Y。;Liang,J.,基于局部贝叶斯风险最小化的分层分类停止策略,(IEEE国际数据挖掘会议(2017)),515-524
[42] Wei,L。;廖,M。;高,X。;Zou,Q.,通过新型特征提取技术增强蛋白质折叠预测方法,IEEE纳米生物科学汇刊,14,6,649-659(2015)
[43] 吴,X。;He,R。;孙,Z。;Tan,T.,《用噪音标签进行深色面部表现的轻CNN》,《IEEE信息取证与安全交易》,第13、11、2884-2896页(2018年)
[44] Yu,J。;林,Z。;杨,J。;沈,X。;卢,X。;Huang,T.,门控卷积的自由形式图像修复,(IEEE国际计算机视觉会议(2019)),4470-4479
[45] 赵,H。;胡,Q。;朱,P。;Wang,Y。;Wang,P.,基于递归正则化的分层分类特征选择框架,IEEE知识与数据工程汇刊,1-14(2019)
[46] 赵,H。;朱,P。;王,P。;胡琼,递归正则化层次特征选择,(国际人工智能联合会议(2017)),3483-3489
[47] 周,P。;胡,X。;李,P。;Wu,X.,基于自适应邻域粗糙集的在线流媒体特征选择,信息科学,481258-279(2019)
[48] 周,Y。;胡,Q。;王毅,长尾分布式图像分类的深度超类学习,模式识别,80,118-128(2018)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。