×

大规模多类数据集逻辑分析的有效特征选择。 (英语) Zbl 1473.90147号

摘要:数据逻辑分析(LAD)中的特征选择可以转化为一个集合覆盖问题。本文利用LAD扩展了二值分类的特征选择结果,提出了一个为多类数据集选择最小必要特征集的数学模型,并相应地为该模型开发了一个既节省内存又节省时间的启发式算法。通过一个小示例说明了该算法的实用性,并通过对UCI存储库中6个真实的多类数据集的实验验证了我们工作的优越性。

MSC公司:

90C27型 组合优化
90 C90 数学规划的应用

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alexe,G。;Hammer,PL,《数据逻辑分析的跨度模式》,离散应用数学,154,7,1039-1049(2006)·Zbl 1090.68094号
[2] Alexe,G。;Alexe,S。;利奥塔,洛杉矶;Petricoin,E。;Reiss,M。;Hammer,PL,通过蛋白质数据的逻辑分析检测卵巢癌,蛋白质组学,4766-783(2004)
[3] Alexe G,Alexe S,Axelrod DE,Bonates T,Lozina II,Reiss M,Hammer PL(2006)通过基因表达数据的组合分析预测乳腺癌。乳腺癌研究8R41
[4] Alexe,G。;Alexe,S。;博纳特斯,TO;Kogan,A.,《数据逻辑分析——Peter L.Hammer的愿景》,《Ann Math Artif Intell》,第49期,第265-312页(2007年)·兹比尔1126.68064
[5] Alexe,S。;Hammer,PL,数据逻辑分析中模式检测的加速算法,离散应用数学,1541050-1063(2006)·兹比尔1090.68095
[6] Alexe,S。;Blackstone,E。;液压锤,PL;Ishwaran,H。;劳尔,理学硕士;Snader,CEP,通过数据逻辑分析预测冠心病风险,《Ann Op Res》,119,15-42(2003)·Zbl 1026.62119号
[7] Avila-Herrera JF,Subasi MM(2015)《多类数据的逻辑分析》。2015年拉丁美洲计算机会议(CLEI),第1-10页
[8] 贝恩,TC;阿维拉·赫雷拉,JF;苏巴西,E。;Subasi,MM,《放松模式下多类数据的逻辑分析》,《Ann Op Res》,287,11-35(2020)·Zbl 1434.68392号
[9] 巴拉斯,E。;Carrera,MC,用于集合覆盖问题的基于动态次梯度的分枝定界方法,Op-Res,44,6,875-890(1996)·Zbl 0879.90155号
[10] 博纳特斯,TO;锤子,PL;Kogan,A.,数据集中的最大模式,离散应用数学,156,6846-861(2008)·Zbl 1140.68457号
[11] Boros,E。;锤子,PL;茨城,T。;Kogan,A.,《数值数据的逻辑分析》,《数学程序》,79,163-190(1997)·Zbl 0887.90179号
[12] Boros,E。;锤子,PL;茨城,T。;Kogan,A。;Mayoraz,E。;Muchnik,I.,《数据逻辑分析的实现》,IEEE Trans Knowl data Eng,12292-306(2000)
[13] 阿肯色州布兰农;A.Reddy。;塞勒,M。;阿雷奥拉,A。;摩尔,DT;普鲁西,RS;沃伦,EM;尼尔森,M。;刘,H。;肯塔基州内森森;永贝里,B。;赵,H。;Brooks,JD;Ganesan,S。;巴诺,G。;Rathmell,WK,通过一致性聚类对肾透明细胞癌进行分子分层,揭示了不同的亚型和生存模式,《基因癌症》,1,2,152-163(2010)
[14] 布劳纳,MW;布劳纳,N。;锤子,PL;洛齐纳,I。;Valeyre,D.,区分特发性间质性肺炎实体的计算机断层扫描数据的逻辑分析,data Min Biomed,7193-208(2007)
[15] Bruni,R.,《数据逻辑分析中支持集选择问题的重构》,《Ann Op Res》,150,79-92(2007)·Zbl 1133.62300号
[16] Cai Z,Xu L,Shi Y,Salavatipour MR,Goebel R,Lin G(2006)利用基因聚类识别具有较高分类精度的歧视性基因。摘自:第六届IEEE生物信息学和生物工程研讨会(BIBE'06),第235-242页,10.1109/BIBE.2006.253340
[17] 蔡,Z。;Goebel,R。;马里兰州萨拉瓦蒂波尔;Lin,G.,选择不同的基因进行多类分类,在癌症分型中的应用,BMC生物信息,8,206,1-15(2007)
[18] Cai Z,Miao D,Li Y(2019)多密钥保留连接查询的删除传播:近似和复杂性。2019年IEEE第35届国际数据工程会议(ICDE),第506-517页,10.1109/ICDE.2019.00052
[19] 卡普拉拉。;菲舍蒂,M。;Toth,P.,集合覆盖问题的启发式方法,Op-Res,47,5,730-743(1999)·Zbl 0976.90086号
[20] Ceria,S。;Nobili,P。;Sassano,A.,大型集合覆盖问题的基于拉格朗日的启发式算法,《数学程序》,81,2,215-228(1998)·Zbl 0919.90085号
[21] Chvatal,V.,《集合覆盖问题的贪婪启发式》,《数学运算研究》,4,3,233-235(1979)·Zbl 0443.90066号
[22] Crama,Y。;锤子,PL;Ibaraki,T.,因果关系和部分定义布尔函数,《Ann Op Res》,第16期,第299-326页(1988年)·Zbl 0709.03533号
[23] Das、TK;阿德普,S。;周,J.,《使用数据逻辑分析的工业控制系统异常检测》,《计算安全》,第16期,第299-326页(2020年)
[24] 马里兰州费希尔;Kedia,P.,使用双重启发式的集合覆盖/划分问题的最优解,《管理科学》,36674-688(1990)·Zbl 0706.90048号
[25] 加拉尔,M。;费尔南德斯,A。;Barrenechea,E。;Bustince,H。;Herrera,F.,《多类问题中二进制分类器集成方法概述:一对一和一对所有方案的实验研究》,模式识别,441761-1776(2011)
[26] 古布斯卡娅,AV;博纳特斯,TO;霍洛多维奇,V。;锤子,P。;威尔士,WJ;兰格,R。;Kohn,J.,聚合物基因递送结构-活性研究中数据的逻辑分析,Macromol Theory Simul,20,4275-285(2011)
[27] 郭,C。;Ryoo,HS,最优和帕累托最优LAD模式的紧凑MILP模型,离散应用数学,160,2339-2348(2012)·Zbl 1248.68404号
[28] Hammer PL(1986)部分定义的布尔函数和因果关系
[29] Jocelyn,S。;Chinniah,Y。;瓦利,M。;Yacout,S.,基于稀缺数据的数据逻辑分析在机械相关事故预防中的应用,Reliab Eng Syst Safety,159,223-236(2017)
[30] Jocelyn,S。;瓦利,理学硕士;Chinniah,Y.,《使用调查系统方法和数据逻辑分析估算机械安全危害概率》,《安全科学》,105,32-45(2018)
[31] Kim,HH;Choi,JY,使用具有灵活染色体和多个群体的迭代遗传算法生成多类LAD的模式,Expert Syst App,42,833-843(2015)
[32] Kim,K。;Ryoo,HS,一种基于LAD的方法,用于选择用于基因分型应用的短寡核苷酸探针,OR Spectr,30,249-268(2008)·Zbl 1134.92331号
[33] Kohli,R。;Krishnamurtib,R。;Jedidi,K.,乳腺癌诊断的子集联合规则,离散应用数学,1541100-112(2006)·Zbl 1086.92027号
[34] Kronek,有限合伙人;Reddy,A.,生存数据的逻辑分析:通过检测右偏数据中的高水平交互作用预测生存模型,生物信息学,24,i248-i253(2008)
[35] Lichman M(2013)UCI机器学习库。网址:http://archive.ics.uci.edu/ml
[36] Miao,D。;蔡,Z。;Li,J.,《关于联合查询的有界视图传播的复杂性》,IEEE Trans Knowl Data Eng,30,1,115-127(2018)
[37] Miao,D。;蔡,Z。;Li,J.等人。;高,X。;Liu,X.,最优子集修复的计算,Proc VLDB Endow,13,11,2061-2074(2020)
[38] Miao,D。;蔡,Z。;刘,X。;Li,J.,功能依赖性限制插入传播,Theor Compute Sci,819,1-8(2020)·Zbl 1440.68058号 ·doi:10.1016/j.tcs.2017.03.043
[39] 莫塔达,M。;卡罗尔,T。;雅库特,S。;Lakis,A.,《流氓成分:使用数据逻辑分析的影响和控制》,《智能制造杂志》,第23期,第289-302页(2012年)
[40] 马萨诸塞州莫塔达;雅库特,S。;Lakis,A.,《使用数据逻辑分析对转子轴承进行诊断》,《质量维护工程师杂志》,17,4,371-397(2011)
[41] 马萨诸塞州莫塔达;雅库特,S。;Lakis,A.,使用数据的多类逻辑分析进行电力变压器故障诊断,J Intell Manuf,25,61429-1439(2014)·doi:10.1007/s10845-013-0750-1
[42] 拉加布,A。;乌阿里,M。;雅库特,S。;Osman,H.,《使用基于数据逻辑分析和卡普兰-迈耶估计的预测方法预测剩余使用寿命》,《智能制造杂志》,27943-958(2016)
[43] 拉加布,A。;El-Koujok,M。;Poulin,B。;阿马祖,M。;Yacout,S.,《基于数据逻辑分析的可解释模式在工业化学过程中的故障诊断》,专家系统应用,95,368-383(2018)
[44] Ryoo HS,Jang IY(2007)从大型数据集中选择支持特征的启发式方法。收录人:Kao M,Li X(eds)《信息与管理中的算法问题》,第三届国际会议,2007年6月6日至8日,美国俄勒冈州波特兰,AAIM 2007,Springer,计算机科学讲稿,第4508卷,第411-423页,10.1007/978-3-540-72870-2_39·Zbl 1137.68362号
[45] Ryoo,HS;Jang,IY,数据逻辑分析中模式生成的MILP方法,离散应用数学,157749-761(2009)·Zbl 1172.90010号
[46] 沙班,Y。;雅库特,S。;Balazinski,M.,《基于模式识别和数据逻辑分析的刀具磨损监测和报警系统》,《制造科学与工程杂志》,137,3,1-14(2015)
[47] 沙班,Y。;Meshreki,M。;雅库特,S。;Balazinski,M。;Attia,H.,基于模式识别的碳纤维增强聚合物布线过程控制,《智能制造杂志》,28,1,165-179(2017)
[48] 沙班,Y。;雅库特,S。;Balazinski,M。;Jemielniak,K.,《使用数据的多类逻辑分析进行刀具磨损检测》,J Mach Sci-Technol,21,3,1-16(2017)
[49] 雅库特,S。;丹麦语,A。;萨达尼,S。;卡蓬戈,J。;马尼,S。;Gomes,J.,从临床程序和阿尔茨海默病之间因果关系的观察数据中发现知识,《公共卫生杂志》,第2期,第1-10页(2013年)
[50] Yan,K。;Ryoo,HS,0-1多线性规划作为LAD模式生成的统一理论,离散应用数学,218,21-39(2017)·Zbl 1358.90075号
[51] Yan,K。;Ryoo,HS,布尔逻辑模式生成的强有效不等式,J Global Optim,69,1,183-230(2017)·Zbl 1408.90184号
[52] Yan K,Ryoo HS(2019a)用于布尔逻辑模式生成的0-1多线性程序的多项线性化的Cliques。收录:Thi HAL,Le HM,Dinh TP(eds)《复杂系统优化:理论、模型、算法和应用》,WCGO 2019,全球优化世界大会,法国梅茨,2019年7月8日至10日,Springer,《智能系统和计算进展》,第991卷,第376-386页,10.1007/978-3-030-21803-4_38·Zbl 1414.90025号
[53] Yan,K。;Ryoo,HS,用于布尔逻辑模式生成的0-1多线性函数的多项多面体松弛,J Global Optim,74,4,705-735(2019)·Zbl 1434.90093号
[54] Yang,K。;蔡,Z。;Li,J.等人。;Lin,G.,微阵列数据分析中的稳定基因选择,BMC生物信息,7,228,1-16(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。