×

用于数据逻辑分析的多模式生成框架。 (英语) Zbl 1404.68097号

摘要:数据逻辑分析(LAD)是一种基于规则的数据挖掘算法,使用组合优化和布尔逻辑进行二进制分类。其目标是构建一个由逻辑模式(规则)组成的分类模型,该逻辑模式从观察中捕获结构化信息。在LAD框架的四个步骤(二值化、特征选择、模式生成和模型构建)中,模式生成被认为是最重要的步骤。文献中主要研究了生成所有可能模式的组合枚举方法;然而,这些方法受到了模式生成的计算复杂性的影响,模式生成随着数据(特征)大小呈指数级增长。为了克服这个问题,最近的研究提出了基于列生成的方法来提高以最大利润为目标构建LAD模型的效率。有效地解决子问题以生成模式仍然存在困难。在本研究中,提出了一个新的列生成框架,其中开发了一种新的混合整数线性规划方法,以在每次迭代时生成子问题中具有最大覆盖率的多个模式。除了最大裕度目标之外,我们还提出了一个替代目标(最小模式),将LAD问题作为最小集覆盖问题来解决。提出的方法是根据加州大学欧文机器学习库的数据集进行评估的。与先前的LAD和其他众所周知的分类算法相比,计算实验提供了可比较的性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
90C09型 布尔编程
90C27型 组合优化

软件:

UCI-毫升威卡4.5条
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alexe,S.、Blackstone,E.、Hammer,P.L.、Ishwaran,H.、Lauer,M.S.和Snader,C.E.P.(2003)。通过数据逻辑分析预测冠心病风险。《运筹学年鉴》,19(1-4),15-42·Zbl 1026.62119号 ·doi:10.1023/A:1022970120229
[2] Alexe,G.、Alexe、S.、Liotta,L.A.、Petricoin,E.、Reiss,M.和Hammer,P.L.(2004)。通过蛋白质组数据的逻辑分析检测卵巢癌。蛋白质组学,4(3),766-783·doi:10.1002/pmic.200300574
[3] Alexe,G.、Alexe、S.、Axelrod,D.E.、Hammer,P.L.和Weissmann,D.(2005)。弥漫性大B细胞淋巴瘤的逻辑分析。医学中的人工智能,34(3),235-267·doi:10.1016/j.artmed2004.11.004
[4] Alexe,G.和Hammer,P.L.(2006)。数据逻辑分析的跨模式。离散应用数学,154(7),203-225。
[5] Alexe,S.和Hammer,P.L.(2006)。数据逻辑分析中模式检测的加速算法。离散应用数学,154(7),1050-1063·兹比尔1090.68095 ·doi:10.1016/j.dam.2005.03.032
[6] Alexe,G.、Alexe、S.、Bonates,T.O.和Kogan,A.(2007年)。数据逻辑分析——彼得·哈默的愿景。《运筹学年鉴》,149(1-4),265-312·兹比尔1126.68064
[7] Alexe,G.和Hammer,P.L.(2007)。数据逻辑分析中基于模式的判别法。生物医学中的数据挖掘,7,3-23。
[8] Alexe,G.、Alexe、S.、Hammer,P.L.和Kogan,A.(2008年)。数据逻辑分析中的综合分类器与可理解分类器。离散应用数学,156(6),870-882·Zbl 1142.62365号 ·doi:10.1016/j.dam.2005.02.035
[9] Barnhart,C.、Johnson,E.L.和Nemhauser,G.L.(1998年)。分支与价格:用于解决大型整数程序的列生成。运筹学,46(3),316-329·Zbl 0979.90092号 ·doi:10.1287/opre.46.3.316
[10] Bonates,T.O.(2007)。数据逻辑分析的优化。博士论文,罗格斯大学,RUTCOR。
[11] Bonates,T.O.、Hammer,P.L.和Kogan,A.(2008)。数据集中的最大模式。离散应用数学,156(6),846-861·Zbl 1140.68457号 ·doi:10.1016/j.dam.2007.06.004
[12] Boros,E.、Hammer,P.L.、Ibaraki,T.、Kogan,A.、Mayoraz,E.和Muchnik,I.(2000)。数据逻辑分析的实现。IEEE知识与数据工程汇刊,12(2),292-306·数字对象标识代码:10.1109/69.842268
[13] Breiman,L.(2001)。随机森林。机器学习,45(1),5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[14] Crama,Y.、Hammer,P.L.和Ibaraki,T.(1988)。因果关系和部分定义的布尔函数。《运筹学年鉴》,16(1),299-325·Zbl 0709.03533号 ·doi:10.1007/BF02283750
[15] Demiriz,A.、Bennett,K.P.和Shawe-Taylor,J.(2002年)。通过列生成增强线性编程。机器学习,46,225-254·Zbl 0998.68105号 ·doi:10.1023/A:1012470815092
[16] Dolan,E.D.和More,J.J.(2002)。使用性能配置文件对优化软件进行基准测试。数学规划,91(2),201-213·邮编:1049.90004 ·doi:10.1007/s101070100263
[17] Eckstein,J.、Hammer,P.L.、Liu,Y.、Nediak,M.和Simeone,B.(2002)。最大盒问题及其在数据分析中的应用。计算优化与应用,23(3),285-298·Zbl 1028.90039号 ·doi:10.1023/A:1020546910706
[18] Hall,M.、Frank,E.、Holmes,G.、Pfahringer,B.、Reutemann,P.和Witten,I.H.(2009)。weka数据挖掘软件:更新;sigkdd探索。SIGKDD探索,11(1),11-18·数字对象标识代码:10.1145/1656274.1656278
[19] Hammer,P.L.(1986)。因果关系的逻辑。在德国帕绍,通过基于运筹学的专家系统进行多属性决策国际会议上的演讲。
[20] Hammer,P.L.、Kogan,A.、Simeone,B.和Szedmák,S.(2004)。数据逻辑分析中的帕累托最优模式。离散应用数学,144(1),79-102·Zbl 1078.62504号 ·doi:10.1016/j.dam.2003.08.013
[21] Hammer,P.L.、Kogan,A.和Lejeune,M.A.(2010年)。逆向工程国家风险评级:一个组合非递归模型。《运筹学年鉴》,188(1),185-213·doi:10.1007/s10479-009-0529-0
[22] Hansen,P.和Meyer,C.(2011年)。用于数据逻辑分析的新列生成算法。《运筹学年鉴》,188,215-249·Zbl 1225.90175号 ·doi:10.1007/s10479-011-0850-2
[23] Haykin,S.(1998)。应用逻辑回归。新泽西州恩格尔伍德悬崖:普伦蒂斯·霍尔。
[24] Hosmer,D.W.和Lemeshow,S.(1989)。应用逻辑回归。纽约:Wiley·Zbl 0967.62045号
[25] Kogan,A。;马萨诸塞州勒琼;Lee,C-F(编辑);Lee,AC(编辑);Lee,J.(编辑),构建信用风险评级的组合方法,639-664(2010),纽约·doi:10.1007/978-0-387-77117-543
[26] Lauer,M.S.、Alexe,S.、Snader,C.E.P.、Blackstone,E.H.、Ishwaran,H.和Hammer,P.L.(2002)。使用数据逻辑分析方法评估运动心电图术后的长期死亡率风险。循环,106590-685·doi:10.1161/01.CIR.0000024410.15081.FD
[27] Lichman,M.(2013)。UCI机器学习库。http://archive.ics.uci.edu/ml。
[28] Quinlan,J.R.(1993)。C4.5:机器学习程序。马萨诸塞州伯灵顿:摩根·考夫曼。
[29] Reddy,A.、Wang,H.、Yu,H.,Bonates,T.O.、Gulabani,V.、Azok,J.等人(2008年)。急性缺血性卒中早期诊断的数据逻辑分析(lad)模型。BMC医学信息与决策,8(30)。
[30] Ryoo,H.S.和Jang,I.Y.(2009年)。数据逻辑分析中模式生成的MILP方法。离散应用数学,157(4),749-761·Zbl 1172.90010号 ·doi:10.1016/j.dam.2008.07.005
[31] Schökopf,B.和Smola,A.J.(2002)。使用内核学习:支持向量机、正则化、优化及其他。马萨诸塞州剑桥:麻省理工学院出版社。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。