×

监督分类中数据网格模型的最佳同时离散化:贝叶斯模型选择方法。 (英语) Zbl 1231.62030号

摘要:在监督分类的数据准备领域中,变量排序的过滤方法是高效的。然而,它们固有的单变量限制使它们无法检测变量之间的冗余或建设性交互。本文介绍了一种自动、快速、可靠地提取输入变量对分类信息的新方法。它基于将每个输入变量的域同时划分为数值情况下的区间和类别情况下的类别组。由此产生的输入数据网格允许量化两个输入变量和输出变量之间的联合信息。通过最大化贝叶斯模型选择准则来搜索最佳联合划分。密集的实验证明了该方法的优点,尤其是显著提高了分类任务的准确性。

MSC公司:

2015年1月62日 贝叶斯推断
62H30型 分类和区分;聚类分析(统计方面)
62-07 数据分析(统计)(MSC2010)
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abramowitz M,Stegun I(1970)《数学函数手册》。纽约州多佛市·Zbl 0171.38503号
[2] Bay S(2001)集挖掘的多元离散化。马赫数学习3(4):491–512·Zbl 0987.68633号
[3] Berger J(2006)客观贝叶斯分析案例。贝叶斯分析1(3):385–402·Zbl 1331.62042号 ·doi:10.1214/06-BA115
[4] Bernardo J,Smith A(2000)贝叶斯理论。纽约威利·兹比尔0943.62009
[5] Bertier P,Bouroche J(1981)《多维多面体分析》。法兰西大学联合出版社
[6] Blake C,Merz C(1996)UCI机器学习数据库库。http://www.ics.uci.edu/mlearn/MLRepository.html
[7] BouléM(2004)Khiops:连续属性的统计离散化方法。马赫数学习55(1):53–69·Zbl 1067.68121号 ·doi:10.1023/B:MACH.0000019804.29836.05
[8] BouléM(2005)分类属性值划分的贝叶斯优化方法。J Mach学习研究6:1431–1452·Zbl 1222.68153号
[9] BoulléM(2006)MODL:连续属性的贝叶斯最优离散化方法。马赫数学习65(1):131–165·Zbl 1470.68086号 ·数字对象标识代码:10.1007/s10994-006-8364-x
[10] BouléM(2007)选择性朴素贝叶斯分类器的基于压缩的平均。J Mach学习研究8:1659–1685·Zbl 1222.62035号
[11] BouléM(2008)监督学习的双变量数据网格模型。技术报告NSM/R&D/TECH/EASY/TSI/4/MB,法国电信研发。http://perso.rd.francetelecom.fr/boulle/publications/BouleNTTSI4MB08.pdf
[12] Breiman L、Friedman J、Olshen R、Stone C(1984)分类和回归树。加利福尼亚州沃兹沃思国际·Zbl 0541.62042号
[13] Carr D,Littlefield R,Nicholson W,Littelfield J(1987)《美国统计学会大型散点图矩阵技术》82:424–436·doi:10.2307/2289444
[14] Chapman P、Clinton J、Kerber R、Khabaza T、Reinartz T、Shearr C、Wirth R(2000)CRISP-DM 1.0:逐步数据挖掘指南
[15] Cochran W(1954)一些加强普通四方形检验的方法。生物计量学10(4):417–451·Zbl 0059.12803号 ·数字对象标识代码:10.2307/3001616
[16] Connor-Linton J(2003)《卡方教程》。http://www.georgetown.edu/faculty/ballc/webtools/web_chi_tut.html
[17] Fayyad U,Irani K(1992)关于决策树生成中连续值属性的处理。马赫数学习8:87–102·Zbl 0767.68084号
[18] Goldstein M(2006)《主观贝叶斯分析:原理与实践》。贝叶斯分析1(3):403–420·兹比尔1331.62047 ·doi:10.1214/06-BA116
[19] Guyon I,Elisseeff A(2003)变量和特征选择简介。马赫学习研究杂志3:1157–1182·Zbl 1102.68556号 ·doi:10.1162/153244303322753616
[20] Guyon I,Gunn S,Hur AB,Dror G(2006)NIPS2003挑战的设计与分析。收录:Guyon I、Gunn S、Nikravesh M、Zadeh L(编辑)《特征提取:基础和应用》,第9章。纽约州施普林格,第237-263页
[21] Hansen P,Mladenovic N(2001)《可变邻域搜索:原理和应用》。欧洲运营研究杂志130:449–467·Zbl 0981.90063号 ·doi:10.1016/S0377-2217(00)00100-4
[22] Holte R(1993)非常简单的分类规则在最常用的数据集上表现良好。马赫学习11:63–90·Zbl 0850.68278号 ·doi:10.1023/A:1022631118932
[23] Kass G(1980)用于调查大量分类数据的探索性技术。应用统计29(2):119–127·doi:10.2307/2986296
[24] Kerber R(1992)数值属性的ChiMerge离散化。摘自:第十届国际人工智能会议记录。麻省理工学院出版社,剑桥,第123–128页
[25] Kohavi R,John G(1997)《特征选择包装器》。Artif Intell 97(1-2):273–324·Zbl 0904.68143号 ·doi:10.1016/S0004-3702(97)00043-X
[26] Kohavi R,Sahami M(1996)基于错误和基于熵的连续特征离散化。摘自:第二届知识发现和数据挖掘国际会议论文集。AAAI出版社,门罗公园,第114-119页
[27] Kononenko I、Bratko I、Roskar E(1984)《医学诊断规则自动学习实验》。卢布尔雅那电气工程与计算机科学学院约瑟夫·斯特凡研究所技术报告
[28] Kurgan L,Cios J(2004)CAIM离散化算法。IEEE Trans Knowl Data Eng 16(2):145–153·doi:10.1109/TKDE.2004.1269594
[29] Kwedlo W,Kretowski M(1999)使用多元离散化进行决策规则归纳的进化算法。内容:数据挖掘和知识发现原理。计算机科学课堂讲稿,第1704卷。柏林施普林格,392–397
[30] Langley P,Iba W,Thompson K(1992)贝叶斯分类器的分析。参加:第十届全国人工智能会议。圣何塞AAAI出版社,第223-228页
[31] Maas W(1994)简单假设下的高效不可知论pac学习。收录:COLT’94:第七届计算学习理论年会论文集。纽约ACM出版社,第67–75页
[32] Nadif M,Govaert G(2005)列联表块聚类与混合模型。收录于:智能数据分析进展VI。计算机科学课堂讲稿,第3646卷。柏林施普林格,第249-259页·Zbl 1165.68418号
[33] Olszak M,Ritschard G(1995)名义和序数部分关联测度的行为。统计学家44(2):195–212·doi:10.2307/2348444
[34] Pyle D(1999)数据挖掘的数据准备。Morgan Kaufmann,旧金山
[35] Quinlan J(1986)《决策树的归纳》。马赫学习1:81–106
[36] 昆兰J(1993)C4.5:机器学习程序。Morgan Kaufmann,旧金山
[37] Rissanen J(1978)《最短数据描述建模》。自动化14:465–471·Zbl 0418.93079号 ·doi:10.1016/0005-1098(78)90005-5
[38] Ritschard G,Nicoloyannis N(2000),交叉表中的聚合和关联。摘自:PKDD'00:第四届欧洲数据挖掘和知识发现原则会议记录。柏林施普林格,第593–598页
[39] Robert C(1997)贝叶斯选择:决策论动机。纽约州施普林格
[40] Saporta G(1990)概率分析与统计。TECHNIP,巴黎·Zbl 0703.62003号
[41] 香农C(1948)传播数学理论。技术报告27,贝尔系统技术期刊·Zbl 1154.94303号
[42] Steck H,Jaakkola T(2004),模型选择期间的预测离散化。模式识别LNCS 3175:1–8·doi:10.1007/978-3-540-28649-3_1
[43] Weaver W,Shannon C(1949)传播数学理论。伊利诺伊大学出版社,乌尔班纳·Zbl 0041.25804号
[44] Zighed D,Rakotomalala R(2000)《诱导葡萄》。法国爱马仕
[45] Zighed D,Rabaseda S,Rakomatalala R(1998)融合:一种用于监督学习的连续属性离散化方法。国际J不确定模糊认知系统6(33):307–326·Zbl 1087.68629号 ·doi:10.1142/S021848859800264
[46] Zighed D,Ritschard G,Erray W,Scuturici V(2005)最优联合分割决策树。国际情报系统杂志20(7):693–718·Zbl 1101.68535号 ·doi:10.1002/int.20091
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。