×

通过弥散校正的子组发现确定关于数值数据的一致陈述。 (英语) Zbl 1411.68095号

摘要:现有的具有数值目标的子组发现算法并没有优化它们所发现的组的误差或目标变量离散度。这常常导致对数据的不可靠或不一致的陈述,使得实际应用,尤其是在科学领域中,变得徒劳。因此,我们在这里将最优子群发现的乐观估计框架扩展到一类新的目标函数:我们展示了对于由子群大小(非递减相关性)、子群中值、,以及中位数周围的离散度(非增加依赖性)。在重要的特殊情况下,当使用与中值的平均绝对偏差测量色散时,这种新方法产生了线性时间算法。对大量数据集的实证评估表明,当在分支定界搜索中使用时,此方法非常有效,并且确实可以发现包含许多较小的错误。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)

软件:

JStatCom公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] AlcaláJ、Fernández A、Luengo J、Derrac J、GarcíA S、Sánchez L、Herrera F(2010)《Keel数据挖掘软件工具:数据集存储库、算法集成和实验分析框架》。多值对数软计算杂志17(2-3):255-287
[2] Atzmueller M(2015)子组发现。威利磁盘间版本数据最小知识发现5(1):35-49·doi:10.1002/widm.1144
[3] Aumann Y,Lindell Y(2003)定量关联规则的统计理论。智能信息系统杂志20(3):255-283·doi:10.1023/A:1022812808206
[4] Bay SD,Pazzani MJ(2001)《检测群体差异:挖掘对比集》。数据最小知识发现5(3):213-246·Zbl 0982.68048号 ·doi:10.1023/A:1011429418057
[5] Benavoli A、Corani G、Mangili F、Zaffalon M、Ruggeri F(2014)基于Dirichlet过程的Bayesian Wilcoxon签名秩检验。输入:ICML。第1026-1034页
[6] Benavoli A、Corani G、Demsar J、Zaffalon M(2016)《改变的时间:通过贝叶斯分析比较多个分类器的教程》。arXiv:1606.04316·Zbl 1440.62237号
[7] Boley M,Grosskreutz H(2009)使用闭合系统的非冗余亚组发现。在:关于数据库中的机器学习和知识发现的欧洲联合会议上。施普林格,第179-194页
[8] Boley M,Moens S,Gärtner T(2012)使用过去的耦合进行线性空间直接模式采样。摘自:第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第69-77页
[9] Demšar J(2008)关于机器学习中统计测试的适当性。主题:结合ICML的机器学习评估方法研讨会
[10] Duivesteijn W,Knobbe A(2011)利用虚假发现-亚组发现中模式和质量度量的统计验证。IEEE第11届数据挖掘国际会议。IEEE,第151-160页
[11] Duivesteijn W,Feelders AJ,Knobbe A(2016)《卓越模型挖掘》。数据最小知识发现30(1):47-98·Zbl 1411.68096号 ·文件编号:10.1007/s10618-015-0403-4
[12] Friedman JH,Fisher NI(1999),高维数据中的凹凸搜索。统计计算9(2):123-143·doi:10.1023/A:1008894516817
[13] Goldsmith BR、Boley M、Vreeken J、Schefler M、Ghiringhelli LM(2017)通过子组发现揭示材料的结构-性能关系。新物理杂志19(1):13-31·doi:10.1088/1367-2630/a57c2
[14] Grosskreutz H,Rüping S,Wrobel S(2008)快速子组发现的严格乐观估计。在:关于数据库中的机器学习和知识发现的欧洲联合会议上。施普林格,pp 440-456
[15] Grosskreutz H,Boley M,Krause-Traudes M(2010)《选举分析的子组发现:描述性数据挖掘的案例研究》。参加:发现科学国际会议。施普林格,第57-71页
[16] Huan J,Wang W,Prins J(2003)同构下频繁子图的高效挖掘。参加:第三届IEEE数据挖掘国际会议。IEEE,第549-552页
[17] Kabán A(2012)高维数据中无意义距离的非参数检测。统计计算22(2):375-385·Zbl 1322.62145号 ·doi:10.1007/s11222-011-9229-0
[18] Klösgen W(1996)Explora:多模式和多策略发现助理。领域:知识发现和数据挖掘的进展。美国人工智能协会,第249-271页
[19] Klösgen W(2002)数据挖掘任务和方法:子组发现:偏差分析。收录:《数据挖掘和知识发现手册》。牛津大学出版社,第354-361页·兹比尔1003.68037
[20] LavraćN,Kavšek B,Flach P,Todorovski L(2004)《cn2-sd的亚群发现》,《机械学习研究杂志》5:153-188
[21] Lemmerich F,Atzmueller M,Puppe F(2016)使用数值目标概念快速穷举子组发现。数据最小知识发现30(3):711-762·Zbl 1411.68113号 ·doi:10.1007/s10618-015-0436-8
[22] Li G,Zaki MJ(2016)《抽样频繁和最小布尔模式:分类中的理论和应用》。数据最小知识发现30(1):181-225·Zbl 1411.68114号 ·doi:10.1007/s10618-015-0409-y
[23] Mehlhorn K,Sanders P(2008)《算法和数据结构:基本工具箱》。柏林施普林格·Zbl 1146.68069号
[24] Parthasarathy S、Zaki MJ、Ogihara M、Dwarkadas S(1999)增量和交互式序列挖掘。摘自:第八届信息和知识管理国际会议记录。ACM,第251-258页
[25] Pasquier N,Bastide Y,Taouil R,Lakhal L(1999)使用闭项集格高效挖掘关联规则。信息系统24(1):25-46·Zbl 0983.68511号 ·doi:10.1016/S0306-4379(99)00003-4
[26] Pieters BF、Knobbe A、Dzeroski S(2010)在排名数据中发现亚组,并应用于基因集富集。在:ECML PKDD的首选学习研讨会(PL 2010),第10卷。第1-18页
[27] Schmidt J、Hapfelmeier A、Mueller M、Perneczky R、Kurz A、Drzezga A、Kramer S(2010),通过结构化患者数据解释宠物扫描:痴呆研究中的数据挖掘案例研究。知识信息系统24(1):149-170·doi:10.1007/s10115-009-0234-y
[28] Song H,Kull M,Flach P,Kalogridis G(2016)《分组发现与正确评分规则》。在:关于数据库中的机器学习和知识发现的欧洲联合会议上。施普林格,第492-510页
[29] Uno T,Asai T,Uchida Y,Arimura H(2004)一种枚举事务数据库中闭合模式的有效算法。参加:发现科学国际会议。施普林格,第16-31页·Zbl 1110.68472号
[30] Webb GI(1995)Opus:无序搜索的有效容许算法。《艺术情报研究杂志》3:431-465·Zbl 0900.68180号
[31] Webb GI(2001)发现与数值变量的关联。收录:第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第383-388页
[32] Wrobel S(1997)子群的多关系发现算法。在:关于数据挖掘和知识发现原理的欧洲研讨会。施普林格,第78-87页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。