×

一种用于自动生成关系属性的基于聚类的特征选择方法。 (英语) Zbl 1477.62187号

摘要:尽管数据挖掘问题需要一个平面挖掘表作为输入,但在许多实际应用程序中,分析人员对在关系数据库中查找模式感兴趣。为此,最近开发了新的方法和软件,可以自动将属性(或功能)添加到关系数据库的目标表中,该表汇总了所有其他表中的信息。当这些方法自动构建属性时,选择重要属性尤其困难,因为大量属性高度相关。在这种情况下,属性选择技术(如最小绝对收缩和选择算子(Lasso)、弹性网和其他机器学习方法)往往表现不佳。本文介绍了一种新的属性选择过程,其中在初始筛选步骤之后,我们将属性分为不同的组,并应用组套索来选择真实属性组,然后选择真实属性。该过程特别适用于属性高度相关的高维数据集。我们在几个模拟数据集和来自营销数据库的真实数据集上测试我们的过程。结果表明,与其他最先进的方法相比,我们提出的方法在选择更小的属性集时获得了更高的预测性能。

MSC公司:

62J07型 岭回归;收缩估计器(拉索)
62H30型 分类和区分;聚类分析(统计方面)
62第20页 统计学在经济学中的应用
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] ET安德森;Hansen,K。;Simester,D.,《收益的期权价值:理论与实证》,《营销科学》,2009年第28、3、405-423页·doi:10.1287/mksc.1080.0430
[2] 巴蒂尼,C。;塞里,S。;Navathe,S.,《实体关系方法》(1989),北荷兰:爱思唯尔科学出版公司,北荷兰
[3] Bondell,HD公司;Reich,BJ,同步回归收缩、变量选择和奥斯卡监督聚类预测,生物统计学,64,1,115-123(2008)·Zbl 1146.62051号 ·doi:10.1111/j.1541-0420.2007.00843.x
[4] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[5] Buhlmann,P。;Rutimann,P。;van de Geer,S。;Zhang,C.,回归中的相关变量:聚类和稀疏估计,《统计规划与推断杂志》,143,11,1835-1858(2013)·Zbl 1278.62103号 ·doi:10.1016/j.jspi.2013.05.019
[6] Dettling,M。;Bühlmann,P.,从微阵列数据中发现预测基因组,多元分析杂志,90,1,106-131(2004)·Zbl 1047.62103号 ·doi:10.1016/j.jmva.2004.02.012
[7] 范,J。;LV,J.,《高维特征空间中变量选择的选择性概述》,《统计》,2010年第20期,第1期,第101页·Zbl 1180.62080号
[8] 风机,RE;Chang,千瓦;谢长杰;王,XR;Lin,CJ,Liblinear:大型线性分类库,《机器学习研究杂志》,91871-1874(2008)·Zbl 1225.68175号
[9] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降的广义线性模型的正则化路径,统计软件杂志,33,1,1(2010)·doi:10.18637/jss.v033.i01
[10] 霍尔,M。;E.弗兰克。;福尔摩斯,G。;普法林格,B。;鲁特曼,P。;Witten,IH,The weka数据挖掘软件:更新,ACM SIGKDD Explorations Newsletter,11,1,10-18(2009)·数字对象标识代码:10.1145/1656274.1656278
[11] Han,J。;M.Kamber。;Pei,J.,《数据挖掘:概念和技术:概念和技巧》(2011年),阿姆斯特丹:爱思唯尔出版社·兹比尔1230.68018
[12] 哈斯蒂,T。;Tibshirani,R。;博茨坦,D。;Brown,P.,《表达树的监督收获》,基因组生物学,2,1,1-0003(2001)·doi:10.1186/gb-2001-2-1-research0003
[13] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:预测、推理和数据挖掘》(2009),纽约:施普林格出版社,纽约·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[14] 赫斯,JD;楚·W。;Gerstner,E.,《直接营销中的产品回报控制》,《营销快报》,第7、4、307-317页(1996年)·doi:10.1007/BF00435538
[15] 赫斯,JD;通用电气公司Mayhew,《直接营销中的商品回报建模》,《互动营销杂志》,第11、2、20-35页(1997年)
[16] 黄,J。;马,S。;李,H。;Zhang,CH,高维回归的稀疏拉普拉斯收缩估计量,《统计年鉴》,39,42021(2011)·Zbl 1227.62049号 ·doi:10.1214/11-AOS897
[17] Hwang,K。;Kim,D。;Lee,K。;Lee,C。;Park,S.,使用符号分类的嵌入式变量选择方法,运筹学年鉴,254,1-2,89-109(2017)·Zbl 1419.62151号 ·doi:10.1007/s10479-017-2445-z
[18] Janakiraman,N。;Ordóñez,L.,努力和截止日期对消费者产品退货的影响,《消费者心理学杂志》,22,2,260-271(2012)·doi:10.1016/j.jcps.2011.05.002
[19] Kendall,M.,多元分析课程(1957),伦敦:格里芬,伦敦
[20] AJ Knobbe公司;De Haas,M。;Siebes,A。;De Raedt,L。;Siebes,A.,命题与聚合,数据挖掘与知识发现原理,277-288(2001),柏林:施普林格出版社,柏林·Zbl 1009.68749号 ·doi:10.1007/3-540-44794-6_23
[21] 库恩,M。;Johnson,K.,《应用预测模型》(2013),柏林:施普林格出版社,柏林·Zbl 1306.62014年 ·doi:10.1007/978-1-4614-6849-3
[22] Mollenkopf,DA;Frankel,R。;Russo,I.,《通过退货管理创造价值:探索市场运作界面》,《运营管理杂志》,29,5,391-403(2011)·doi:10.1016/j.jom.2010.11.004
[23] Ni,J。;奈斯林,S。;Sun,B.,数据库提交——ISMS耐用品数据集,《营销科学》,31,6,1008-1013(2012)·doi:10.1287/mksc.1120.0726
[24] Perlich,C。;Provost,F.,《使用标识符属性进行关系学习的基于分布的聚合》,机器学习,62,1-2,65-105(2006)·Zbl 1470.68158号 ·doi:10.1007/s10994-006-6064-1
[25] 彼得森,JA;库马尔,V.,产品退货是一种必然的罪恶吗?前因与后果,《市场营销杂志》,73,3,35-51(2009)·doi:10.1509/jmkg.73.3.035
[26] 彼得森,JA;Kumar,V.,《感知风险、产品回报和最优资源配置:来自实地实验的证据》,《营销研究杂志》,52,2,268-285(2015)·doi:10.1509/jmr.14.0174
[27] Popescul,A.和Ungar,L.H.(2003年)。用于链接预测的统计关系学习。在IJCAI关于从关系数据学习统计模型的研讨会上(2003年)。
[28] 雷诺兹,A。;理查兹,G。;de la Iglesia,B。;Rayward-Smith,V.,《聚类规则:分区和层次聚类算法的比较》,《数学建模与算法杂志》,5,4,475-504(2006)·Zbl 1104.62073号 ·doi:10.1007/s10852-005-9022-1
[29] Samorani,M.(2015)。使用dataconda自动生成平面挖掘表。2015年IEEE国际数据挖掘研讨会(ICDMW),IEEE(第1644-1647页)。
[30] Samorani,M.、Ahmed,F.和Zaiane,O.R.(2016)。关系属性的自动生成:产品退货的应用程序。2016年IEEE大数据国际会议(big data)(第1454-1463页)。doi:10.1109/BigData.2016.7840753。
[31] 萨莫拉尼,M。;拉古纳,M。;德莱尔,RK;Weaver,DC,《分子分类的随机穷举命题化方法》,《信息计算杂志》,23,3,331-345(2011)·Zbl 1243.62095号 ·doi:10.1287/ijoc.1100.0404
[32] She,Y.,《稀疏回归与精确聚类》(2008),《安娜堡:探索》,安娜堡
[33] Shih,DT;Kim,SB;陈,VC;罗森伯格,JM;Pilla,VL,通过变量选择进行高效的基于计算机实验的优化,运筹学年鉴,216,1287-305(2014)·Zbl 1296.90083号 ·doi:10.1007/s10479-012-1129-y
[34] Simon,HA,商业组织中的理性决策,《美国经济评论》,69,493-513(1979)
[35] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会杂志》,58,1267-288(1996)·Zbl 0850.62538号
[36] 袁,M。;Lin,Y.,分组变量回归中的模型选择和估计,《皇家统计学会杂志》,68,1,49-67(2007)·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[37] Zou,H.,自适应套索及其预言属性,美国统计协会杂志,101,476,1418-1429(2006)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[38] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,《皇家统计学会杂志:B辑(统计方法)》,67,2,301-320(2005)·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。