×

(delta)-机器:基于到原型的距离进行分类。 (英语) 兹比尔1436.62296

小结:我们介绍了“(delta)-机器”,这是一种统计学习工具,用于基于观察结果轮廓与由原型组成的表示集轮廓之间的(dis)相似性进行分类。在本文中,我们讨论了(delta)-机器的性质,提出了一种在预测视角下决定(K)-均值方法簇数的自动决策规则,并导出了机器的变量重要性测度和部分相关图。我们进行了五项模拟研究,以研究delta机器的特性。前三个仿真研究是为了研究原型的选择、不同的相似函数以及表示集的定义。结果表明,我们最好使用拉索来选择原型,欧几里德距离是一个很好的相异函数,找到一个小的原型表示集可以得到稀疏但有竞争力的结果。剩下的两个仿真研究研究了类不平衡和协方差矩阵不相等的delta机器的性能。结果表明,delta机器对类不平衡具有鲁棒性,并且无论协方差矩阵如何,四个(dis)相似函数都具有相同的性能。我们还展示了delta机器与其他三种分类方法在UCI数据库10个实际数据集上的分类性能,并详细讨论了两个实证示例。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62J07型 岭回归;收缩估计器(拉索)
62兰特 度量空间统计
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agresti,A.,分类数据分析(2013),新泽西州:新泽西州威利·Zbl 1281.62022号
[2] Al-Yaseen,Wl;扎·奥斯曼;Nazri,Mza,基于改进K-means的入侵检测系统多级混合支持向量机和极端学习机,Expert Systems with Applications,67,296-303(2017)
[3] 阿什比,Fg,感知和认知的多维模型(2014),纽约:心理学出版社,纽约
[4] Ben-Israel,A。;Iyigun,C.,概率D聚类,分类杂志,25,1,5-26(2008)·Zbl 1260.62039号
[5] 伯格曼,Lr;Magnusson,D.,《发展精神病理学、发展和精神病理学研究中的以人为本方法》,9,2,291-319(1997)
[6] Berk,Ra,《回归视角下的统计学习》(2008年),纽约:斯普林格出版社,纽约·Zbl 1258.62047号
[7] Beyer,K.、Goldstein,J.、Ramakrishnan,R.、Shaft,U.(1999年)。什么时候“最近的邻居”有意义。Beeri,C.和Buneman,P.(编辑)数据库理论-ICDT 99(第217-235页)。施普林格:柏林。
[8] Boj,E。;卡巴莱,A。;Delicado,P。;Esteve,A。;Fortiana,J.,全球和局部基于距离的广义线性模型,TEST,25,1,170-195(2015)·Zbl 1338.6211号
[9] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号
[10] Cohen,J.,固定因子方差分析设计中的Eta平方和部分Eta平方,教育和心理测量,33,1,107-112(1973)
[11] 指挥官,Jj;格罗恩,Pj;Meulman,J.,《基于距离的各种非线性多元数据分析,包括对象和变量的权重》,《心理测量学》,64,2,169-186(1999)·Zbl 1291.62198号
[12] Cooper,M.C.和Milligan,G.W.(1988年)。聚类分析中测量误差对确定聚类数的影响。Gaul,W.和Schader,M.(编辑),《数据、专家知识和决策》(第319-328页)。柏林:斯普林格。
[13] Cormack,R.M.,《分类综述》,《皇家统计学会杂志》。A系列(概述),134,3231(1971)
[14] 科尔特斯,C。;Vapnik,V.,支持向量网络,机器学习,20,3,273-297(1995)·Zbl 0831.68098号
[15] Cox,Tf;Cox,Ma,多维标度(2000),博卡拉顿:CRC出版社,博卡拉顿
[16] De Rooij,M.,过渡频率数据的距离模型:博士论文(2001),莱顿大学:莱顿大学心理学系
[17] Dieterich,Tg;Lathrop,Rh;Lozano-Pérez,T.,用轴平行矩形解决多实例问题,人工智能,89,1-2,31-71(1997)·Zbl 1042.68650号
[18] Duch,W.、Jankowski,N.、Maszczyk,T.(2012年)。便宜一点:用O(nd)复杂性学习。2012年国际神经网络联合会议(IJCNN)。IEEE,第1-4页。
[19] Duin,R.P.,Loog,M.,Pekalska,E.,Tax,D.M.(2010年)。基于特征的差异空间分类。识别信号、语音、图像和视频中的模式。施普林格,第46-55页。
[20] Duin,卢比;Pekalska,E.,《差异空间:桥接结构和统计模式识别》,《模式识别快报》,33,7,826-832(2012)
[21] Fawcett,T.,ROC分析简介,模式识别快报,27,8,861-874(2006)
[22] Fleiss,Jl;Zubin,J.,《关于聚类的方法和理论》,《多元行为研究》,4,2,235-250(1969)
[23] 福克斯,J。;Weisberg,S.,《应用回归的R伴侣》(2011),《千橡树:鼠尾草》
[24] 弗洛伊德,Y。;Schapire,Re,《在线学习的决策理论推广及其在助推中的应用》,《计算机与系统科学杂志》,55,1,119-139(1997)·Zbl 0880.68103号
[25] 弗里德曼,J.,《贪婪函数近似:梯度提升机》,《统计年鉴》,29,5,1189-1232(2001)·Zbl 1043.62034号
[26] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学习的要素》(2009),纽约:施普林格出版社,纽约·Zbl 1273.62005年
[27] Friedman,J.、Hastie,T.、Tibshirani,R.(2010a)。glmnet:通过坐标下降的广义线性模型的正则化路径,R包版本1.6-4,可在http://www.jstatsoft.org/v33/i01/。
[28] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,统计软件杂志,33,1,1-22(2010)
[29] 弗里德曼,J。;Meulman,J.,属性子集上的聚类对象(含讨论),《皇家统计学会杂志:B辑(统计方法)》,66,4,815-849(2004)·Zbl 1060.62064号
[30] 加兹维尼,A。;Awwalu,J。;Bakar,Aa,《监督分类算法的比较分析:纸币数据集的案例研究》,《国际计算机趋势与技术杂志》,17,1,39-43(2014)
[31] Gower,Jc,用于多元分析的潜在根和向量方法的一些距离特性,生物特征,53,3-4,325-338(1966)·Zbl 0192.26003号
[32] Gower,Jc,《一般相似系数及其某些性质》,《生物计量学》,27,4,857-871(1971)
[33] Hastie,T.(2015)。gam:广义加性模型,R包版本1.12。
[34] Hastie,T.和Tibshirani,R.(1990年)。广义加性模型,第1卷,第43卷,CRC出版社,博卡拉顿·兹比尔074762061
[35] 霍尼克,K。;Stinchcombe,M。;White,H.,多层前馈网络是通用逼近器,神经网络,2,5359-366(1989)·Zbl 1383.92015年
[36] 詹姆斯·G。;维滕,D。;哈斯蒂,T。;Tibshirani,R.,《统计学习导论》(2013),纽约:施普林格出版社,纽约·Zbl 1281.62147号
[37] 贾普科维奇,N。;Stephen,S.,阶级不平衡问题:一项系统研究,智能数据分析,6,5429-449(2002)·Zbl 1085.68628号
[38] 考夫曼,L。;Rousseeuw,Pj,《在数据中发现群体:聚类分析简介》(1990年),纽约:威利出版社,纽约·Zbl 1345.62009号
[39] 麦昆,J.(1967年)。多元观测值分类和分析的一些方法。Cam,L.M.L.,&Neyman,J.(编辑),第五届伯克利数理统计与概率研讨会论文集(第281-297页)。伯克利:加州:加州大学出版社·Zbl 0214.46201号
[40] Maechler,M.、Rousseeuw,P.、Struyf,A.、Hubert,M.和Hornik,K.(2013年)。集群:集群分析基础和扩展,R包版本1.14.4。
[41] Mcdermott,J。;Forsyth,Rs,《在分类基准中诊断疾病》,《模式识别快报》,73,41-43(2016)
[42] Meulman,J.,《多维尺度和多元分析与最优转换的集成》,《心理测量学》,第57、4、539-565页(1992年)
[43] Meyer,D.,Dimitriadou,E.,Hornik,K.,Weingessel,A.,Leisch,F.(2014)。e1071:统计部其他职能(e1071),TU Wien,R包版本1.6-4,网址:http://CRAN.R-project.org/package=e1071。
[44] Mirkin,B.,基于平方误差聚类的概念学习和特征选择,机器学习,35,1,25-39(1999)·Zbl 0920.68102号
[45] Mirkin,B.,《集群:数据恢复方法》,230-233(2012),博卡拉顿:查普曼和霍尔,博卡拉通
[46] Newman,D.J.、Hettich,S.、Blake,C.L.、Merz,C.J.(1998年)。UCI机器学习数据库存储库,网址:http://www.ics.uci.edu/mlearn/MLRepository.html。
[47] 诺索夫斯基,Rm,《注意、相似性和识别-分类关系》,《实验心理学杂志:综述》,115,1,39-57(1986)
[48] Pekalska,E。;Duin,Rp,模式识别的差异表示:基础和应用(2005),新加坡:世界科学出版社,新加坡·Zbl 1095.68105号
[49] R核心团队。(2015). R: 统计计算语言和环境,奥地利维也纳:R统计计算基金会,网址:http://www.R-project.org/。
[50] Richardson,Jt,Eta平方和部分Eta平方作为教育研究中影响大小的度量,《教育研究评论》,6,2,135-147(2011)
[51] Rousseeuw,Pj,Silhouettes:聚类分析解释和验证的图形辅助,计算与应用数学杂志,20,53-65(1987)·Zbl 0636.62059号
[52] 阿联酋罗韦;贝克,Jd;Mk Ponton,《社会科学研究设计和统计:研究方法和IBM SPSS的从业者指南》,第2卷(2013年),切萨皮克:Watertree出版社,切萨佩克
[53] 夏弗,Cm;Green,Pe,《聚类分析中变量标准化方法的实证比较》,多变量行为研究,31,2149-167(1996)
[54] Steinley,Douglas,《K-means聚类、分类、聚类和数据挖掘应用中的标准化变量》,53-60(2004),柏林,海德堡:施普林格-柏林-海德堡,柏林
[55] 斯坦利,D。;Brusco,Mj,选择K-means聚类中的聚类数量,心理学方法,16285(2011)
[56] Tao,Q.、Scott,S.、Vinodchandran,N.V.、Osugi,T.T.(2004)。基于SVM的基于近似盒计数的广义多实例学习。摘自:第21届机器学习国际会议论文集。ACM,第101页。
[57] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会杂志》。B系列(方法学),58,1,267-288(1996)·Zbl 0850.62538号
[58] Van Der Kooij,Aj,《最优尺度变换回归的预测准确性和稳定性:博士论文》(2007),莱顿大学:莱顿大学教育与儿童研究系
[59] Van Rijsbergen,C.J.(1979年)。信息检索(第二版):Butterworths·Zbl 0227.68052号
[60] 维纳布尔斯,Wn;Ripley,Bd,《现代应用统计与S》(2002),纽约:施普林格出版社,纽约·兹比尔1006.62003
[61] Vesanto,Juha,个体变量在k-Means算法中的重要性,知识发现和数据挖掘的进展,513-518(2001),柏林,海德堡:施普林格-柏林-海德堡,柏林·Zbl 0978.68653号
[62] 是的,I-C;杨,K-J;Ting,T-M,使用贝努利序列的RFM模型知识发现,应用专家系统,36,3,5866-5871(2009)
[63] 朱,J。;Hastie,T.,《核逻辑回归与输入向量机》,《计算与图形统计杂志》,第14期,第1期,第185-205页(2012年)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。