袁、贝贝;威廉·继承人;马克·德罗伊 (delta)-机器:基于到原型的距离进行分类。 (英语) 兹比尔1436.62296 J.分类。 36,第3号,442-470(2019). 小结:我们介绍了“(delta)-机器”,这是一种统计学习工具,用于基于观察结果轮廓与由原型组成的表示集轮廓之间的(dis)相似性进行分类。在本文中,我们讨论了(delta)-机器的性质,提出了一种在预测视角下决定(K)-均值方法簇数的自动决策规则,并导出了机器的变量重要性测度和部分相关图。我们进行了五项模拟研究,以研究delta机器的特性。前三个仿真研究是为了研究原型的选择、不同的相似函数以及表示集的定义。结果表明,我们最好使用拉索来选择原型,欧几里德距离是一个很好的相异函数,找到一个小的原型表示集可以得到稀疏但有竞争力的结果。剩下的两个仿真研究研究了类不平衡和协方差矩阵不相等的delta机器的性能。结果表明,delta机器对类不平衡具有鲁棒性,并且无论协方差矩阵如何,四个(dis)相似函数都具有相同的性能。我们还展示了delta机器与其他三种分类方法在UCI数据库10个实际数据集上的分类性能,并详细讨论了两个实证示例。 引用于1审查引用于1文件 MSC公司: 62H30型 分类和区分;聚类分析(统计方面) 62J07型 岭回归;收缩估计器(拉索) 62兰特 度量空间统计 68T05型 人工智能中的学习和自适应系统 关键词:相异空间;非线性分类;拉索 软件:COSA公司;汽车数据;群集查找;格尔姆奈特;R(右);集群(R);SPSS软件;阿达·布斯特。MH公司;e1071号;剪影;UCI-毫升;汽车;加姆;质量(R) PDF格式BibTeX公司 XML格式引用 \textit{B.Yuan}等人,J.Classif。36,第3号,442--470(2019年;Zbl 1436.62296) 全文: 内政部 参考文献: [1] Agresti,A.,分类数据分析(2013),新泽西州:新泽西州威利·Zbl 1281.62022号 [2] Al-Yaseen,Wl;扎·奥斯曼;Nazri,Mza,基于改进K-means的入侵检测系统多级混合支持向量机和极端学习机,Expert Systems with Applications,67,296-303(2017) [3] 阿什比,Fg,感知和认知的多维模型(2014),纽约:心理学出版社,纽约 [4] Ben-Israel,A。;Iyigun,C.,概率D聚类,分类杂志,25,1,5-26(2008)·Zbl 1260.62039号 [5] 伯格曼,Lr;Magnusson,D.,《发展精神病理学、发展和精神病理学研究中的以人为本方法》,9,2,291-319(1997) [6] Berk,Ra,《回归视角下的统计学习》(2008年),纽约:斯普林格出版社,纽约·Zbl 1258.62047号 [7] Beyer,K.、Goldstein,J.、Ramakrishnan,R.、Shaft,U.(1999年)。什么时候“最近的邻居”有意义。Beeri,C.和Buneman,P.(编辑)数据库理论-ICDT 99(第217-235页)。施普林格:柏林。 [8] Boj,E。;卡巴莱,A。;Delicado,P。;Esteve,A。;Fortiana,J.,全球和局部基于距离的广义线性模型,TEST,25,1,170-195(2015)·Zbl 1338.6211号 [9] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号 [10] Cohen,J.,固定因子方差分析设计中的Eta平方和部分Eta平方,教育和心理测量,33,1,107-112(1973) [11] 指挥官,Jj;格罗恩,Pj;Meulman,J.,《基于距离的各种非线性多元数据分析,包括对象和变量的权重》,《心理测量学》,64,2,169-186(1999)·Zbl 1291.62198号 [12] Cooper,M.C.和Milligan,G.W.(1988年)。聚类分析中测量误差对确定聚类数的影响。Gaul,W.和Schader,M.(编辑),《数据、专家知识和决策》(第319-328页)。柏林:斯普林格。 [13] Cormack,R.M.,《分类综述》,《皇家统计学会杂志》。A系列(概述),134,3231(1971) [14] 科尔特斯,C。;Vapnik,V.,支持向量网络,机器学习,20,3,273-297(1995)·Zbl 0831.68098号 [15] Cox,Tf;Cox,Ma,多维标度(2000),博卡拉顿:CRC出版社,博卡拉顿 [16] De Rooij,M.,过渡频率数据的距离模型:博士论文(2001),莱顿大学:莱顿大学心理学系 [17] Dieterich,Tg;Lathrop,Rh;Lozano-Pérez,T.,用轴平行矩形解决多实例问题,人工智能,89,1-2,31-71(1997)·Zbl 1042.68650号 [18] Duch,W.、Jankowski,N.、Maszczyk,T.(2012年)。便宜一点:用O(nd)复杂性学习。2012年国际神经网络联合会议(IJCNN)。IEEE,第1-4页。 [19] Duin,R.P.,Loog,M.,Pekalska,E.,Tax,D.M.(2010年)。基于特征的差异空间分类。识别信号、语音、图像和视频中的模式。施普林格,第46-55页。 [20] Duin,卢比;Pekalska,E.,《差异空间:桥接结构和统计模式识别》,《模式识别快报》,33,7,826-832(2012) [21] Fawcett,T.,ROC分析简介,模式识别快报,27,8,861-874(2006) [22] Fleiss,Jl;Zubin,J.,《关于聚类的方法和理论》,《多元行为研究》,4,2,235-250(1969) [23] 福克斯,J。;Weisberg,S.,《应用回归的R伴侣》(2011),《千橡树:鼠尾草》 [24] 弗洛伊德,Y。;Schapire,Re,《在线学习的决策理论推广及其在助推中的应用》,《计算机与系统科学杂志》,55,1,119-139(1997)·Zbl 0880.68103号 [25] 弗里德曼,J.,《贪婪函数近似:梯度提升机》,《统计年鉴》,29,5,1189-1232(2001)·Zbl 1043.62034号 [26] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学习的要素》(2009),纽约:施普林格出版社,纽约·Zbl 1273.62005年 [27] Friedman,J.、Hastie,T.、Tibshirani,R.(2010a)。glmnet:通过坐标下降的广义线性模型的正则化路径,R包版本1.6-4,可在http://www.jstatsoft.org/v33/i01/。 [28] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,统计软件杂志,33,1,1-22(2010) [29] 弗里德曼,J。;Meulman,J.,属性子集上的聚类对象(含讨论),《皇家统计学会杂志:B辑(统计方法)》,66,4,815-849(2004)·Zbl 1060.62064号 [30] 加兹维尼,A。;Awwalu,J。;Bakar,Aa,《监督分类算法的比较分析:纸币数据集的案例研究》,《国际计算机趋势与技术杂志》,17,1,39-43(2014) [31] Gower,Jc,用于多元分析的潜在根和向量方法的一些距离特性,生物特征,53,3-4,325-338(1966)·Zbl 0192.26003号 [32] Gower,Jc,《一般相似系数及其某些性质》,《生物计量学》,27,4,857-871(1971) [33] Hastie,T.(2015)。gam:广义加性模型,R包版本1.12。 [34] Hastie,T.和Tibshirani,R.(1990年)。广义加性模型,第1卷,第43卷,CRC出版社,博卡拉顿·兹比尔074762061 [35] 霍尼克,K。;Stinchcombe,M。;White,H.,多层前馈网络是通用逼近器,神经网络,2,5359-366(1989)·Zbl 1383.92015年 [36] 詹姆斯·G。;维滕,D。;哈斯蒂,T。;Tibshirani,R.,《统计学习导论》(2013),纽约:施普林格出版社,纽约·Zbl 1281.62147号 [37] 贾普科维奇,N。;Stephen,S.,阶级不平衡问题:一项系统研究,智能数据分析,6,5429-449(2002)·Zbl 1085.68628号 [38] 考夫曼,L。;Rousseeuw,Pj,《在数据中发现群体:聚类分析简介》(1990年),纽约:威利出版社,纽约·Zbl 1345.62009号 [39] 麦昆,J.(1967年)。多元观测值分类和分析的一些方法。Cam,L.M.L.,&Neyman,J.(编辑),第五届伯克利数理统计与概率研讨会论文集(第281-297页)。伯克利:加州:加州大学出版社·Zbl 0214.46201号 [40] Maechler,M.、Rousseeuw,P.、Struyf,A.、Hubert,M.和Hornik,K.(2013年)。集群:集群分析基础和扩展,R包版本1.14.4。 [41] Mcdermott,J。;Forsyth,Rs,《在分类基准中诊断疾病》,《模式识别快报》,73,41-43(2016) [42] Meulman,J.,《多维尺度和多元分析与最优转换的集成》,《心理测量学》,第57、4、539-565页(1992年) [43] Meyer,D.,Dimitriadou,E.,Hornik,K.,Weingessel,A.,Leisch,F.(2014)。e1071:统计部其他职能(e1071),TU Wien,R包版本1.6-4,网址:http://CRAN.R-project.org/package=e1071。 [44] Mirkin,B.,基于平方误差聚类的概念学习和特征选择,机器学习,35,1,25-39(1999)·Zbl 0920.68102号 [45] Mirkin,B.,《集群:数据恢复方法》,230-233(2012),博卡拉顿:查普曼和霍尔,博卡拉通 [46] Newman,D.J.、Hettich,S.、Blake,C.L.、Merz,C.J.(1998年)。UCI机器学习数据库存储库,网址:http://www.ics.uci.edu/mlearn/MLRepository.html。 [47] 诺索夫斯基,Rm,《注意、相似性和识别-分类关系》,《实验心理学杂志:综述》,115,1,39-57(1986) [48] Pekalska,E。;Duin,Rp,模式识别的差异表示:基础和应用(2005),新加坡:世界科学出版社,新加坡·Zbl 1095.68105号 [49] R核心团队。(2015). R: 统计计算语言和环境,奥地利维也纳:R统计计算基金会,网址:http://www.R-project.org/。 [50] Richardson,Jt,Eta平方和部分Eta平方作为教育研究中影响大小的度量,《教育研究评论》,6,2,135-147(2011) [51] Rousseeuw,Pj,Silhouettes:聚类分析解释和验证的图形辅助,计算与应用数学杂志,20,53-65(1987)·Zbl 0636.62059号 [52] 阿联酋罗韦;贝克,Jd;Mk Ponton,《社会科学研究设计和统计:研究方法和IBM SPSS的从业者指南》,第2卷(2013年),切萨皮克:Watertree出版社,切萨佩克 [53] 夏弗,Cm;Green,Pe,《聚类分析中变量标准化方法的实证比较》,多变量行为研究,31,2149-167(1996) [54] Steinley,Douglas,《K-means聚类、分类、聚类和数据挖掘应用中的标准化变量》,53-60(2004),柏林,海德堡:施普林格-柏林-海德堡,柏林 [55] 斯坦利,D。;Brusco,Mj,选择K-means聚类中的聚类数量,心理学方法,16285(2011) [56] Tao,Q.、Scott,S.、Vinodchandran,N.V.、Osugi,T.T.(2004)。基于SVM的基于近似盒计数的广义多实例学习。摘自:第21届机器学习国际会议论文集。ACM,第101页。 [57] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会杂志》。B系列(方法学),58,1,267-288(1996)·Zbl 0850.62538号 [58] Van Der Kooij,Aj,《最优尺度变换回归的预测准确性和稳定性:博士论文》(2007),莱顿大学:莱顿大学教育与儿童研究系 [59] Van Rijsbergen,C.J.(1979年)。信息检索(第二版):Butterworths·Zbl 0227.68052号 [60] 维纳布尔斯,Wn;Ripley,Bd,《现代应用统计与S》(2002),纽约:施普林格出版社,纽约·兹比尔1006.62003 [61] Vesanto,Juha,个体变量在k-Means算法中的重要性,知识发现和数据挖掘的进展,513-518(2001),柏林,海德堡:施普林格-柏林-海德堡,柏林·Zbl 0978.68653号 [62] 是的,I-C;杨,K-J;Ting,T-M,使用贝努利序列的RFM模型知识发现,应用专家系统,36,3,5866-5871(2009) [63] 朱,J。;Hastie,T.,《核逻辑回归与输入向量机》,《计算与图形统计杂志》,第14期,第1期,第185-205页(2012年) 此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。