×

使用(DD\alpha)过程对真实世界数据进行分类。 (英语) Zbl 1414.62258号

摘要:(DD阿尔法)分类器是一种非参数快速且非常健壮的程序,描述并应用于50个涉及广泛现实世界数据的分类问题。该过程首先将数据从其原始属性空间转换为深度空间,深度空间是一个低维单位立方体,然后通过一个称为\(DD\alpha\)-过程的投影不变过程将其分离。对于每个数据点,转换将针对给定类指定其深度值。程序中使用了几种替代深度概念(空间深度、马氏深度、投影深度和Tukey深度,后两者通过单变量投影近似),并就其平均错误率进行了比较。Tukey深度最适合分布的形状,并且最稳健,因此出现了“局外人”,即所有类中深度为零的数据点。他们需要额外的分类处理。还提供了线性分离所需扩展特征空间的维数的证据。(DD\alpha)程序作为R包提供。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G35型 非参数稳健性
62-04 统计相关问题的软件、源代码等
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Biblarz TJ,Raftery AE(1993)《家庭破裂对社会流动的影响》。《美国社会学评论》58:97-109
[2] Christmann A,Fischer P,Joachims T(2002)各种回归深度方法和支持向量机之间的比较,以近似最小错误分类数。计算机统计17:273-287·Zbl 1010.62054号 ·doi:10.1007/s001800200106
[3] Christmann A,Rousseeuw PJ(2001)二元回归中的重叠测量。计算统计数据分析37:65-75·Zbl 1051.62065号 ·doi:10.1016/S0167-9473(00)00063-3
[4] Cortes C,Vapnik V(1995)支持向量网络。马赫学习20:273-297·Zbl 0831.68098号
[5] Cox LH,Johnson MM,Kafadar K(1982)统计图形技术展览会。ASA统计计算部分会议记录第55-56页
[6] Cuesta-Albertos JA,Nieto-Reyes A(2008)随机Tukey深度。计算统计数据分析52:4979-4988·Zbl 1452.62344号 ·doi:10.1016/j.csda.2008.04.021
[7] Dyckerhoff R(2004)满足投影特性的数据深度。Allg Stat Archiv美国档案馆88:163-190·Zbl 1294.62112号
[8] Fisher RA(1936)分类问题中多重测量的使用。安·尤根7:179-188·文件编号:10.1111/j.1469-1809.1936.tb02137.x
[9] Flury B,Riedwyl H(1988)《多元统计:实用方法》。剑桥查普曼和霍尔,纽约·Zbl 0495.62057号
[10] Frank A,Asuncion A(2010)UCI机器学习库[网址:http://archive.ics.uci.edu/ml]. 加利福尼亚州欧文:加利福尼亚大学信息与计算机科学学院
[11] 高尔顿F(1886)遗传地位向平庸回归。《人类学研究所杂志》15:246-263
[12] Greaney V,Kellaghan T(1984)《爱尔兰学校的机会均等》。都柏林教育公司
[13] Habemma JDF,Hermans J,Van Den Broek K(1974)使用密度估计的逐步判别分析程序。COMPSTAT 1974年。《计算统计学论文集》,海德堡Physica Verlag,第101-110页
[14] Hand DJ、Daly F、Lunn AD、McConway KJ、Ostrowski E(1994)《小数据集手册》。查普曼和霍尔,伦敦·Zbl 0949.62500号 ·doi:10.1007/9781-4899-7266-8
[15] Hastie T、Tibshirani R、Friedman JH(2009)《统计学习的要素:数据挖掘、推理和预测》,第2版。纽约州弗拉格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[16] Hubert M,van Driesen K(2004)快速和稳健的判别分析。计算统计数据分析45:301-320·Zbl 1429.62247号 ·doi:10.1016/S0167-9473(02)00299-2
[17] Joachims,T。;Schoelkopf,B.(编辑);Burges,C.(编辑);Smola,A.(编辑),《使大规模SVM学习实用化》,169-184(1999),马萨诸塞州剑桥
[18] Kalbfleisch JD,Prentice RL(1980)故障时间数据的统计分析。J.Wiley,密歇根大学·Zbl 0504.62096号
[19] Koshevoy G,Mosler K(1997),多元分布的带状裁剪。安统计25:1998-2017·Zbl 0881.62059号 ·doi:10.1214/aos/1069362382
[20] Lange T,Mosler K,Mozharovskyi P(2014a)基于数据深度的快速非参数分类。统计论文55:49-69·Zbl 1283.62128号 ·文件编号:10.1007/s00362-012-0488-4
[21] 兰格,T。;莫斯勒,K。;Mozharovskyi,P。;Spiliopoulou,M.(编辑);Schmidt-Thieme,L.(编辑);Janning,R.(编辑),DD\[\alpha\]α-非对称数据和尾数据的分类,71-78(2014),柏林·doi:10.1007/978-3-319-01595-8
[22] Lange T,Mozharovskyi P(2014)Alpha-procedure-一种用于自动分类d-维对象的非参数不变方法。收录:Spiliopoulou M,Schmidt-Thieme L,Janning R(编辑)数据分析。机器学习和知识发现。柏林施普林格,第79-86页
[23] Li J,Cuesta-Albertos JA,Liu RY\[(2012)DD\]DD-classifier:基于DD-plot的非参数分类程序。美国统计协会期刊107:737-753·Zbl 1261.62058号 ·doi:10.1080/01621459.2012.688462
[24] Liu X,Zuo Y(2014a)计算半空间深度和回归深度。公共统计模拟计算43:969-985·Zbl 1291.62059号 ·doi:10.1080/03610918.2012.720744
[25] Liu X,Zuo Y(2014b)计算投影深度及其相关估计值。统计计算24:51-63·Zbl 1325.62014号 ·doi:10.1007/s11222-012-9352-6
[26] Mahalanobis P(1936)关于统计学中的广义距离。印度国家科学院院刊12:49-55·Zbl 0015.03302号
[27] McGilchrist CA,Aisbett CW(1991)生存分析中的虚弱回归。生物统计学47:461-466·doi:10.2307/2532138
[28] Miller AJ、Shaw DE、Veitch LG和Smith EJ(1979)分析塔斯马尼亚州的一次云交配实验的结果。公共统计理论方法A8(10):1017-1047·doi:10.1080/03610927908827813
[29] Mosler K(2002)《多元离散、中心区域和深度:提升带状方法》。施普林格,纽约·Zbl 1027.62033号 ·doi:10.1007/978-1-4613-0045-8
[30] 莫斯勒,K。;Becker,C.(编辑);Fried,R.(编辑);Kuhnt,S.(编辑),《深度统计》,17-34(2013),柏林·doi:10.1007/978-3-642-35494-62
[31] Mosler K,Hoberg R(2006),带状深度的数据分析和分类。收录:Liu R,Serfling R,Souvaine D(eds)数据深度:稳健多元分析。美国数学学会,普罗维登斯RI,第49-59页
[32] Nierenberg DW、Stukel TA、Baron JA、Dain BJ、Greenberg ER(1989)《血浆β-胡萝卜素和视黄醇水平的决定因素》。美国流行病学杂志130:511-521
[33] Paindaveine D,Van Bever G(2012)非参数一致的基于深度的分类器。伯努利(出现)·Zbl 1359.62258号
[34] Reaven GM,Miller RG(1979)试图通过多维分析来定义化学性糖尿病的性质。糖尿病16:17-24·doi:10.1007/BF00423145
[35] Ripley BD(1996)模式识别和神经网络。英国剑桥大学出版社·Zbl 0853.62046号 ·doi:10.1017/CBO9780511812651
[36] Rousseeuw PJ,Van Driessen K(1999)最小协方差行列式估计的快速算法。技术计量41:212-223·doi:10.1080/00401706.1999.10485670
[37] Rousseeuw PJ,Struyf A(1998)计算高维中的位置深度和回归深度。统计计算13:153-162
[38] Serfling R(2002)基于空间分位数的深度函数和比例曲线。In:Dodge Y(ed)基于L\[_11\]-规范和相关方法的统计和数据分析,Birkhaeuser,第25-38页·Zbl 1460.62076号
[39] Tukey JW(1974)《数学与数据的图像化》。温哥华国际数学家会议记录,第523-531页·Zbl 0347.6202号
[40] Turny P(1993)具有上下文敏感特征的稳健分类。第六届人工智能和专家系统工业和工程应用国际会议记录(IEA/AIE-93),第268-276页
[41] Vapnik VN(1998)统计学习理论。纽约威利·兹比尔0935.62007
[42] Vardi Y,Zhang CH(2000)多元\[L_1\]L1中点和相关数据深度。收录:美国国家科学院院刊97,pp 1423-1426·Zbl 1054.62067号
[43] Vasil’ev VI(1991)模式识别学习(PRL)问题中的约简原则。图案识别图像分析1:23-32
[44] Vasil’ev VI(2003)揭示规律问题的简化原则I.网络系统分析39:686-694·Zbl 1075.68642号 ·doi:10.1023/B:CASA.0000012089.39260.b3文件
[45] Vasil’ev VI,Lange T(1998)模式识别学习中的对偶原则(俄语)。Kibernetika i Vyt片岩'elnaya Technika 121:7-16
[46] Wolberg WH,Mangasarian OL(1990)用于乳腺细胞学医学诊断的多表面模式分离方法。美国国家科学院院刊87:9193-9196·Zbl 0709.92537号 ·doi:10.1073/pnas.87.23.9193
[47] Yeh I-C,Yang K-J,Ting T-M(2009)基于贝努利序列的RFM模型知识发现。专家系统应用36(3,2):5866-5871·doi:10.1016/j.eswa.2008.07.018
[48] Zuo YJ,Serfling R(2000)统计深度函数的一般概念。安统计28:461-482·Zbl 1106.62334号 ·doi:10.1214/aos/1016218226
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。