文件Zbl 1414.62258-zbMATH打开

使用（DD\alpha）过程对真实世界数据进行分类。（英语） Zbl 1414.62258号

高级数据分析。分类。，ADAC公司 9，第3期，287-314（2015）.

摘要：（DD阿尔法）分类器是一种非参数快速且非常健壮的程序，描述并应用于50个涉及广泛现实世界数据的分类问题。该过程首先将数据从其原始属性空间转换为深度空间，深度空间是一个低维单位立方体，然后通过一个称为\（DD\alpha\）-过程的投影不变过程将其分离。对于每个数据点，转换将针对给定类指定其深度值。程序中使用了几种替代深度概念（空间深度、马氏深度、投影深度和Tukey深度，后两者通过单变量投影近似），并就其平均错误率进行了比较。Tukey深度最适合分布的形状，并且最稳健，因此出现了“局外人”，即所有类中深度为零的数据点。他们需要额外的分类处理。还提供了线性分离所需扩展特征空间的维数的证据。（DD\alpha）程序作为R包提供。

引用于11文件

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
62G35型	非参数稳健性
62-04	统计相关问题的软件、源代码等

关键词：

分类;监督学习;字母顺序;数据深度;空间深度;投影深度;随机Tukey深度;局外人;特征

软件：

ElemStatLearn（电子状态学习）;达尔法;UCI-毫升;R（右）;SVM灯

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

参考文献：

[1]	Biblarz TJ，Raftery AE（1993）《家庭破裂对社会流动的影响》。《美国社会学评论》58:97-109
[2]	Christmann A，Fischer P，Joachims T（2002）各种回归深度方法和支持向量机之间的比较，以近似最小错误分类数。计算机统计17:273-287·Zbl 1010.62054号 ·doi:10.1007/s001800200106
[3]	Christmann A，Rousseeuw PJ（2001）二元回归中的重叠测量。计算统计数据分析37:65-75·Zbl 1051.62065号 ·doi:10.1016/S0167-9473（00）00063-3
[4]	Cortes C，Vapnik V（1995）支持向量网络。马赫学习20:273-297·Zbl 0831.68098号
[5]	Cox LH，Johnson MM，Kafadar K（1982）统计图形技术展览会。ASA统计计算部分会议记录第55-56页
[6]	Cuesta-Albertos JA，Nieto-Reyes A（2008）随机Tukey深度。计算统计数据分析52:4979-4988·Zbl 1452.62344号 ·doi:10.1016/j.csda.2008.04.021
[7]	Dyckerhoff R（2004）满足投影特性的数据深度。Allg Stat Archiv美国档案馆88:163-190·Zbl 1294.62112号
[8]	Fisher RA（1936）分类问题中多重测量的使用。安·尤根7:179-188·文件编号：10.1111/j.1469-1809.1936.tb02137.x
[9]	Flury B，Riedwyl H（1988）《多元统计：实用方法》。剑桥查普曼和霍尔，纽约·Zbl 0495.62057号
[10]	Frank A，Asuncion A（2010）UCI机器学习库[网址：http://archive.ics.uci.edu/ml]. 加利福尼亚州欧文：加利福尼亚大学信息与计算机科学学院
[11]	高尔顿F（1886）遗传地位向平庸回归。《人类学研究所杂志》15:246-263
[12]	Greaney V，Kellaghan T（1984）《爱尔兰学校的机会均等》。都柏林教育公司
[13]	Habemma JDF，Hermans J，Van Den Broek K（1974）使用密度估计的逐步判别分析程序。COMPSTAT 1974年。《计算统计学论文集》，海德堡Physica Verlag，第101-110页
[14]	Hand DJ、Daly F、Lunn AD、McConway KJ、Ostrowski E（1994）《小数据集手册》。查普曼和霍尔，伦敦·Zbl 0949.62500号 ·doi:10.1007/9781-4899-7266-8
[15]	Hastie T、Tibshirani R、Friedman JH（2009）《统计学习的要素：数据挖掘、推理和预测》，第2版。纽约州弗拉格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[16]	Hubert M，van Driesen K（2004）快速和稳健的判别分析。计算统计数据分析45:301-320·Zbl 1429.62247号 ·doi:10.1016/S0167-9473（02）00299-2
[17]	Joachims，T。；Schoelkopf，B.（编辑）；Burges，C.（编辑）；Smola，A.（编辑），《使大规模SVM学习实用化》，169-184（1999），马萨诸塞州剑桥
[18]	Kalbfleisch JD，Prentice RL（1980）故障时间数据的统计分析。J.Wiley，密歇根大学·Zbl 0504.62096号
[19]	Koshevoy G，Mosler K（1997），多元分布的带状裁剪。安统计25:1998-2017·Zbl 0881.62059号 ·doi:10.1214/aos/1069362382
[20]	Lange T，Mosler K，Mozharovskyi P（2014a）基于数据深度的快速非参数分类。统计论文55:49-69·Zbl 1283.62128号 ·文件编号：10.1007/s00362-012-0488-4
[21]	兰格，T。；莫斯勒，K。；Mozharovskyi，P。；Spiliopoulou，M.（编辑）；Schmidt-Thieme，L.（编辑）；Janning，R.（编辑），DD\[\alpha\]α-非对称数据和尾数据的分类，71-78（2014），柏林·doi:10.1007/978-3-319-01595-8
[22]	Lange T，Mozharovskyi P（2014）Alpha-procedure-一种用于自动分类d-维对象的非参数不变方法。收录：Spiliopoulou M，Schmidt-Thieme L，Janning R（编辑）数据分析。机器学习和知识发现。柏林施普林格，第79-86页
[23]	Li J，Cuesta-Albertos JA，Liu RY\[（2012）DD\]DD-classifier：基于DD-plot的非参数分类程序。美国统计协会期刊107:737-753·Zbl 1261.62058号 ·doi:10.1080/01621459.2012.688462
[24]	Liu X，Zuo Y（2014a）计算半空间深度和回归深度。公共统计模拟计算43:969-985·Zbl 1291.62059号 ·doi:10.1080/03610918.2012.720744
[25]	Liu X，Zuo Y（2014b）计算投影深度及其相关估计值。统计计算24:51-63·Zbl 1325.62014号 ·doi:10.1007/s11222-012-9352-6
[26]	Mahalanobis P（1936）关于统计学中的广义距离。印度国家科学院院刊12:49-55·Zbl 0015.03302号
[27]	McGilchrist CA，Aisbett CW（1991）生存分析中的虚弱回归。生物统计学47:461-466·doi:10.2307/2532138
[28]	Miller AJ、Shaw DE、Veitch LG和Smith EJ（1979）分析塔斯马尼亚州的一次云交配实验的结果。公共统计理论方法A8（10）：1017-1047·doi:10.1080/03610927908827813
[29]	Mosler K（2002）《多元离散、中心区域和深度：提升带状方法》。施普林格，纽约·Zbl 1027.62033号 ·doi:10.1007/978-1-4613-0045-8
[30]	莫斯勒，K。；Becker，C.（编辑）；Fried，R.（编辑）；Kuhnt，S.（编辑），《深度统计》，17-34（2013），柏林·doi:10.1007/978-3-642-35494-62
[31]	Mosler K，Hoberg R（2006），带状深度的数据分析和分类。收录：Liu R，Serfling R，Souvaine D（eds）数据深度：稳健多元分析。美国数学学会，普罗维登斯RI，第49-59页
[32]	Nierenberg DW、Stukel TA、Baron JA、Dain BJ、Greenberg ER（1989）《血浆β-胡萝卜素和视黄醇水平的决定因素》。美国流行病学杂志130:511-521
[33]	Paindaveine D，Van Bever G（2012）非参数一致的基于深度的分类器。伯努利（出现）·Zbl 1359.62258号
[34]	Reaven GM，Miller RG（1979）试图通过多维分析来定义化学性糖尿病的性质。糖尿病16:17-24·doi:10.1007/BF00423145
[35]	Ripley BD（1996）模式识别和神经网络。英国剑桥大学出版社·Zbl 0853.62046号 ·doi:10.1017/CBO9780511812651
[36]	Rousseeuw PJ，Van Driessen K（1999）最小协方差行列式估计的快速算法。技术计量41:212-223·doi:10.1080/00401706.1999.10485670
[37]	Rousseeuw PJ，Struyf A（1998）计算高维中的位置深度和回归深度。统计计算13:153-162
[38]	Serfling R（2002）基于空间分位数的深度函数和比例曲线。In:Dodge Y（ed）基于L\[_11\]-规范和相关方法的统计和数据分析，Birkhaeuser，第25-38页·Zbl 1460.62076号
[39]	Tukey JW（1974）《数学与数据的图像化》。温哥华国际数学家会议记录，第523-531页·Zbl 0347.6202号
[40]	Turny P（1993）具有上下文敏感特征的稳健分类。第六届人工智能和专家系统工业和工程应用国际会议记录（IEA/AIE-93），第268-276页
[41]	Vapnik VN（1998）统计学习理论。纽约威利·兹比尔0935.62007
[42]	Vardi Y，Zhang CH（2000）多元\[L_1\]L1中点和相关数据深度。收录：美国国家科学院院刊97，pp 1423-1426·Zbl 1054.62067号
[43]	Vasil’ev VI（1991）模式识别学习（PRL）问题中的约简原则。图案识别图像分析1:23-32
[44]	Vasil’ev VI（2003）揭示规律问题的简化原则I.网络系统分析39:686-694·Zbl 1075.68642号 ·doi:10.1023/B:CASA.0000012089.39260.b3文件
[45]	Vasil’ev VI，Lange T（1998）模式识别学习中的对偶原则（俄语）。Kibernetika i Vyt片岩'elnaya Technika 121:7-16
[46]	Wolberg WH，Mangasarian OL（1990）用于乳腺细胞学医学诊断的多表面模式分离方法。美国国家科学院院刊87:9193-9196·Zbl 0709.92537号 ·doi:10.1073/pnas.87.23.9193
[47]	Yeh I-C，Yang K-J，Ting T-M（2009）基于贝努利序列的RFM模型知识发现。专家系统应用36（3,2）：5866-5871·doi:10.1016/j.eswa.2008.07.018
[48]	Zuo YJ，Serfling R（2000）统计深度函数的一般概念。安统计28:461-482·Zbl 1106.62334号 ·doi:10.1214/aos/1016218226

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

使用（DD\alpha）过程对真实世界数据进行分类。（英语） Zbl 1414.62258号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

使用（DD\alpha）过程对真实世界数据进行分类。 （英语） Zbl 1414.62258号

MSC公司：

关键词：

软件：

参考文献：

使用（DD\alpha）过程对真实世界数据进行分类。（英语） Zbl 1414.62258号