×

高维分类中的噪声积累和总信号指数。 (英语) Zbl 1498.68284号

摘要:近年来,大数据受到了广泛关注。这些数据为科学发现带来了希望,但也给分析带来了挑战。一个潜在的挑战是噪音积累。本文研究了高维两组分类中的噪声积累问题。首先,我们使用主成分分析重新评估了之前的噪声积累评估,得出了与最初确定的不同的辨别能力阈值。然后,我们将范围扩展到它对使用三种常见机器学习方法开发的分类器的影响——随机森林、支持向量机和增强分类树。我们用不同的信号强度模拟四种场景来评估每种方法。在确定噪声积累可能影响这些分类器的性能后,我们评估了影响它的因素。我们通过改变样本大小、信号强度、与数字预测因子成比例的信号强度以及随机森林分类器的信号幅度来进行模拟。这些仿真表明,噪声积累会影响使用常见机器学习方法开发的高维分类器的辨别能力,这些分类器可以通过样本大小、信号强度和信号大小进行修改。我们开发了测量总信号指数(TSI)来跟踪总信号和噪声累积的趋势。

MSC公司:

68T09年 数据分析和大数据的计算方面
62H30型 分类和区分;聚类分析(统计方面)
62兰特 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] 利奥·布雷曼(Leo Breiman)。随机森林。机器学习,45(1):5-322001·兹比尔1007.68152
[2] 张志忠和林志仁。LIBSVM:支持向量机库,2011年。可用网址://www.csie.ntu.edu.tw/cjlin/libsvm/。
[3] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克。支持向量网络。机器学习,20(3):273-2971995·Zbl 0831.68098号
[4] 米里亚姆·R·埃尔曼。高维分类代码的噪声累积,2018年。可在https://github.com/sink-or-swim/NoiseAccumulation网站。
[5] 范建清。高置信集中大数据和稀疏解的特点。《统计科学的过去、现在和未来》编辑Christian Genest、David L.Banks、Geert Molenberghs、David W.Scott和Jane Ling Wang在Xihong Lin中,第531-548页。查普曼和霍尔/CRC,美国纽约州纽约市,2014年。
[6] 范建清和范莹莹。使用特征退火独立性规则进行高维分类。《统计年鉴》,36(6):2605-26372008·Zbl 1360.62327号
[7] 范建清、方翰和韩流。大数据分析的挑战。《国家科学评论》,1(2):293-3142014。
[8] Jerome Friedman、Trevor Hastie、Robert Tibshirani等。加性逻辑回归:增长的统计观点。《统计年鉴》,28(2):337-4072000·Zbl 1106.62323号
[9] 杰罗姆·弗里德曼(Jerome H.Friedman)。贪婪函数近似:梯度提升机。《统计年鉴》,29(5):1189-1232,2001年·Zbl 1043.62034号
[10] 彼得·霍尔、伊冯娜·皮特尔科和马来·戈什。小样本高维数据分类器相对性能的理论度量。英国皇家统计学会杂志:B辑(统计方法),70(1):159-1732008·Zbl 1400.62094号
[11] Trevor Hastie、Robert Tibshirani和Jerome Friedman。统计学习的要素。统计学中的斯普林格系列。施普林格,纽约,纽约,美国·Zbl 1273.62005年
[12] 安迪·刘和马修·维纳。通过randomForest进行分类和回归。R新闻,2(3):18-222002。
[13] David Meyer、Evgenia Dimitriadou、Kurt Hornik、Andreas Weingessel和Friedrich Leisch。e1071:概率理论小组统计部的其他职能(原名:e1071),TU Wien,2015年。R软件包版本1.6-6。
[14] R核心团队。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳,2017年。
[15] G.Ridgeway.gbm:广义增强回归模型,2017年。R包版本2.1.3。
[16] 许欢、君士坦丁·卡拉马尼斯和谢曼诺。支持向量机的鲁棒性和正则化。机器学习研究杂志,10(7月):1485-15102009·Zbl 1235.68209号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。