文件Zbl 1523.62007-zbMATH Open

用于高维低样本量分类的随机森林内核。（英文）兹比尔1523.62007

统计计算。 34，第1号，第9号论文，16页（2024年）.

摘要：在机器学习的实际应用中，高维、低样本（HDLSS）问题数量众多。从医学图像到文本处理，传统的机器学习算法通常无法从这些数据中学习尽可能好的概念。在之前的工作中，我们提出了一种基于差异的多视图分类方法，即随机森林差异，该方法可以为此类问题提供最新的结果。在这项工作中，我们将该方法的核心原理转换为解决HDLSS分类问题，使用RF相似性度量作为学习的预计算SVM核（RFSVM）。我们表明，这种学习过的相似性度量特别适合于这种分类上下文，并且非常准确。在40个公共HDLSS分类数据集上进行的实验表明，在大多数HDLSS问题上，RFSVM方法优于现有方法，同时在低或非HDLSS的问题上仍具有很强的竞争力。

MSC公司：

62-08	统计问题的计算方法
62H30型	分类和区分；聚类分析（统计方面）
68T05型	人工智能中的学习和自适应系统

关键词：

高维低样本量;分类;随机森林;相似学习;支持向量机;内核

软件：

UCI-毫升;风险评估;LMNN公司;开放多媒体程序库;GeneSrF公司;Scikit公司;Hyperopt公司;XGBoost公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Benavoli，A。；Corani，G。；德姆沙尔，J。；Zaffalon，M.，《改变的时间：通过贝叶斯分析比较多个分类器的教程》，J.Mach。学习。决议，18，77，1-36（2017）·Zbl 1440.62237号
[2]	Bergstra，J.，Bardenet，R.，Bengio，Y.，Kégl，B.：超参数优化算法。摘自：第24届神经信息处理系统国际会议论文集。NIPS’11，第2546-2554页。Curran Associates Inc.，Red Hook（2011年）
[3]	Bergstra，J.、Yamins，D.、Cox，D.D.：建立模型搜索科学：视觉架构的数百维超参数优化。摘自：第30届国际机器学习会议论文集。ICML'13，第28卷，第115-123页（2013）
[4]	Breiman，L.，《随机森林》，马赫。学习。，45, 1, 5-32 (2001) ·Zbl 1007.68152号 ·doi:10.1023/a:1010933404324
[5]	Cao，H.，Bernard，S.，Sabourin，R.，Heutte，L.：一种新的多视角学习随机森林差异性度量。摘自：2020年第25届模式识别国际会议（ICPR），第1344-1351页（2021年）。doi:10.1109/ICPR48806.2021.9412961
[6]	曹，H。；Bernard，S。；Heutte，L.公司。；萨博林，R。；Bai，X。；ER汉考克；Ho，TK；威尔逊，RC；比吉奥，B。；Robles-Kelly，A.，辐射学应用的多视图学习中的动态投票，结构、句法和统计模式识别，32-41（2018），Cham:Springer，Cham·数字对象标识代码：10.1007/978-3319-97785-04
[7]	曹，H。；Bernard，S。；Sabourin，R。；Heutte，L.，《辐射学应用中基于随机森林差异的多视图学习》，模式识别。，88, 185-197 (2019) ·doi:10.1016/j.patcog.2018.11.011
[8]	Chen，T.，Guestrin，C.：XGBoost：一个可扩展的树木提升系统。摘自：第22届ACM SIGKDD知识发现和数据挖掘国际会议记录，第785-794页。ACM，纽约（2016）。doi:10.1145/2939672.29339785
[9]	科尔特斯，C。；Vapnik，V.，支持向量网络，马赫。学习。，20, 3, 273-297 (1995) ·Zbl 0831.68098号 ·doi:10.1007/bf00994018
[10]	德索托，M。；科斯塔，I。；Araujo，D。；Ludermir，T。；Schliep，A.，《聚类癌症基因表达数据：比较研究》，BMC Bioninform。(2008) ·doi:10.1186/1471-2105-9-497
[11]	Deegalla，S.，Bostrom，H.：通过主成分分析与最近邻分类的随机投影来减少高维数据。摘自：2006年第五届机器学习与应用国际会议（ICMLA'06），第245-250页（2006）。doi:10.1109/CIMLA.2006.43
[12]	Demšar，J.，多数据集上分类器的统计比较，J.Mach。学习。第7、1、1-30号决议（2006年）·Zbl 1222.68184号
[13]	迪亚兹·乌里亚特，R。；de Andrés，SA，基因选择和使用随机森林的微阵列数据分类，BMC生物信息。，7, 3, 1-13 (2006)
[14]	多梅尼科尼，C。；Peng，DGJ，大边距最近邻分类器，IEEE Trans。神经网络。，16, 4, 899-909 (2005) ·doi:10.1109/TNN.2005.849821
[15]	Dua，D.，Graff，C.：UCI机器学习库（2017）。网址：http://archive.ics.uci.edu/ml
[16]	杜塔，S。；Ghosh，AK，关于最近邻分类的高维、低样本数据的一些转换，Mach。学习。，102, 57-83 (2016) ·Zbl 1352.62100号 ·doi:10.1007/s10994-015-5495-y
[17]	费尔南德斯·德尔加多，M。；Cernadas，E。；巴罗，S。；Amorim，D.，我们需要数百个分类器来解决现实世界的分类问题吗？，J.马赫。学习。研究，15，90，3133-3181（2014）·Zbl 1319.62005号
[18]	福尔曼，G。；Scholz，M.，交叉验证研究中的苹果对苹果：分类器性能测量中的缺陷，SIGKDD Explor。新闻。，12, 1, 49-57 (2010) ·doi:10.1145/1882471.1882479
[19]	弗朗索瓦，D。；维尔茨，V。；Verleysen，M.，分数距离的集中，IEEE Trans。知识。数据工程，19873-886（2007）·doi:10.1109/TKDE.2007.1037
[20]	Friedman，JH，正则化判别分析，美国统计协会，84，405，165-175（1989）·doi:10.1080/01621459.1989.10478752
[21]	B.加达。；Naoum-Sawaya，J.，《使用支持向量机进行高维数据分类和特征选择》，欧洲期刊Oper。第265、3、993-1004号决议（2018年）·Zbl 1381.62170号 ·doi:10.1016/j.ejor.2017.08.040
[22]	Gunduz，N.，Fokoue，E.：高维低样本数据的稳健分类（2015）。arXiv:1501.00592[统计AP]
[23]	郭毅。；哈斯蒂，T。；Tibshirani，R.，正则化线性判别分析及其在微阵列中的应用，生物统计学，8，1，86-100（2006）·Zbl 1170.62382号 ·doi:10.1093/biostatistics/kxj035
[24]	霍夫曼，T。；Schölkopf，B。；Smola，AJ，《机器学习中的内核方法》，《Ann.Stat.》，36，3，1171-1220（2008）·兹比尔1151.3007 ·doi:10.1214/00905360000000677
[25]	Kouiroukidis，N.，Evangelidis，G.：高维kNN搜索中维度诅咒的影响。2011年第15届泛希腊信息学会议，第41-45页（2011年）。doi:10.1109/PCI.2011.45
[26]	Kuncheva，L.I.，Matthews，C.E.，Arnaiz-González，A.，Rodríguez，J.J.：样本量非常小的高维数据的特征选择：一个警示故事（2020年）。arXiv:2008.12025[cs.LG]
[27]	马，J。；Yuan，Y.，使用PCA对图像深层特征进行降维，J.Vis。Commun公司。图像表示。，63 (2019) ·doi:10.1016/j.jvcir.2019.102578
[28]	马龙，JS；托德，MJ；Ahn，J.，《距离加权歧视》，《美国法律总汇汇编》，1024801267-1271（2007）·Zbl 1332.62213号 ·doi:10.19198/0162114507000001120
[29]	Y.Nakayama。；Yata，K。；Aoshima，M.，高维低样本设置下高斯核偏差校正支持向量机，Ann.Inst.Stat.Math。，72, 5, 1257-1286 (2019) ·Zbl 1465.62185号 ·doi:10.1007/s10463-019-00727-1
[30]	阿拉斯加州帕尔；蒙达尔，PK；Ghosh，AK，基于点间距平均绝对差的高维最近邻分类，模式识别。莱特。，74，C，1-8（2016）·doi:10.1016/j.patrec.2016.01.018
[31]	巴普，V。；Pardalos，PM；Aleskerov，F。；戈登戈林，B。；Pardalos，PM，《高维数据分类，聚类、顺序和树：方法和应用》，119-150（2014），纽约：Springer，纽约·Zbl 1365.68375号 ·doi:10.1007/978-14939-0742-78
[32]	佩德雷戈萨，F。；瓦罗佐，G。；Gramfort，A。；米歇尔，V。；蒂里昂，B。；O.格栅。；布隆德尔，M。；普雷滕霍弗，P。；Weiss，R。；杜堡，V。；范德普拉斯，J。；帕索斯，A。；库纳波，D。；布鲁彻，M。；佩罗，M。；Duchesnay，E.，Scikit-learn：Python中的机器学习，J.Mach。学习。第12号决议，2825-2830（2011年）·Zbl 1280.68189号
[33]	Pekalska，E。；帕西克，P。；Duin，RPW，基于差异的分类的广义核方法，J.Mach。学习。第2号决议，175-211（2002）·兹比尔1037.68127
[34]	Platt，J.：序列最小优化：用于训练支持向量机的快速算法（1998）。数字对象标识代码：10.1.1.43.4376
[35]	Putatunda，S.，Rama，K.：超选择与XGBoost超参数优化的其他方法的比较分析。摘自：2018年信号处理和机器学习国际会议论文集。SPML’18，第6-10页。纽约计算机械协会（2018年）。doi:10.1145/3297067.3297080
[36]	乔，X。；张，HH；刘，Y。；托德，MJ；Marron，JS，加权距离加权判别及其渐近性质，美国统计协会，105，489，401-414（2010）·Zbl 1397.62227号 ·doi:10.1198/jasa.2010.tm08487
[37]	Radovanovć，M.，Nanopoulos，A.，Ivanović，M：高维数据中的最近邻居：中心的出现和影响。摘自：第26届机器学习国际年会论文集。ICML’09，第865-872页。纽约计算机协会（2009年）。doi:10.1145/1553374.1553485
[38]	沈，L。；Yin，Q.，投影空间中用于高维低样本问题的数据最大分散分类器，Knowl。基于系统。，193 (2020) ·doi:10.1016/j.knosys.2019.105420
[39]	沈，L。；Er，MJ；Yin，Q.，高维低样本数据的分类，模式识别。，130 (2022) ·doi:10.1016/j.patcog.2022.108828
[40]	Tomašev，N.，Radovanović，M.，Mladenić，D.，Ivanovć，M：用于高维k近邻分类的基于Hubness的模糊测度。摘自：第七届模式识别中的机器学习和数据挖掘国际会议论文集。MLDM’11，第16-30页。柏林施普林格出版社（2011）
[41]	Vanschoren，J。；van Rijn，JN；Bischl，B。；Torgo，L.，OpenML:机器学习中的网络科学，SIGKDD Explor。，15, 2, 49-60 (2013) ·数字对象标识代码：10.1145/2641190.2641198
[42]	Vert，J.P.，Tsuda，K.，Schölkopf，B.：内核方法入门。《计算生物学中的核心方法》，第35-70页。麻省理工学院出版社，剑桥（2004）。马克斯·普朗克学会
[43]	KQ温伯格；Saul，LK，《大幅度最近邻分类的距离度量学习》，J.Mach。学习。决议，10207-244（2009）·Zbl 1235.68204号
[44]	尹，Q。；阿德利，E。；沈，L。；沈，D.，用于高维低样本问题的人口引导大边缘分类器，模式识别。，97 (2020) ·doi:10.1016/j.patcog.2019.107030
[45]	张，L。；Lin，X.，高维低样本数据分类的一些考虑，《统计方法医学研究》，22，5，537-550（2011）·doi:10.1177/0962280211428387

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
数据传输时间	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

用于高维低样本量分类的随机森林内核。（英文）兹比尔1523.62007

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

用于高维低样本量分类的随机森林内核。 （英文） 兹比尔1523.62007

MSC公司：

关键词：

软件：

参考文献：

用于高维低样本量分类的随机森林内核。（英文）兹比尔1523.62007