×

基于稀疏一致性的序数分类。 (英语) Zbl 07748373号

摘要:顺序分类是统计机器学习中的一个重要领域,标签显示出自然的顺序。序数分类的主要目标之一是正确预测实例的相对顺序。我们提出了一种新的基于协调的序数分类方法,其中引入了协调函数,并设计了一种惩罚平滑优化方法。考虑到稀疏性,引入了使用(L_1)惩罚的变量选择。在最大化协调函数的分类规则集合中,我们通过最小化损失函数来找到预测标签的最佳阈值。在构建分类器之后,我们导出了类条件概率的非参数估计。建立了估计量的渐近性质和变量选择一致性。大量仿真和实际数据应用表明,与其他现有方法相比,该方法在分类精度方面具有鲁棒性和优势。
{©2022斯堪的纳维亚统计杂志基金会董事会。}

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agresti,A.(2010年)。有序分类数据分析。约翰·威利父子公司·Zbl 1263.62007年
[2] Anderson‐Bergman,C.(2017)。区间删失NPMLE的EMICM算法的有效实现。计算与图形统计杂志,26(2),463-467。
[3] Baccianella,S.、Esuli,A.和Sebastiani,F.(2014)。序数文本分类的特征选择。神经计算,26(3),557-591。
[4] Cardoso,J.S.和Sousa,R.(2011年)。衡量顺序分类的性能。国际模式识别与人工智能杂志,25(8),1173-1195。
[5] Cavanagh,C.和Sherman,R.P.(1998年)。单调指数模型的秩估计。《计量经济学杂志》,84(2),351-382·Zbl 0952.62105号
[6] Chu,W.和Ghahramani,Z.(2005)。序数回归的高斯过程。机器学习研究杂志,6(7月),1019-1041·Zbl 1222.68170号
[7] Fan,C.,Lu,W.,Song,R.,&Zhou,Y.(2017)。协和辅助学习用于评估最佳个体化治疗方案。英国皇家统计学会杂志:B辑(统计方法),79(5),1565-1582·Zbl 1381.62097号
[8] Fienberg,S.E.(2007)。交叉分类分类数据的分析。施普林格科技与商业媒体·Zbl 1134.62035号
[9] Frank,E.和Hall,M.(2001年)。序数分类的简单方法。《欧洲机器学习会议记录》(ECML)(第145-156页)·兹比尔1007.68529
[10] Geyer,C.J.(1994)。关于约束的渐近性
[(M\]\)估算。《统计年鉴》,22(4),1993-2010年·Zbl 0829.62029号
[11] Han,A.K.(1987)。广义回归模型的非参数分析:最大秩相关估计。《计量经济学杂志》,35(2‐3),303-316·Zbl 0638.62063号
[12] Harrington,E.F.(2003)。使用感知器算法进行在线排名/协同过滤。第20届机器学习国际会议(ICML)论文集(第250-257页)。
[13] Hirk,R.、Hornik,K.和Vana,L.(2019年)。多元序数回归模型:企业信用评级分析。统计方法与应用,28(3),507-539·Zbl 1435.62424号
[14] Horowitz,J.L.(1992)。二元响应模型的平滑最大得分估计。《计量经济学》,60(3),505-531·Zbl 0761.62166号
[15] Hu,Q.、Che,X.、Zhang,L.、Zhang,D.、Guo,M.和Yu,D.(2011)。单调分类的基于秩熵的决策树。IEEE知识与数据工程汇刊,24(11),2052-2064。
[16] Janitza,S.、Tutz,G.和Boulesteix,A.L.(2016)。有序反应的随机森林:预测和变量选择。计算统计与数据分析,96,57-73·Zbl 1468.62089号
[17] Kim,K.J.和Ahn,H.(2012年)。使用多类支持向量机和有序成对划分方法的企业信用评级模型。计算机与运筹学,39(8),1800-1811·Zbl 1251.91068号
[18] K.奈特和W.傅(2000)。套索型估计量的渐近性。统计年鉴,28(5),1356-1378·兹比尔1105.62357
[19] Kosorok,M.R.(2008年)。介绍经验过程和半参数推断。施普林格科技与商业媒体·兹比尔1180.62137
[20] Krishnapuram,B.、Carin,L.、Figueiredo,M.A.和Hartemink,A.J.(2005)。稀疏多项式logistic回归:快速算法和泛化界限。IEEE模式分析和机器智能汇刊,27(6),957-968。
[21] Kwon,Y.S.、Han,I.和Lee,K.C.(1997)。债券评级中神经网络训练的顺序成对分割(OPP)方法。会计、财务和管理智能系统,6(1),23-40。
[22] Li,C.和Shepherd,B.E.(2012年)。有序结果的新残差。《生物特征》,99(2),473-480·Zbl 1239.62042号
[23] Liang,S.,Lu,W.,Song,R.,&Wang,L.(2017)。稀疏一致性辅助学习用于最佳治疗决策。机器学习研究杂志,18(1月),7375-7400·Zbl 1469.68093号
[24] Lin,H.和Peng,H.(2013)。线性变换回归模型的平滑秩相关。计算统计与数据分析,57(1),615-630·Zbl 1365.62280号
[25] Liu,X.、Zou,Y.、Song,Y.,Yang,C.、You,J.和Vijaya Kumar,B.V.K.(2018)。用于医学诊断的神经元断棒序数回归。欧洲计算机视觉会议(ECCV)研讨会论文集。
[26] Liu,Y.,Kong,A.W.K.,&Goh,C.K.(2018)。有序回归的约束深度神经网络。IEEE计算机视觉和模式识别会议记录(CVPR)(第831-839页)。
[27] McCullagh,P.(1980)。有序数据的回归模型。英国皇家统计学会杂志:B辑(统计方法),42(2),109-127·Zbl 0483.62056号
[28] Murphy,A.H.(1970)。排名概率分数和概率分数:比较。《月度天气回顾》,98(12),917-924。
[29] 牛,Z.,周,M.,王,L.,高,X.,&华,G.(2016)。年龄估计的多输出CNN序数回归。IEEE计算机视觉和模式识别会议记录(第4920-4928页)。
[30] 诺兰博士和波拉德博士(1987年)。U‐过程:收敛速度。《统计年鉴》,15(2),780-799·兹比尔062460048
[31] Peterson,B.和Harrell,F.E.(1990年)。顺序响应变量的部分比例优势模型。英国皇家统计学会杂志:C辑(应用统计学),39(2),205-217·Zbl 0707.62154号
[32] Schmidt,M.(2005)。带L1范数正则化的最小二乘优化。CS542B项目报告,504195-221。
[33] Sherman,R.P.(1993)。最大秩相关估计量的极限分布。《计量经济学》,61(1),123-137·Zbl 0773.62011号
[34] Steck,H.、Krishnapuram,B.、Oberije,C.D.、Lambin,P.和Raykar,V.C.(2007年)。生存分析中的排名:一致性指数的界限。《神经信息处理系统进展》(第1209-1216页)。Curran Associates公司。
[35] Turnbull,B.W.(1976年)。具有任意分组、删失和截断数据的经验分布函数。英国皇家统计学会杂志:B辑(统计方法),38(3),290-295·Zbl 0343.62033号
[36] Tutz,G.和Gerthiss,J.(2016)。分类数据的正则回归。统计建模,16(3),161-200。
[37] Wang,H.,Shi,Y.,Niu,L.,&Tian,Y.(2017)。非并行支持向量序数回归。IEEE控制论汇刊,47(10),3306-3317。
[38] Wang,J.、Shen,X.和Pan,W.(2009)。关于多路径的大幅度层次分类。《美国统计协会杂志》,104(487),1213-1223·Zbl 1388.62193号
[39] Wu,Y.,Ma,Y.和Yin,G.(2015)。具有测量误差的删失分位数回归的平滑和修正分数方法。美国统计协会杂志,110(512),1670-1683·Zbl 1373.62164号
[40] Wurm,M.J.、Rathouz,P.J.和Hanlon,B.M.(2021)。正则序数回归和序数Net R包。《统计软件杂志》,99(6),1-42。
[41] Yee,T.W.(2010)。用于分类数据分析的VGAM包。《统计软件杂志》,32(10),1-34。
[42] Zhu,H.,Tsang,E.C.,Wang,X.,&Ashfaq,R.A.R.(2017)。单调分类极端学习机。神经计算,225(15),205-213。
[43] 邹华(2006)。自适应套索及其oracle属性。《美国统计协会杂志》,101(476),1418-1429·Zbl 1171.62326号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。