×

自适应协变量获取以最小化分类总成本。 (英语) Zbl 07432830号

摘要:在某些应用中,获取协变量的成本是不容忽视的。例如,在医学领域,为了对患者是否患有糖尿病进行分类,测量葡萄糖耐量可能很昂贵。假设每个协变量的成本和误分类的成本可以由用户指定,我们的目标是最小化(预期)总分类成本,即误分类成本加上获得的协变量成本。我们使用(条件)贝叶斯风险来形式化这个优化目标,并使用递归过程来描述最优解。由于该过程在计算上是不可行的,因此我们引入了两个假设:(1)最优分类器可以用广义可加模型表示,(2)最优协变量集被限制为一系列不断增大的集。我们证明在这两个假设下,存在计算效率高的解。此外,在多个医疗数据集上,我们表明,与以往的各种方法相比,该方法在大多数情况下实现了最低的总成本。最后,我们通过允许用户指定最小可接受召回(目标召回)来削弱用户指定所有误分类成本的要求。实验证明,该方法在实现目标召回的同时,最大限度地降低了错误发现率和协变量获取成本。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anderson,TW,《多元统计分析导论》(2003),威利·兹比尔1039.62044
[2] Andrade,D.和Okajima,Y.(2019年)。成本敏感分类的有效贝叶斯风险估计。第22届国际人工智能与统计会议(第3372-3381页)
[3] Bayer-Zubek,V.(2004)。通过系统搜索从示例中学习诊断策略。《第20届人工智能不确定性会议论文集》(第27-34页)。AUAI出版社。
[4] Benbouzid,D.、Busa-Fekete,R.和Kégl,B.(2012年)。使用稀疏决策数据进行快速分类。第29届国际机器学习会议论文集(第747-754页)
[5] Berger,J.O.(2013)。统计决策理论和贝叶斯分析。斯普林格。
[6] Bilgic,M.和Getoor,L.(2007年)。瞧:高效的特征值获取用于分类。《全国人工智能会议论文集》(第22卷,第1225页)。AAAI出版社,门罗公园。
[7] Contardo,G.、Denoyer,L.和Artières,T.(2016)。连续的成本敏感功能获取。在智能数据分析国际研讨会上(第284-294页)。斯普林格。
[8] Dulac-Arnold,G.、Denoyer,L.、Preux,P.和Gallinari,P.(2011年)。基于数据的分类:稀疏性的顺序方法。在关于数据库中的机器学习和知识发现的欧洲联合会议上(第375-390页)。斯普林格·Zbl 1260.68327号
[9] 杜拉克·阿诺德,G。;Denoyer,L。;普鲁克斯,P。;Gallinari,P.,学习数据稀疏表示的顺序方法,机器学习,89,1-2,87-122(2012)·Zbl 1260.68327号 ·doi:10.1007/s10994-012-5306-7
[10] Elkan,C.,《成本敏感学习的基础》,国际人工智能联合会议,17,973-978(2001)
[11] Friedman,JH,《贪婪函数近似:梯度提升机》,《统计年鉴》,291189-1232(2001)·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[12] Gao,T.和Koller,D.(2011年)。基于分类器值的主动分类。《神经信息处理系统进展》(第1062-1070页)。
[13] Gelman,A.、Stern,H.S.、Carlin,J.B.、Dunson,D.B.、Vehtari,A.和Rubin,D.B.(2013)。贝叶斯数据分析。查普曼和霍尔/CRC·Zbl 1279.62004号
[14] 亚利桑那州戈德伯格;洛杉矶阿马拉;格拉斯,L。;Hausdorff,JM;伊万诺夫,PC;马克,RG;米埃图斯,JE;穆迪,英国;彭,CK;Stanley,HE,Physiobank,physiotoolkit,and physionet:复杂生理信号新研究资源的组成部分,《循环》,101,23,e215-e220(2000)·doi:10.1161/01.CIR.101.23.e215
[15] Gong,W.、Tschiatschek,S.、Nowozin,S.,Turner,R.E.、Hernández-Lobato,J.M.和Zhang,C.(2019年)。破冰者:使用贝叶斯深度潜在高斯模型进行元素有效信息获取。《神经信息处理系统进展》(第14791-14802页)。
[16] 格雷纳,R。;AJ格罗夫;Roth,D.,《学习成本敏感型主动分类器》,《人工智能》,第139、2、137-174页(2002年)·Zbl 1506.68094号 ·doi:10.1016/S0004-3702(02)00209-6
[17] Hastie,T.、Tibshirani,R.和Friedman,J.(2009年)。统计学习的要素:数据挖掘、推理和预测。斯普林格·Zbl 1273.62005年
[18] Hastie,T.、Tibshirani,R.和Wainwright,M.(2015)。稀疏性统计学习:套索和概括。查普曼和霍尔/CRC·Zbl 1319.68003号
[19] He,H.,Eisner,J.,&Daume,H(2012)《通过辅导模仿学习》。《神经信息处理系统进展》(第3149-3157页)。
[20] Janisch,J.,佩夫恩ỳ, T.和Lisỳ, V.(2017)。使用深度强化学习进行具有昂贵功能的分类。arXiv预打印arXiv:171107364·Zbl 1522.68462号
[21] 季S。;Carin,L.,成本敏感特征获取和分类,模式识别,40,5,1474-1485(2007)·Zbl 1113.68085号 ·doi:10.1016/j.patcog.2006.11.008
[22] 卡丘(Kachuee,M.)。;达拉比,S。;Moatamed,B。;Sarrafzadeh,M.,使用去噪自动编码器获取动态特征,IEEE神经网络和学习系统汇刊,30,8,2252-2262(2018)·doi:10.1010/TNNLS.2018.280403
[23] Kanani,P.和Melville,P.(2008)。预测时间主动特征值获取,实现经济高效的客户定位。神经信息处理系统进展。
[24] 卡诺,K。;O.小森。;中岛,J。;Ohigashi,T。;菊池,E。;宫岛,A。;Nakagawa,K。;Eguchi,S。;Oya,M.,避免老年男性前列腺癌过度检测的PSA截止列线图,泌尿学杂志,4,181,748(2009)·doi:10.1016/S0022-5347(09)62087-5
[25] Kapoor,A.和Horvitz,E.(2009年)。突破界限:在学习和诊断过程中主动获取信息。第22届神经信息处理系统国际会议论文集(第898-906页)。Curran Associates公司。
[26] Karayev,S.、Fritz,M.J.和Darrell,T.(2013)。根据预算进行分类的动态特征选择。在机器学习国际会议(ICML):序列模型预测研讨会上。
[27] Kusner,M.J.、Chen,W.、Zhou,Q.、Xu,Z.E.、Weinberger,K.Q.和Chen,Y.(2014)。基于分类器子模块树的特征代价敏感学习。AAAI(第1939-1945页)。
[28] Lakkaraju,H.和Rudin,C.(2017年)。学习具有成本效益和可解释的治疗制度。《人工智能与统计》(第166-175页)。
[29] Lounici,K.,缺失观测的高维协方差矩阵估计,Bernoulli,20,3,1029-1058(2014)·Zbl 1320.62124号 ·doi:10.350/12-BEJ487
[30] Ma,C.,Tschiatschek,S.,Palla,K.,Hernandez-Lobato,J.M.,Nowozin,S.和Zhang,C.(2019年)。Eddi:利用部分VAE高效动态发现高价值信息。在机器学习国际会议上(第4234-4243页)。
[31] Nan,F.和Saligrama,V.(2017年)。预算下预测的自适应分类。《神经信息处理系统进展》(第4730-4740页)。
[32] Nan,F.、Wang,J.、Trapeznikov,K.和Saligrama,V.(2014)。快速基于边际的成本敏感分类。2014年IEEE声学、语音和信号处理国际会议(ICASSP)(第2952-2956页)。电气与电子工程师协会。
[33] Nan,F.、Wang,J.和Saligrama,V.(2015)。特色-预算随机森林。在关于机器学习的国际会议上(第1983-1991页)。
[34] Nan,F.、Wang,J.和Saligrama,V.(2016)。修剪随机森林以预测预算。《神经信息处理系统的进展》(第2334-2342页)。
[35] 奥哈拉,RB;Sillanpää,MJ,《贝叶斯变量选择方法综述:什么、如何以及是什么,贝叶斯分析》,4,1,85-117(2009)·Zbl 1330.62291号
[36] Peter,S.、Diego,F.、Hamprecht,F.A.和Nadler,B.(2017)。经济高效的梯度增强。《神经信息处理系统进展》(第1550-1560页)。
[37] Rasmussen,C.E.和Williams,C.K.(2006年)。机器学习的高斯过程。麻省理工学院出版社·Zbl 1177.68165号
[38] Russell,S.和Norvig,P.(2003)。人工智能:一种现代方法。皮尔逊·Zbl 0835.68093号
[39] Sheng,V.S.,&Ling,C.X.(2006)。测试中的特征值获取:一种顺序批测试算法。第23届机器学习国际会议论文集(第809-816页)。ACM公司。
[40] Shim,H.、Hwang,S.J.和Yang,E.(2018年)。采用可变大小集合编码的联合主动特征获取和分类。《神经信息处理系统进展》(第1368-1378页)。
[41] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会期刊B辑(方法学)》,58267-288(1996)·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[42] Trapeznikov,K.和Saligrama,V.(2013)。在预算限制下监督顺序分类。《人工智能与统计》(第581-589页)。
[43] Turny,PD,《成本敏感分类:混合遗传决策树归纳算法的实证评估》,《人工智能研究杂志》,2369-409(1994)·doi:10.1613/jair.120
[44] Wang,J.、Bolukbasi,T.、Trapeznikov,K.和Saligrama,V.(2014a)。通过线性规划进行模型选择。在欧洲计算机视觉会议上(第647-662页)。斯普林格。
[45] Wang,J.、Trapeznikov,K.和Saligrama,V.(2014b)。预算下连续学习的LP。《人工智能与统计》(第987-995页)。
[46] Wang,J.、Trapeznikov,K.和Saligrama,V.(2015)。利用有向非循环图进行资源约束预测的有效学习。《神经信息处理系统进展》(第2152-2160页)。
[47] Xu,Z.、Kusner,M.、Weinberger,K.和Chen,M.(2013)。分类器的成本敏感树。在机器学习国际会议上(第133-141页)。
[48] Xu,Z.、Weinberger,K.Q.和Chapelle,O.(2012)。贪婪的吝啬鬼:在测试时间预算下学习。第29届国际机器学习会议论文集(第1299-1306页)。全能女。
[49] Zadrozny,B.和Elkan,C.(2001年)。在成本和概率都未知的情况下学习和决策。第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第204-213页)。
[50] Zadrozny,B.、Langford,J.和Abe,N.(2003年)。通过成本比例示例加权实现成本敏感学习。第三届IEEE数据挖掘国际会议(第435-442页)。电气与电子工程师协会。
[51] Zubek,V.B.和Dietterich,T.G.(2002)。修剪改进了成本敏感学习的启发式搜索。在机器学习国际会议上(第19-26页)。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。