{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部件”:[[2024,5,22]],“日期-时间”:“2024-05-22T07:09:25Z”,“时间戳”:1716361765782},“引用-计数”:73,“发布者”:“威利”,“问题”:“5”,“许可证”:[{“开始”:{/“日期-部分”:[2022,8,2]],“时间”:”2022-0 8-02T00:00:00Z“,”时间戳“:1659398400000},“content-version”:“am”,“delay-in-days”:365,“URL”:“http://\/onlinelibrary.wiley.com/termsAndConditions#am”},{“start”:{“date-parts”:[[2021,8,2],“date-time”:“2021-08-02T00:00:00Z”,“timestamp”:1627862400000},“content-version”:“vor”,“delay-in-days”:0,“URL”:“http:\\/onlinelibrary.wiley.com \/termsAndConditions#vor“}],“出资人”:[{“DOI”:“10.13039\/100000001”,“name”:“国家科学基金会”,“doi-asserted-by”:“publisher”,“award”:[“DMS\u20101554804”]}],“content-domain”:{“domain”:[“onlinelibrary.wiley.com”],“crossmark-restriction”:true},“short-container-title”:[”统计分析“],“published-print”:{“date-parts”:[2021,10]},”摘要“:”摘要<\/jats:title>科学研究和工业分类的一个常见问题是不平衡类的存在。当训练数据中不同类别的样本量不平衡时,天真地实现分类方法往往会导致测试数据的预测结果不令人满意。为了解决类别不平衡问题,人们提出了多种重采样技术。然而,对于何时使用每种技术,并没有通用的指导。在这篇文章中,我们对不平衡类大小下的二进制分类的常见重采样技术进行了基于范式\u2010的综述。我们考虑的范式包括最小化总体分类错误的经典范式,最小化成本调整加权I型和II型错误的成本敏感型学习范式,以及最小化受I型错误约束的II型错误(Neyman2013Pearson范式)。在每种范式下,我们研究了重采样技术和几种状态2010的艺术分类方法的组合。对于每对重采样技术和分类方法,我们使用模拟研究和信用卡欺诈的真实数据集来研究不同评估指标下的性能。从这些广泛的数值实验中,我们证明了在每个分类范式下,重采样技术、基本分类方法、评估指标和不平衡比率之间的复杂动力学。我们还总结了一些关于选择重采样技术和基本分类方法的要点,这可能对从业者有所帮助<\/jats:p>“,”DOI“:”10.1002\/sam.11538“,”type“:”journal-article“,”created“:{”date-parts“:[2021,8,2],”date-time“:”2021-08-02T14:47:49Z“,”timestamp“:1627915669000},”page“:14,“标题”:[“不平衡分类:基于范式\u2010的综述“],前缀:“10.1002”,卷:“14”,作者:[{“given”:“Yang”,家庭:“Feng”,“sequence”:“first”,“affiliation”:[{“name”:“Department of Biostatistics School of Global Public Health,New York University New Yorks New York-USA”}]},{“given”:“Min”,“family”:“Zhou”,“sequence”:“additional”,“affiliation“:[{”name“:”北京师范大学科技部\u2010Hong Kong Baptist University United International College China珠海分校“}]},{”ORCID“:”http://\/ORCID.org\/00000-0001-8534-3827“,”authenticated-ORCID“:false,”given“:“Xin”,”family“:”Tong“,”sequence“:”additional“,”affiliance“:美国南加州大学洛杉矶分校马歇尔商学院数据科学与操作系“}]}],“成员”:“311”,“在线发布”:{“日期-部件”:[[2021,8,2]},“参考”:[{“密钥”:“e_1_2_10_2_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1142\/S021964922040016X“},{“问题”:“3”,“密钥”“e_2_10-3_1”“,”第一页“:”175“,”article-title“:”内核和最近邻非参数回归简介“,”volume“:”46“,”author“:”Altman N.S.“,“year”:“1992”,“journal-title”:“Am.Stat.”},{“key”:“e_1_2_10_4_1”,“doi-asserted-by”:“publisher”,”doi“:”10.5539\/mas.v14n7p92“},”{“密钥”:“e_1_2_10_5_1”、“首页”:“89”,“article-title”:“使用降秩样条平滑器和概率分类器高效检测表面光洁度缺陷”,“体积”:“18”,“作者”:“Arnqvist N.P.”,“年份”:“2021”,“期刊标题”:“经济。Stat.“},{”key“:”e_1_2_10_6_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1016\/j.ajhg.2014.05.003”},“key”:“e_1_i_10_7_1”,“doi-assert-by”:“crossref”,”unstructured“:”j.P.Bradford C.Kunz R.Kohavi C.Brunk和C.e.Brodley用错误分类代价修剪决策树欧洲机器学习会议Springer 1998,第131\u2013136页。“,”doi“:”10.1007\/BFb0026682“},{“key”:“e_1_2_10_8_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1016\/S0031-3203(96)00142-2“}”,{”key“:”e_1_i_10_9_1“,”doi-assert-by“:”publisher“A.Cannon J.Howse D.Hush和C。Neyman\u2013Pearson和min\u2013max标准的Scovel Learning Los Alamos National Laboratory Tech.Rep.LA\u2010UR 02\u20102951 2002.“},{“key”:“e_1_2_10_11_1”,“doi-asserted-by”:“publisher”,“doi”:“10.1016\/j.compedimag.2013.12.003”},}“key:”e_1_i_12_1“,”doi-assert-by“:”publisher“,“doi:”10.1109\/TNNLS.2013.2246188“}”,{“密钥”:“e_1_2_10_13_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1016\/j.neucom.2013.05.059”},{“key”:“e_1_i_10_14_1”,“doi-assert-by”:“publisher”,”doi“:”10.1613\/jair.953“},”{“密钥”:“e_1_2_10_15_1”、“doi-sserted-by”“:”crossref“,‘非结构化’:”T.Chenand C公司。Guestrin XGBoost:一个可扩展的树增强系统第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集ACM 2016第785\u2013794页。“,”DOI“:”10.1145\/2939672.2939785“},{“key”:“e_1_2_10_16_1”,“unstructured”:“T.Chen T.He M.Benesty V.Khotilovich Y.Tang H.Cho K.Chen R.Mitchell I.Cano T.Zhou M.Li J.Xie M.Lin Y.Geng和Y。Li xgboost:极限坡度提升。R软件包版本0.90.0.2 2019可从以下网址获得:http://\/CRAN.R\u2010project.org\/package=xgboost。“},{”key“:”e_1_2_10_17_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1007\/s11517-016-1482-0”},“{”key“:“e_1_i_10_18_1”,“doi-assert-by”:“publisher”,”doi“:”10.1007\/BF00994018“}J.戴维森德。Goadrich精确性\u2013回忆和ROC曲线之间的关系第23届国际机器学习会议论文集ACM 2006年第233\u2013240页。“,”DOI“:”10.1145\/114384.1143874“},{“key”:“e_1_2_10_20_1”,“DOI-asserted-by”:“publisher”,”DOI:“10.1016\/j.knosys.2015.04.022”},“key“:”e_1_i_10_21_1“,”DOI-assert-by“:”publisher“,”DOI“:”10.1145\/312129.312220“},{“key”:“e_1_2_10_22_1”,“unstructured”:“C.Elkan The foundations of cost\u2010 sensitive learning International Joint Conference on Artificial Intelligence vol.17 Lawrence Erlbaum Associates Ltd 2001 pp.973\u2013978”},“{“key”:”e_2_10-23_1“,“DOI-asserted-by”:“publisher”,“DOI”:“10.1007\/s13748-012-0027-5”}e_1_2_10_24_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1016\/j.knosys.2011.06.013”},{“key”:“e_1_i_10_25_1”,“doi-assert-by”:“crossref”,”unstructured“:”M.Goadrich L.Oliphant和J。Shavlik Learning ensemblies of first\u2010 order子句for recovery\u2010 precision curves:A case study in生物医学信息提取国际归纳逻辑编程会议Springer 2004 pp.98\u2013115。“,”DOI“:”10.1007\/978-3-540-30109-7_11“},{”key“:”e_1_2_10_26_1“,”DOI-asserted-by“:”publisher“,“DOI”:”10.1016\/j.eswa.2016.12.035“},{“key”:“e_1_2_10_27_1”,“doi-asserted-by”:“publisher”,”doi“:“10.1007\/11538059_91”},“key“:”e_1_i_10_28_1“,”doi-assert-by“:”publisher“。A.Garcia和S。Li ADASYN:不平衡学习的自适应合成抽样方法2008 IEEE神经网络国际联合会议(IEEE计算智能世界大会)IEEE 2008第1322\u20131328页。“},{”key“:”e_1_2_10_30_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/TKDE.2005.50”},“key”:“e_1_i_10_31_1”,“doi-assert-by”:“publisher“,”DOI“:”10.1007\/978-1-4614-7138-7“},{“key”:“e_1_2_10_32_1”,“DOI-asserted-by”:“publisher”,“DOI”:“10.1007\/978-3-642-22147-7”},“key“:”e_1_i_10_33_1“,“首页”:“3”,“article-title”:“监督机器学习:分类技术综述”,“卷”:“160”,“作者”:“Kotsiantis S.B.”,“年份”:“2007”,“journ al-title“:”出现。Artif公司。智力。申请。计算。工程“},{”key“:”e_1_2_10_34_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1023\/A:100745223027”},“key”:“e_1_i_10_35_1”,“doi-assert-by”:“publisher”,”doi“:”10.1007\/9781-4614-6849-3“}”,{4-0045-6“},{“问题”:“3”,“密钥”:“e_1_2_10_37_1”,“首页”:“18”,“文章标题”:“按randomforest分类和回归“,”volume“:”2“,”author“:”Liaw A.“,”year“:”2002“,”journal-title“:”R News“},{“key”:“e_1_2_10_38_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1023\/A:1012406528296。X.Ling Q.Yang J.Wang和S。Zhang Decision trees with minimal costures of the Twenty\u2010First International Conference on Machine Learning ACM 2004第69页。“,”DOI“:”10.1145“/1015330.1015369“},{”key“:”e_1_2_10_40_1“,”DOI-asserted-by“:”publisher“,“DOI”:“10.1016\/j.fss.2014.015”},“key”:“e_2_10 _41_1”,“DOI-assert-by”:“publisher”,”DOI:“10.1016”//j.ins.2013.07.07“},{“key”:“e_1_2_10_42_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1016\/j.eswa.2011.12.043“},{”key“:”e_1_i_10_43_1“,”volume-title“:”判别分析和统计模式识别“,”author“:”McLachlan G.j.“,“year”:“2004”},“key“:”e_2_10/44_1“”,“unstructured”:“D.Meyer E.Dimitriadou K.Hornik A.Weingessel和F.Leisch e1071:统计部概率论小组(前身:e1071)TU Wien.R软件包版本1.7\u20102 2019,可在http:\/\/CRAN.R\u2010project.org\/package=e1071.”},{“key”:“E_1_2_10_45_1”,doi断言者:“publisher”,“doi”:“10.1016\/j.eswa.2015.01031”},{“key”:“e_1_2_10_46_1”,“doi-asserted-by”:“publisher”,”doi“:”10.2307\/2344614“},{”issue“:”4“,”key“:”e_1_i_10_47_1“,”first page“:e_1_2_10_48_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1111\/j.1541-0420.2008.01017.x”},{“key”:“e_1_2_10_49_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1198\/jasa.2010.tm08487“},“key“:”e_1_i_10_50_1“,”doi-assert-by“:”publisher“,“,”文章标题“:“Neyman\u2013Pearson分类、凸性和随机约束”,“卷”:“12”,“作者”:“Rigollet P.”,“年份”:“2011”,“期刊标题”:“J.Mach.Learn.Res.”},{“键”:“e_1_2_10_52_1”,”非结构化“:“I.Rish朴素贝叶斯分类器的实证研究IJCAI 2001年人工智能实证方法研讨会第3卷2001年第41\u201346页。”},{“key”:“e_1_2_10_53_1”,“doi-asserted-by”:“crossref”,”unstructured“:”D.e.Rumelhart G。E.Hinton和R。J.Williams Learning内部表示法,错误传播加利福尼亚大学圣地亚哥拉荷亚认知科学研究所,1985年e_1_2_10_56_1“,“首页”:“868”,“文章标题”:“马尔可夫逻辑网络的判别训练”,“卷”:“5”,“作者”:“Singla P.”,“年份”:“2005年”,“期刊标题”:”AAAI“},{“关键字”:“e_1_i_10_57_1”,”卷标题“:”扼杀性:基于SMOTE.R包1.3.1版的类不平衡问题的过采样技术集合“,作者”:”Siriseriwan W.“,”年份“:“2019”},{“key”:“e_1_2_10_58_1”,“doi-asserted-by”:“publisher”,”doi“:”10.1016\/j.patcog.2007.04.009“},”{“key”:”e_1_i_10_59_1“,”doi-assert-by“:”publisher“,“:”10.1016\/j.patcog.2014.11.014“},{“问题”:“1”,“密钥”:“e_1_2_10_61_1”,“第一页“:”3011“,”文章标题“:”Neyman\u2013Pearson分类法中的插件“,”卷“:”14“,”作者“:”Tong X.“,”年份“:”2013“,”杂志标题“:“J.Mach。学习。Res.“},{”key“:”e_1_2_10_62_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1126\/sciadv.aao1659”},}“key”:“e_1_i_10_63_1”,“doi-assert-by”:“publisher”,”doi“:”10.1002\/wics.1376“}”,{,{“键”:“e_1_2_10_65_1”,“doi-asserted-by”:“出版商”,“doi”:“10.1007\/s11634-0167-5”},{key“:”e_1_2_10_66_1“,”doi-asserted-by“:”publisher“,“doi”:“10.1007\/s10115-009-0198-y”},{“key”:“e_1_i_10_67_1”,“doi-assert-by”:“publisher”,”doi“:”10.1007\/s 11280-012-0178-0“},“key“:”e_2_10/68_1“、”doi-aserted-by-by“:”publisher“,”doi:“10.1016\/j.eswa.2008.06.108”},{“键”:“e_1_2_10_69_1”,“doi-asserted-by”:“出版商”,“doi”:“10.1007\/978-1-4020-6264-3_67“},{“key”:“e_1_2_10_70_1”,“首页”:“435”,“article-title”:“按成本\u2010比例示例权重计算的成本\u2010-sensitive learning”,“volume”:”3“,“author”:“Zadrozny B.”,“year”:“2003”,“journal-title“:”ICDM“}”,{C.张维高J.宋和J。Jiang An改进的自动编码器神经网络的不平衡数据分类算法2016第八届国际高级计算智能会议(ICACI)IEEE 2016 pp.95\u201399.“,”DOI“:”10.1109\/ICCI.2016.7449810“},{”key“:”e_1_2_10_72_1“,”DOI断言“:”publisher“,”DOI“:”10.1145\/1007730.10007741“},{”key“:”e_1_2_10_73_1“,”doi-asserted-by“:”publisher“,”doi“:”10.1109\/TKDE.2006.17“},{“key”:“e_1_2_10_74_1”,“doi-assert-by”:“publisher”,”doi:“10.1016\/j.bdr.2015.12.001”}],“container-title”:[“统计分析和数据挖掘:ASA Data Science Journal”],“original-title“:[],“language”:“en”,“link”:[{“URL”:“https:\/\/onlinelibrary.wiley.com/doi\/pdf\/101002\/sam.11538“,“content-type”:“application\/pdf”,“content-version”:“vor”,“intended-application”:“text-mining”},{“URL”:“https:\//onlinelibrary.wiley.com\/doi\/full-xml\/101001\/sam.11538”,“内容类型”:“应用程序\/xml”,“content-version“:”vor“,”intended-application“:”text mining“},{”URL“:”https:\/\/onlinelibrary.wiley.com/doi\/am-pdf\/10.1002\/sam.11538“,”content-type“:”application\/pdf“,”content-version“:”am“,”intended-application“:”syndication“},{”URL“:”https:\///onlinelibrary.wiley.com\/doi\/pdf\/10.10002\/sam.11538“,“}],”存放“:{”date-parts“:[[2023,8,29]],“date-time”:“2023-08-29T21:59:44Z”,“timestamp”:1693346384000},“score”:1,“resource”:{“primary”:{“URL”:“https:\/\/onlinelibrary.wiley.com\/doi\/1002\/sam.11538”},”subtitle“:[],”shorttitle“:[],”issued“:{”date-part“:[2021,8,2]}”,“references-count”:73,“新闻发布”:{“发布”:“5”,“发布-发布”:date-parts“:[2021,10]}},”alternative-id“:[”10.1002\/sam.11538“],”URL“:”http://\/dx.doi.org\/10.1002\/sam.11538“,”archive“:[“Portico”],”relationship“:{},“ISSN”:[“1932-1864”,“1932-1872”],“ISSN-type”:[{“value”:“1932-11864”,”type“:”print“},“type”:“electronic”}],“subject”:[],“published”:{“date-parts”:[[2021,8,2]]},“assertion”:[{value“:”2020-08-12“,”order“:0,”name“:”received“,”label“:”received“,“,”label“:”已发布“,”组“:{”name“:”publication_history“,”label“:”publication history“}}]}}