×

使用产品分区模型处理具有多个级别的分类特征。 (英语) Zbl 07656998号

摘要:数据分析中的一个常见困难是如何处理具有大量级别或类别的类别预测因子。为解决这一重要而经常出现的问题,几乎没有提出什么建议。我们引入了一个生成模型,该模型同时进行模型拟合和将类别级别聚合为更大的组。我们用一个图表示类别预测器,其中节点是类别,并在该图的有意义分区上建立概率分布。根据观察到的数据,我们获得了水平聚合的后验分布,从而可以推断出类别最可能的聚类。同时,我们提取了所有其他回归模型参数的推断。我们将我们的方法与最新的方法进行了比较,结果表明该方法具有同样好的预测性能和更多可解释的结果。我们的方法平衡了准确性和可解释性,这是当前统计和机器学习中的一个重要问题。

MSC公司:

62件 统计学的应用
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] BONDELL,H.D.和REICH,B.J.(2009年)。方差分析中的同时因子选择和崩溃水平。生物计量学65 169-177. ·Zbl 1159.62048号 ·doi:10.1111/j.1541-0420.2008.01061.x
[2] CRISCUOLO,T.L,ASSUN CoÃO,R.M,LOSCHI,R.H,MEIRA JR.,W.和CRUZ-REYES,D.(2023年)。补充“使用产品分区模型处理具有多个级别的分类功能”https://doi.org/10.1214/22-AOAS1651SUPP网站
[3] 克里特奥拉布(2014)。展示广告挑战。可在https://www.kaggle.com/c/criteo-display-ad-challenge。
[4] 交叉验证(2013)。如何处理等级过多的分类预测因素?可在https://stats.stackexchange.com/questions/67938/how-to-handle-categorial-predictors-with-to-many-levels。
[5] 交叉验证(2017)。分解多层次分类变量的原则方法?可在https://stats.stackexchange.com/questions/146907/principled-way-of-collapsing-categorical-variables-with-many-levels(https://stats.stackeexchange.com/quistions/原则-每日-集体-可变-同-任何级别)。
[6] DELLAPORTAS,P.和TARANTOLA,C.(2005年)。具有因子水平合并的分类数据的模型确定。J.R.统计社会服务。B.统计方法。67 269-283. ·Zbl 1069.62049号 ·doi:10.1111/j.1467-9868.2005.0001.x
[7] GERTHEISS,J.和TUTZ,G.(2010年)。分类解释变量的稀疏建模。附录申请。斯达。4 2150-2180. ·Zbl 1220.62092号 ·doi:10.1214/10-AOAS355
[8] 古斯塔夫森,P.(2005)。关于模型扩展、模型收缩、可识别性和先验信息:两个涉及错误测量变量的说明性场景。统计师。科学。20 111-140. ·Zbl 1087.62037号 ·doi:10.1214/088342305000000098
[9] HALLAC,D.、LESKOVEC,J.和BOYD,S.(2015)。网络套索:大型图形中的聚类和优化。会议记录21第届ACM SIGKDD知识发现和数据挖掘国际会议387-396. 纽约ACM。
[10] HARTIGAN,J.A.(1990年)。分区模型。通信统计。理论方法19 2745-2756. ·doi:10.1080/03610929008830345
[11] HEGARTY,A.和BARRY,D.(2008)。使用产品划分模型的贝叶斯疾病映射。统计医学。27 3868-3893. ·doi:10.1002/sim.3253
[12] LEYS,C.、LEY,C.、KLEIN,O.、BERNARD,P.和LICATA,L.(2013)。检测异常值:不要使用平均值周围的标准偏差,使用中间值周围的绝对偏差。实验社会心理学杂志49 764-766.
[13] LUO,Z.T.,SANG,H.和MALLICK,B.(2021)。一种学习聚类潜在变量的贝叶斯邻接划分方法。J.马赫。学习。物件。22第37号文件·Zbl 07370554号
[14] MCGINNIS,W.(2019年)。类别编码器。可在http://contrib.scikit-learn.org/categical-encoding/index.html。
[15] MICCI-BARRECA,D.(2001年)。分类和预测问题中高基数分类属性的预处理方案。ACM SIGKDD探索。新闻。3 27-32.
[16] MOUNTAND,J.和ZUMEL,N.(2019年)。vtreat:统计声音“data.frame”处理器/调节器。可在https://cran.r-project.org/web/packages/vtreat/index.html。
[17] OELKER,M.-R.(2015)。gvcm.cat:GLM中的正则化分类效应/分类效应修饰语/连续/平滑效应。R包版本1.9。
[18] OELKER,M.-R.,GERTHEISS,J.和TUTZ,G.(2014)。广义线性模型中带分类预测因子和效应修正因子的正则化和模型选择。统计模型。14 157-177. ·Zbl 07257900号 ·doi:10.1177/1471082X13503452
[19] OLIVEIRA,L.G.、ARGIENTO,R.、LOSCHI,R.H.、ASSUNÇâO,R.M.、RUGGERI,F.和BRANCO,M.D.(2022)。集群少报数据中的偏差修正。贝叶斯分析。17 95-126. ·doi:10.1214/20-ba1244
[20] PAGE,G.L.和QUINTANA,F.A.(2016)。空间产品分区模型。贝叶斯分析。11 265-298. ·Zbl 1359.62401号 ·doi:10.1214/15-BA971
[21] PAUGER,D.和WAGNER,H.(2019年)。分类预测因子的贝叶斯效应融合。贝叶斯分析。14 341-369. ·Zbl 1416.62224号 ·doi:10.1214/18-BA1096
[22] PAUGER,D.、LEITNER,M.、WAGNER,H.和MALSINER-WALLI,G.(2019年)。effectFusion:用于分类预测的贝叶斯效应融合。R包版本1.1.1。可在https://CRAN.R-project.org/package=effectFusion。
[23] PROKHORENKOVA,L.、GUSEV,G.、VOROBEV,A.、DOROGUSH,A.V.和GULIN,A.(2017)。CatBoost:具有明确功能的无偏见提升。R包版本0.14.2。
[24] PROKHORENKOVA,L.、GUSEV,G.、VOROBEV,A.、DOROGUSH,A.V.和GULIN,A.(2018)。CatBoost:具有明确功能的无偏见提升。神经信息处理系统研究进展6638-6648.
[25] ROSTAMIZADEH,A.、ESFANDIARI,H.、CHEN,L.、BATENI,M.、FU,T.和MIRROKNI,V.(2019年)。通过子模块优化实现分类特征压缩。机器学习国际会议515-523.
[26] SCHAUBERGER,G.和TUTZ,G.(2014)。catdata:分类数据。R包装。可在https://CRAN.R-project.org/package=catdata。
[27] TEIXEIRA,L.V.、ASSUN JÃO,R.M.和LOSCHI,R.H.(2015)。通过生成树的随机数据生成空间聚类模型。2015年IEEE数据挖掘国际会议997-1002.
[28] TEIXEIRA,L.V.、ASSUN CoÃO,R.M.和LOSCHI,R.H.(2019)。通过采样和修剪生成树进行贝叶斯时空划分。J.马赫。学习。物件。20第85号论文·Zbl 1441.62175号
[29] Tibshirani,R.(1996)。通过套索回归收缩和选择。J.罗伊。统计师。Soc.序列号。B类58 267-288. ·Zbl 0850.62538号
[30] TUTZ,G.和BERGER,M.(2018年)。广义加性回归中分类预测因子的树结构建模。高级数据分析。分类。12 737-758. ·Zbl 1416.62364号 ·doi:10.1007/s11634-017-0298-6
[31] WIN-VECTOR(2012)。建模技巧:影响多层次分类变量的编码。可在http://www.win-vector.com/blog/2012/07/modeling-trick-impact-coding-of-categorical-variables-with-many-levels/。
[32] 邹华(2006)。自适应套索及其oracle属性。J.Amer。统计师。协会。101 1418-1429 ·Zbl 1171.62326号 ·doi:10.1198/016214500000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。