×

使用多元决策树对保险索赔进行预测分析。 (英语) Zbl 1434.62131号

摘要:由于决策树的许多优点,它已经成为构建分类和回归模型的一种越来越流行的替代预测工具。它的起源可以追溯到大约五十年前,通过反复划分解释变量的区域,从而创建一个基于树的模型来预测响应,可以对算法进行广泛描述。对原始方法的创新,如随机森林和梯度增强,进一步提高了使用决策树作为预测模型的能力。此外,使用具有多变量响应变量的决策树的扩展也开始发展,本文的目的是将多变量树模型应用于具有相关响应的保险索赔数据。这种对多变量响应变量的扩展继承了单变量决策树模型的几个优点,如无分布特征、对基本解释变量进行排序的能力和高预测精度等。为了说明这种方法,我们分析了从威斯康星州地方政府财产保险基金(LGPIF)中提取的数据集,该基金提供财产、机动车辆和承包商设备的多险种保险。利用多元树模型,我们能够捕捉到响应变量之间的内在关系,我们发现基于多元树的边际预测模型比简单基于单变量树的预测模型在预测精度上有所提高。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62P05号 统计学在精算科学和金融数学中的应用
62C25型 统计决策理论中的复合决策问题
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Breiman,L.(2001)。随机森林。机器。学习。45(1), 5-32.; ·Zbl 1007.68152号
[2] Breiman,L.、Friedman,J.H.、Olshen,R.A.和Stone,C.J.(1984)。分类和回归树。Taylor&Francis,佛罗里达州博卡拉顿·Zbl 0541.62042号
[3] De'ath,G.(2002年)。多元回归树:一种新的物种-环境关系建模技术。生态学83(4),1105-1117。;
[4] Deprez,P.、Shevchenko,P.V.和Wüthrich,M.V.(2017)。死亡率建模的机器学习技术。欧洲实际值。《期刊》第7卷第(2)期,第337-352页·Zbl 1405.91254号
[5] Elith,J.、Leathwick,J.R.和Hastie,T.(2008)。增强回归树的工作指南。J.阿尼姆。经济。77(4), 802-813.;
[6] Frees,E.W.和Lee,G.(2015)。使用广义线性模型对背书进行评级。方差10(1),51-74。;
[7] Frees,E.W.、Lee,G.和Yang,L.(2016)。保险中的多变量频率-可靠性回归模型。风险4(4),36。;
[8] Frees,E.W.和Valdez,E.A.(2008)。分层保险索赔建模。J.Amer。统计师。协会103(484),1457-1469·Zbl 1286.62087号
[9] Friedman,J.H.(2001)。贪婪函数近似:梯度增强机。安。统计师。29(5), 1189-1232.; ·Zbl 1043.62034号
[10] Friedman,J.H.(2002)。随机梯度增强。计算。统计师。数据分析。38(4), 367-378.; ·Zbl 1072.65502号
[11] Friedman,J.H.和Meulman,J.J.(2003)。多元加性回归树及其在流行病学中的应用。统计师。《医学》22(9),1365-1381。;
[12] Gabriel,K.R.(1971)。矩阵的双槽图形显示及其在主成分分析中的应用。生物特征58(3),453-467·Zbl 0228.62034号
[13] Guelman,L.(2012)。用于汽车保险损失成本建模和预测的梯度增强树。专家系统。申请。39(3), 3659-3667.;
[14] 哈蒂根,J.A.(1975)。聚类算法。纽约威利·Zbl 0372.62040号
[15] Hastie,T.、Tibshirani,R.和Friedman,J.(2009)。统计学习的要素:数据挖掘、推理和预测。纽约州施普林格·Zbl 1273.62005年
[16] Hothorn,T.、Hornik,K.和Zeileis,A.(2006年)。《无偏递归分区:条件推理框架》,J.Compute。图表。统计师。15(3), 651-674.;
[17] James,G.、Witten,D.、Hastie,T.和Tibshirani,R.(2013)。统计学习导论:纽约R.Springer的应用·Zbl 1281.62147号
[18] 乔利夫,I.T.(1986)。主成分分析和因子分析。纽约州施普林格。;
[19] Lee,S.C.和Lin,S.(2018年)。Delta助推器,适用于一般保险。北美法案。《期刊》22(3),405-425·Zbl 1416.91199号
[20] Liaw,A.和Wiener,M.(2002年)。随机森林分类和回归。R新闻2/3,18-22。;
[21] Loh,W.-Y.(2014)。五十年的分类和回归树。国际统计修订版82(3),329-348·Zbl 1416.62347号
[22] Maroco,J.、Silva,D.、Rodrigues,A.、Guerreiro,M.、Santana,I.和de MendonçA,A.(2011)。数据挖掘方法在痴呆预测中的应用:对线性判别分析、逻辑回归、神经网络、支持向量机、分类树和随机森林的准确性、敏感性和特异性进行实际数据比较。BMC研究注释4(299),14。;
[23] Milborrow,S.(2016)。使用rpart.plot包绘制rpart树。可在http://www.milbo.org/rpart-plot/prp.pdf。;
[24] Miller,P.J.、Lubke,G.H.、McArtor,D.B.和Bergeman,C.(2016)。使用多元树增强查找数据中的结构。精神病。方法。21(4), 583-602.;
[25] Morgan,J.N.和Sonquist,J.A.(1963年)。调查数据分析中的问题,并提出建议。J.Amer。《美国法律总汇》第58(302),415-434页·Zbl 0114.10103中
[26] 穆尼奥斯,J.和费利西西莫,A。M.(2004)。预测建模中常用统计方法的比较。J.维吉特。科学。15(2), 285-292.;
[27] Olbricht,W.(2012)。基于树的方法:人寿保险的有用工具。欧洲实际值。J.2(1),129-147。;
[28] Pande,A.、Li,L.、Rajeswaran,J.、Ehrlinger,J.,Kogalur,U.B.、Blackstone,E.H.和Ishwaran,H.(2017)。纵向数据的增强多元树。机器。学习。106(2), 277-305.; ·兹比尔1453.68156
[29] Ridgeway,G.(2018)。gbm:广义增强回归模型。R包版本2.1.4。CRAN上提供。;
[30] Ridgeway,G.(2007b)。广义增强模型:gbm包指南。可在https://cran.rproject.org/web/packages/gbm/vignettes/gbm.pdf。;
[31] Segal,M.和Xiao,Y.(2011年)。多元随机森林。数据最小知识。发现。1(1), 80-87.;
[32] Shi,P.和Yang,L.(2018)。对保险经验评级的copula结构进行配对。J.Amer。Stat.Assoc.113(521),122-133·Zbl 1398.62323号
[33] Strobl,C.、Boulesteix,A.-L.、Zeileis,A.和Hothorn,T.(2007年)。随机森林变量重要性测量中的偏差:说明、来源和解决方案。BMC生物信息学8,25。;
[34] Tan,P.-N.、Steinbach,M.和Kumar,V.(2006)。数据挖掘简介。培生教育有限公司,哈洛。;
[35] Ter Braak,C.J.(1986年)。典型对应分析:多元直接梯度分析的新特征向量技术。生态学67(5),1167-1179。;
[36] Therneau,T.、Atkinson,B.和Ripley,B.(2018)。rpart:递归分区和回归树。R包版本4.1-13。CRAN上提供。;
[37] Thuiller,W.、Araújo,M.B.和Lavorel,S.(2003)。广义模型与分类树分析:预测不同尺度下植物物种的空间分布。J.维吉特。科学。14(5), 669-680.;
[38] Wüthrich,M.V.(2018)。个人索赔保留中的机器学习。扫描。演员。J.2018(6),465-480·Zbl 1416.91225号
[39] Wüthrich,M.V.和Buser,C.(2018)。非人寿保险定价的数据分析。可在https://dx.doi.org/10.2139/ssrn.2870308。;
[40] Xiao,Y.和Segal,M.R.(2009)。使用多元随机森林识别酵母转录调控网络。公共科学图书馆计算。生物学5(6),e1000414。;
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。