跳到主要内容
研究论文
公共访问

基于树的方法中特征重要性的无偏度量

出版:2021年1月4日出版历史
跳过抽象节

摘要

我们提出了一个修正,修正了随机森林和其他基于树的方法中的分裂改进变量重要性度量。研究表明,这些方法倾向于增加具有更多潜在分割的特征的重要性。我们表明,通过适当合并样本外数据测量的分裂改进,可以纠正这种偏差,从而产生更好的总结和筛选工具。

工具书类

  1. Rina Foygel Barber和Emmanuel J.Candès。2015年,通过仿冒品控制虚假发现率。《统计年鉴》43,5(2015),2055-2085。谷歌学者谷歌学者交叉引用交叉引用
  2. 盖伦·布林格(Galen Bollinger)。1981.书评:回归诊断:识别影响数据和共线性来源。《市场营销研究杂志》18,3(1981),392--393。谷歌学者谷歌学者
  3. 安娜·劳尔·布列斯特克(Anne-Laure Boulesteix)、安德烈亚斯·本德(Andreas Bender)、朱斯托·洛伦佐·贝梅乔(Justo Lorenzo Bermejo)和卡罗琳·斯特罗布尔(Carolin Strobl)。2011年。随机森林基尼重要性有利于具有较大次要等位基因频率的单核苷酸多态性:影响、来源和建议。生物信息学简介13,3(2011),292--304。谷歌学者谷歌学者交叉引用交叉引用
  4. 利奥·布雷曼(Leo Breiman)。1996年,装袋预测。机器学习24,2(1996),123--140。谷歌学者谷歌学者交叉引用交叉引用
  5. 利奥·布雷曼(Leo Breiman)。2001.随机森林。机器学习45,1(2001),5--32。谷歌学者谷歌学者数字图书馆数字图书馆
  6. Leo Breiman、Jerome H.Friedman、R.A.Olshen和Charles J.Stone。1984.分类和回归树。CRC出版社。谷歌学者谷歌学者
  7. 陈田琪(Tianqi Chen)和卡洛斯·盖斯特林(Carlos Guestrin),2016年。Xgboost:一个可扩展的树增强系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集。美国医学会,785--794。谷歌学者谷歌学者数字图书馆数字图书馆
  8. 迈克尔·卡明斯(Michael P.Cummings)和丹尼尔·迈尔斯(Daniel S.Myers)。2004.简单统计模型预测植物线粒体RNA中的C-to-U编辑位点。BMC生物信息学5,1(2004),132。谷歌学者谷歌学者交叉引用交叉引用
  9. 米沙·丹尼尔(Misha Denil)、大卫·马西森(David Matheson)和南多·德·弗雷塔斯(Nando De Freitas)。2014.缩小差距:理论和实践中的随机森林。机器学习国际会议论文集。665--673.谷歌学者谷歌学者
  10. 拉蒙·迪亚斯·乌里亚特(Ramón Díaz-Uriarte)和萨拉·阿尔瓦雷斯·德安德烈斯(Sara Alvarez De Andres)。2006.使用随机森林对微阵列数据进行基因选择和分类。BMC生物信息学7,1(2006),3。谷歌学者谷歌学者交叉引用交叉引用
  11. Jerome Friedman、Trevor Hastie和Robert Tibshirani。2001.统计学习的要素。第1卷。斯普林格。谷歌学者谷歌学者
  12. 杰罗姆·H·弗里德曼。2001.贪婪函数近似:梯度增强机。《统计年鉴》29,5(2001),1189-1232。谷歌学者谷歌学者交叉引用交叉引用
  13. Indrayudh Ghosal和Giles Hooker。2018年,增加随机森林以减少偏见;一步增强森林及其方差估计。《计算与图形统计杂志》(2020),1-10。谷歌学者谷歌学者
  14. 巴普蒂斯特·格雷戈鲁蒂(Baptiste Gregorutti)、伯特兰·米歇尔(Bertrand Michel)和菲利普·圣皮埃尔(Philippe Saint-Pierre)。2017年,随机森林中的相关性和变量重要性。《统计与计算》27,3(2017),659--678。谷歌学者谷歌学者数字图书馆数字图书馆
  15. 贾尔斯·胡克(Giles Hooker)。2007.因变量高维函数的广义函数方差分析诊断。《计算与图形统计杂志》16,3(2007),709-732。谷歌学者谷歌学者交叉引用交叉引用
  16. 贾尔斯·胡克和卢卡斯·曼奇。2019.请停止排列功能:解释和备选方案。arXiv预印本arXiv:1905.03151(2019)。谷歌学者谷歌学者
  17. 托尔斯滕·霍霍恩(Torsten Hothorn)、库尔特·霍尼克(Kurt Hornik)、卡罗琳·斯特罗布尔(Carolin Strobl)和阿奇姆·泽利斯(Achim Zeileis)。2010年,派对:递归派对实验室。检索自https://CRAN.R-project.org/package=聚会。谷歌学者谷歌学者
  18. 托尔斯滕·霍霍恩(Torsten Hothorn)、库尔特·霍尼克(Kurt Hornik)和阿奇姆·泽利斯(Achim Zeileis)。2006.无偏递归分区:条件推理框架。计算与图形统计杂志15,3(2006),651-674。谷歌学者谷歌学者交叉引用交叉引用
  19. 赫曼特·伊斯瓦兰。2007.二元回归树和森林中的变量重要性。《电子统计杂志》1(2007),519-537。谷歌学者谷歌学者交叉引用交叉引用
  20. Hemant Ishwaran、Udaya B.Kogalur、Eugene H.Blackstone和Michael S.Lauer。2008.随机存活森林。应用统计年鉴2,3(2008),841-860。谷歌学者谷歌学者交叉引用交叉引用
  21. Luckyson Khaitem、Snehanshu Saha和Sudeepa Roy Dey。2016年,利用随机森林预测股市价格走势。arXiv预印arXiv:1605.00003(2016)。谷歌学者谷歌学者
  22. Hyunjoong Kim和Wei-Yin Loh。2001.具有无偏多路分割的分类树。《美国统计协会杂志》96,454(2001),589-604。谷歌学者谷歌学者交叉引用交叉引用
  23. Xiao Li、Yu Wang、Sumanta Basu、Karl Kumbier和Bin Yu。2019.针对随机森林的衰退MDI特征重要性度量。神经信息处理系统进展32(2019),8049-8059。谷歌学者谷歌学者
  24. 魏寅洛。2009年。提高分类树的精度。应用统计年鉴3,4(2009),1710-1737。谷歌学者谷歌学者交叉引用交叉引用
  25. 魏寅洛。2014.五十年分类和回归树。《国际统计评论》82,3(2014),329--348。谷歌学者谷歌学者交叉引用交叉引用
  26. Wei-Yin Loh和Yu-Shan Shih。1997.分类树的分割选择方法。《中国统计》7,4(1997),815--840。谷歌学者谷歌学者
  27. 卢卡斯·门奇和贾尔斯·胡克。2016.通过置信区间和假设检验量化随机森林中的不确定性。《机器学习研究杂志》17,1(2016),841--881。谷歌学者谷歌学者数字图书馆数字图书馆
  28. Bjoern H.Menze、B.Michael Kelm、Ralf Masuch、Uwe Himmelreich、Peter Bachert、Wolfgang Petrich和Fred A.Hamprecht。2009年,随机森林及其基尼重要性与光谱数据特征选择和分类的标准化学计量学方法的比较。BMC生物信息学10,1(2009),213。谷歌学者谷歌学者交叉引用交叉引用
  29. Michael Meyer、Juan Felipe Beltran、Siqi Liang、Robert Fragoza、Aaron Rumack、Jin Liang,Xiaomu Wei和Haiyuan Yu。2017.Interactome INSIDER:用于基因组研究的多尺度结构交互组浏览器。bioRxiv(2017),126862。谷歌学者谷歌学者
  30. Stefano Nembrini、Inke R.König和Marvin N.Wright。2018年,基尼重要性的复兴?生物信息学34,21(2018),3711-3718。谷歌学者谷歌学者交叉引用交叉引用
  31. 克里斯汀·尼科迪默斯。2011.致编辑的信:关于随机森林变量重要性测度预测因子的稳定性和排名。生物信息学简介12,4(2011),369-373。谷歌学者谷歌学者交叉引用交叉引用
  32. 费比安·佩德雷戈萨(Fabian Pedregosa)、加尔·瓦罗佐(Gaöl Varoqueux)、亚历山大·格兰福特(Alexandre Gramfort)、文森特·米歇尔(Vincent Michel)、伯特兰·蒂里昂(Bertrand Thirion)、奥利维尔·格里塞尔(Olivier Grisel)、马修·布隆德尔(Mathieu Blondel。Scikit-learn:Python中的机器学习。《机器学习研究杂志》,2011年10月12日,2825-2830。谷歌学者谷歌学者数字图书馆数字图书馆
  33. J.罗斯·昆兰(J.Ross Quinlan)。1993年。结合实例学习和模型学习。第十届机器学习国际会议论文集。236--243.谷歌学者谷歌学者交叉引用交叉引用
  34. J.罗斯·昆兰(J.Ross Quinlan)。2014年4月。5:机器学习程序。爱思唯尔。谷歌学者谷歌学者数字图书馆数字图书馆
  35. 马尔科·桑德里和保拉·祖科洛托。2008年。分类树中基尼变量重要性度量的偏差校正算法。《计算与图形统计杂志》17,3(2008),611--628。谷歌学者谷歌学者交叉引用交叉引用
  36. Erwan Scornet、Gerard Biau和Jean-Philippe Vert。2015年。随机森林的一致性。《统计年鉴》43,4(2015),1716-1741。谷歌学者谷歌学者交叉引用交叉引用
  37. Daria Sorokina和Erick Cantú-Paz。2016.亚马逊搜索:排名产品的乐趣。第39届国际ACM SIGIR信息检索研究与开发会议论文集。美国医学会,459-460。谷歌学者谷歌学者数字图书馆数字图书馆
  38. 卡罗琳·斯特罗布尔(Carolin Strobl)、安妮·劳雷·布莱斯泰克斯(Anne-Laure Boulesteix)、托马斯·科尼布(Thomas Kneib)、托托马斯·奥古斯丁(Thomas-Augustin)和阿希姆·泽利斯(Achim Zeile。2008.随机森林的条件变量重要性。BMC生物信息学9,1(2008),307。谷歌学者谷歌学者交叉引用交叉引用
  39. 卡罗琳·斯特罗布尔(Carolin Strobl)、安妮·劳雷·布莱斯泰克斯(Anne-Laure Boulesteix)、阿奇姆·泽利斯(Achim Zeileis)和托尔斯滕·霍霍恩(Torsten Hothorn)。2007.随机森林变量重要性度量中的偏差:插图、来源和解决方案。BMC生物信息学8,1(2007),25。谷歌学者谷歌学者交叉引用交叉引用
  40. Stefan Wager和Susan Athey。2018年。使用随机森林评估和推断异质处理效果。《美国统计协会杂志》113,523(2018),1228--1242。谷歌学者谷歌学者交叉引用交叉引用
  41. 王一森、夏树涛、汤庆涛、贾武和朱星泉。2017年,一个新的一致性随机森林框架:伯努利随机森林。IEEE神经网络和学习系统汇刊29,8(2017),3510-3523。谷歌学者谷歌学者
  42. 王义森、唐庆涛、夏树涛、贾武、朱星泉。2016年,《伯努利随机森林:缩小理论一致性和实证稳健性之间的差距》。在IJCAI国际人工智能联合会议的会议记录中。谷歌学者谷歌学者
  43. 周一晨和贾尔斯·胡克。2018年,大道:规则化随机梯度增强树木及其极限分布。arXiv预印本arXiv:1806.09762(2018)。谷歌学者谷歌学者
  44. 周一晨、周正泽和贾尔斯·胡克。2018.近似树:模型蒸馏中的统计稳定性。arXiv预印arXiv:1808.07573(2018)。谷歌学者谷歌学者

索引术语

  1. 基于树的方法中特征重要性的无偏度量

        建议

        评论

        登录选项

        检查您是否可以通过登录凭据或您的机构访问本文。

        登录

        完全访问权限

        • 发布于

          从数据中发现知识的封面图像ACM事务
          ACM数据知识发现事务 第15卷第2期
          调查论文和常规论文
          2021年4月
          524页
          国际标准编号:1556-4681年
          EISSN公司:1556-472倍
          DOI(操作界面):10.1145/3446665
          期刊目录

          版权所有©2021 ACM

          如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]

          出版商

          计算机协会

          美国纽约州纽约市

          出版历史

          • 出版:2021年1月4日
          • 认可的:2020年10月1日
          • 修订过的:2020年8月1日
          • 收到:2019年3月1日
          发布于tkdd公司第15卷第2期

          权限

          请求有关此文章的权限。

          请求权限

          检查更新

          限定符

          • 研究论文
          • 研究
          • 推荐

        PDF格式

        以PDF文件查看或下载。

        PDF格式

        电子阅读器

        使用eReader联机查看。

        电子阅读器

        HTML格式

        以HTML格式查看本文。

        查看HTML格式