研究论文

公共访问

基于树的方法中特征重要性的无偏度量

作者信息和声明

ACM数据知识发现事务第15卷第2版条款编号：26第1-21页https://doi.org/10.1145/3429445

出版：2021年1月4日出版历史

ACM数据知识发现事务

摘要

我们提出了一个修正，修正了随机森林和其他基于树的方法中的分裂改进变量重要性度量。研究表明，这些方法倾向于增加具有更多潜在分割的特征的重要性。我们表明，通过适当合并样本外数据测量的分裂改进，可以纠正这种偏差，从而产生更好的总结和筛选工具。

工具书类

Rina Foygel Barber和Emmanuel J.Candès。2015年，通过仿冒品控制虚假发现率。《统计年鉴》43，5（2015），2055-2085。谷歌学者交叉引用
盖伦·布林格（Galen Bollinger）。1981.书评：回归诊断：识别影响数据和共线性来源。《市场营销研究杂志》18，3（1981），392--393。谷歌学者
安娜·劳尔·布列斯特克（Anne-Laure Boulesteix）、安德烈亚斯·本德（Andreas Bender）、朱斯托·洛伦佐·贝梅乔（Justo Lorenzo Bermejo）和卡罗琳·斯特罗布尔（Carolin Strobl）。2011年。随机森林基尼重要性有利于具有较大次要等位基因频率的单核苷酸多态性：影响、来源和建议。生物信息学简介13，3（2011），292--304。谷歌学者交叉引用
利奥·布雷曼（Leo Breiman）。1996年，装袋预测。机器学习24，2（1996），123--140。谷歌学者交叉引用
利奥·布雷曼（Leo Breiman）。2001.随机森林。机器学习45，1（2001），5--32。谷歌学者数字图书馆
Leo Breiman、Jerome H.Friedman、R.A.Olshen和Charles J.Stone。1984.分类和回归树。CRC出版社。谷歌学者
陈田琪（Tianqi Chen）和卡洛斯·盖斯特林（Carlos Guestrin），2016年。Xgboost：一个可扩展的树增强系统。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集。美国医学会，785--794。谷歌学者数字图书馆
迈克尔·卡明斯（Michael P.Cummings）和丹尼尔·迈尔斯（Daniel S.Myers）。2004.简单统计模型预测植物线粒体RNA中的C-to-U编辑位点。BMC生物信息学5，1（2004），132。谷歌学者交叉引用
米沙·丹尼尔（Misha Denil）、大卫·马西森（David Matheson）和南多·德·弗雷塔斯（Nando De Freitas）。2014.缩小差距：理论和实践中的随机森林。机器学习国际会议论文集。665--673.谷歌学者
拉蒙·迪亚斯·乌里亚特（Ramón Díaz-Uriarte）和萨拉·阿尔瓦雷斯·德安德烈斯（Sara Alvarez De Andres）。2006.使用随机森林对微阵列数据进行基因选择和分类。BMC生物信息学7，1（2006），3。谷歌学者交叉引用
Jerome Friedman、Trevor Hastie和Robert Tibshirani。2001.统计学习的要素。第1卷。斯普林格。谷歌学者
杰罗姆·H·弗里德曼。2001.贪婪函数近似：梯度增强机。《统计年鉴》29，5（2001），1189-1232。谷歌学者交叉引用
Indrayudh Ghosal和Giles Hooker。2018年，增加随机森林以减少偏见；一步增强森林及其方差估计。《计算与图形统计杂志》（2020），1-10。谷歌学者
巴普蒂斯特·格雷戈鲁蒂（Baptiste Gregorutti）、伯特兰·米歇尔（Bertrand Michel）和菲利普·圣皮埃尔（Philippe Saint-Pierre）。2017年，随机森林中的相关性和变量重要性。《统计与计算》27，3（2017），659--678。谷歌学者数字图书馆
贾尔斯·胡克（Giles Hooker）。2007.因变量高维函数的广义函数方差分析诊断。《计算与图形统计杂志》16，3（2007），709-732。谷歌学者交叉引用
贾尔斯·胡克和卢卡斯·曼奇。2019.请停止排列功能：解释和备选方案。arXiv预印本arXiv:1905.03151（2019）。谷歌学者
托尔斯滕·霍霍恩（Torsten Hothorn）、库尔特·霍尼克（Kurt Hornik）、卡罗琳·斯特罗布尔（Carolin Strobl）和阿奇姆·泽利斯（Achim Zeileis）。2010年，派对：递归派对实验室。检索自https://CRAN.R-project.org/package=聚会。谷歌学者
托尔斯滕·霍霍恩（Torsten Hothorn）、库尔特·霍尼克（Kurt Hornik）和阿奇姆·泽利斯（Achim Zeileis）。2006.无偏递归分区：条件推理框架。计算与图形统计杂志15，3（2006），651-674。谷歌学者交叉引用
赫曼特·伊斯瓦兰。2007.二元回归树和森林中的变量重要性。《电子统计杂志》1（2007），519-537。谷歌学者交叉引用
Hemant Ishwaran、Udaya B.Kogalur、Eugene H.Blackstone和Michael S.Lauer。2008.随机存活森林。应用统计年鉴2，3（2008），841-860。谷歌学者交叉引用
Luckyson Khaitem、Snehanshu Saha和Sudeepa Roy Dey。2016年，利用随机森林预测股市价格走势。arXiv预印arXiv:1605.00003（2016）。谷歌学者
Hyunjoong Kim和Wei-Yin Loh。2001.具有无偏多路分割的分类树。《美国统计协会杂志》96，454（2001），589-604。谷歌学者交叉引用
Xiao Li、Yu Wang、Sumanta Basu、Karl Kumbier和Bin Yu。2019.针对随机森林的衰退MDI特征重要性度量。神经信息处理系统进展32（2019），8049-8059。谷歌学者
魏寅洛。2009年。提高分类树的精度。应用统计年鉴3，4（2009），1710-1737。谷歌学者交叉引用
魏寅洛。2014.五十年分类和回归树。《国际统计评论》82，3（2014），329--348。谷歌学者交叉引用
Wei-Yin Loh和Yu-Shan Shih。1997.分类树的分割选择方法。《中国统计》7，4（1997），815--840。谷歌学者
卢卡斯·门奇和贾尔斯·胡克。2016.通过置信区间和假设检验量化随机森林中的不确定性。《机器学习研究杂志》17，1（2016），841--881。谷歌学者数字图书馆
Bjoern H.Menze、B.Michael Kelm、Ralf Masuch、Uwe Himmelreich、Peter Bachert、Wolfgang Petrich和Fred A.Hamprecht。2009年，随机森林及其基尼重要性与光谱数据特征选择和分类的标准化学计量学方法的比较。BMC生物信息学10，1（2009），213。谷歌学者交叉引用
Michael Meyer、Juan Felipe Beltran、Siqi Liang、Robert Fragoza、Aaron Rumack、Jin Liang，Xiaomu Wei和Haiyuan Yu。2017.Interactome INSIDER：用于基因组研究的多尺度结构交互组浏览器。bioRxiv（2017），126862。谷歌学者
Stefano Nembrini、Inke R.König和Marvin N.Wright。2018年，基尼重要性的复兴？生物信息学34，21（2018），3711-3718。谷歌学者交叉引用
克里斯汀·尼科迪默斯。2011.致编辑的信：关于随机森林变量重要性测度预测因子的稳定性和排名。生物信息学简介12，4（2011），369-373。谷歌学者交叉引用
费比安·佩德雷戈萨（Fabian Pedregosa）、加尔·瓦罗佐（Gaöl Varoqueux）、亚历山大·格兰福特（Alexandre Gramfort）、文森特·米歇尔（Vincent Michel）、伯特兰·蒂里昂（Bertrand Thirion）、奥利维尔·格里塞尔（Olivier Grisel）、马修·布隆德尔（Mathieu Blondel。Scikit-learn：Python中的机器学习。《机器学习研究杂志》，2011年10月12日，2825-2830。谷歌学者数字图书馆
J.罗斯·昆兰（J.Ross Quinlan）。1993年。结合实例学习和模型学习。第十届机器学习国际会议论文集。236--243.谷歌学者交叉引用
J.罗斯·昆兰（J.Ross Quinlan）。2014年4月。5：机器学习程序。爱思唯尔。谷歌学者数字图书馆
马尔科·桑德里和保拉·祖科洛托。2008年。分类树中基尼变量重要性度量的偏差校正算法。《计算与图形统计杂志》17，3（2008），611--628。谷歌学者交叉引用
Erwan Scornet、Gerard Biau和Jean-Philippe Vert。2015年。随机森林的一致性。《统计年鉴》43，4（2015），1716-1741。谷歌学者交叉引用
Daria Sorokina和Erick Cantú-Paz。2016.亚马逊搜索：排名产品的乐趣。第39届国际ACM SIGIR信息检索研究与开发会议论文集。美国医学会，459-460。谷歌学者数字图书馆
卡罗琳·斯特罗布尔（Carolin Strobl）、安妮·劳雷·布莱斯泰克斯（Anne-Laure Boulesteix）、托马斯·科尼布（Thomas Kneib）、托托马斯·奥古斯丁（Thomas-Augustin）和阿希姆·泽利斯（Achim Zeile。2008.随机森林的条件变量重要性。BMC生物信息学9，1（2008），307。谷歌学者交叉引用
卡罗琳·斯特罗布尔（Carolin Strobl）、安妮·劳雷·布莱斯泰克斯（Anne-Laure Boulesteix）、阿奇姆·泽利斯（Achim Zeileis）和托尔斯滕·霍霍恩（Torsten Hothorn）。2007.随机森林变量重要性度量中的偏差：插图、来源和解决方案。BMC生物信息学8，1（2007），25。谷歌学者交叉引用
Stefan Wager和Susan Athey。2018年。使用随机森林评估和推断异质处理效果。《美国统计协会杂志》113，523（2018），1228--1242。谷歌学者交叉引用
王一森、夏树涛、汤庆涛、贾武和朱星泉。2017年，一个新的一致性随机森林框架：伯努利随机森林。IEEE神经网络和学习系统汇刊29，8（2017），3510-3523。谷歌学者
王义森、唐庆涛、夏树涛、贾武、朱星泉。2016年，《伯努利随机森林：缩小理论一致性和实证稳健性之间的差距》。在IJCAI国际人工智能联合会议的会议记录中。谷歌学者
周一晨和贾尔斯·胡克。2018年，大道：规则化随机梯度增强树木及其极限分布。arXiv预印本arXiv:1806.09762（2018）。谷歌学者
周一晨、周正泽和贾尔斯·胡克。2018.近似树：模型蒸馏中的统计稳定性。arXiv预印arXiv:1808.07573（2018）。谷歌学者

索引术语

基于树的方法中特征重要性的无偏度量
1. 计算方法
  1. 机器学习
    1. 机器学习算法
      1. 集成方法
        装袋
      2. 功能选择
    2. 机器学习方法
      1. 分类和回归树

建议

机器学习模型中的特征重要性：一种模糊信息融合方法
摘要
随着机器学习在支持决策方面的广泛应用，验证和理解产生特定输出的原因变得越来越重要。尽管培训后功能重要性方法有助于。。。
阅读更多信息
一种基于剪枝的无偏递归分区方法

基于树的方法是一种非参数建模策略，可以与广义线性模型或Cox比例风险模型结合使用，主要是在探索阶段。他们的受欢迎主要是因为。。。
阅读更多信息
非参数特征的影响和重要性
摘要
实践者在模型开发期间使用特征重要性对弱预测因子进行排序和消除，以简化模型并提高通用性。不幸的是，他们还经常将这种特征重要性度量与特征混为一谈。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于
ACM数据知识发现事务第15卷第2期
调查论文和常规论文
2021年4月
524页
国际标准编号：1556-4681年
EISSN公司：1556-472倍
DOI（操作界面）：10.1145/3446665
编辑：
查鲁·阿加瓦尔
IBM T.J.Watson Research，美国
期刊目录
版权所有©2021 ACM
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重ACM以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护]
发起人
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2021年1月4日
- 认可的：2020年10月1日
- 修订过的：2020年8月1日
- 收到：2019年3月1日
发布于tkdd公司第15卷第2期

权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
基于树的方法
功能重要性
无偏性
限定符
- 研究论文
- 研究
- 推荐
会议
资金来源
其他指标
查看文章指标

文章指标
- 17
  引文总数
  查看引文
- 1,891
  总下载次数
- 下载次数（过去12个月）758
- 下载次数（最近6周）142
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

HTML格式

以HTML格式查看本文。

查看HTML格式

基于树的方法中特征重要性的无偏度量

ACM数据知识发现事务

摘要

工具书类

引用人

索引术语

建议

机器学习模型中的特征重要性：一种模糊信息融合方法

一种基于剪枝的无偏递归分区方法

非参数特征的影响和重要性

评论

登录选项

完全访问权限

发布于

发起人

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

HTML格式

解说词

基于树的方法中特征重要性的无偏度量

ACM数据知识发现事务

摘要

工具书类

引用人

索引术语

建议

机器学习模型中的特征重要性：一种模糊信息融合方法

一种基于剪枝的无偏递归分区方法

非参数特征的影响和重要性

评论

登录选项

完全访问权限

发布于

发起人

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

HTML格式

共享此出版物链接

在社交媒体上分享