{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期部分”:[[2024,6,13]],“日期时间”:“2024-06-13T07:54:02Z”,“时间戳”:1718265242726},“引用计数”:0,“发布者”:“AI Access Foundation”,“内容域”:{“域”:[],“交叉标记限制”:false},”短容器时间“:[”jair“],“摘要”:“决策树分类器是数据流挖掘中广泛使用的工具。使用置信区间来估计与每次分裂相关的增益会产生非常有效的方法,比如流行的Hoeffding树算法。从统计的观点来看,流式环境中决策树分类器的分析需要知道何时收集了足够的新信息来证明分割叶子的合理性。虽然已经澄清了Hoeffing树统计分析中的一些问题,但缺少对分裂标准置信区间的一般性和严格性研究。我们通过推导准确的置信区间来填补这一空白,以根据三个标准估计决策树学习中的分裂增益:熵、基尼指数和卡恩斯和曼苏尔提出的第三个指数。我们还将置信度分析扩展到选择性采样设置,在该设置中,决策树学习器自适应地决定在流中查询哪些标签。我们提供了理论保证,限定了通过我们的选择性抽样策略学习的决策树对流中的下一个示例进行次优分类的概率。在流媒体环境中对真实数据和合成数据进行的实验表明,我们的树确实比使用最新技术生成相同叶片数的树更准确。除此之外,我们的主动学习模块根据经验使用较少的标签,而不会显著影响性能<\/jats:p>“,”DOI“:”10.1613\/jair.5440“,”type“:”journal-article“,”created“:{”date-parts“:[[2018,7,18]],”date-time“:”2018-07-18T15:46:43Z“,”timestamp“:1531928803000},”page“:“,”卷“:”60“,”作者“:[{“given”:“Rocco”,“family”:“De Rosa”,“sequence”:“first”,“affiliation”:[]},{“fixed”:“Nicol\u00f2”,“家族”:“Cesa-Bianchi”,“序列”:“additional”,“从属关系”:[]},“member”:“16860”,“published-online”:{“date-parts”:[[2017,12,26]]};“container-title”:[“Journal of Artificial Intelligence Research”],“original-title“:[],“链接”:[{“URL”:“https:\/\/jair.org\/index.php\/jair \/article \/download\/11102\/26293“,”content-type“:”application\/pdf“,”content-version“:”vor“,”intended-application“:”text-mining“},{”URL“:”https:\//jair.org\/index.php\/jairective\/dowwnload\/11202\/226293“,”内容类型“:”unspecified“,”content-version”:“vor”,“intended-application”:“similarity”检查“}],”存放“:{“date-parts”:[[2019,10,8]],“date-time”:“2019-10-08T22:28:19Z”,“timestamp”:1570573699000},“score”:1,“resource”:{主“URL”:“https:\/\/jair.org\/index.php\/jair \/article\/view\/11102”}},”副标题:[],“shorttitle”:[]s-count“:0,”URL“:”http://\/dx.doi.org\/10.1613\/jair.5440“,”关系“:{},”ISSN“:[”1076-9757“],”ISSN-type“:[{”value“:”1076-9657“,”type“:”electronic“}],”subject“:【】,”published“:{”date-parts“:[[2017,12,26]]}}}