关于使用随机森林进行两样本测试

@文章{Hediger2019OnTU,title={关于使用随机森林进行双样本测试},author={Simon Hediger、Loris Michel和Jeffrey N{\“a}f},日志={计算统计数据分析},年份={2019},体积={170},页数={107435},网址={https://api.semanticscholar.org/CorpusID:88518017}}

PKLM:使用分类的灵活MCAR测试

本文针对数据集丢失机制的完全随机丢失(MCAR)假设开发了一个完全非参数、易于使用且功能强大的测试,并提供了一个R包PKLMtest及其测试实现。

两样本测试的分类准确度

这项工作证明了两个结果,适用于任何维度的所有分类器:如果它的真实错误保持$\epsilon—优于某些$\epsilon>0$作为$d的概率,则(a)基于置换的测试是一致的(幂接近于1),和(b)基于零分布的高斯近似的计算效率测试也是一致的。

AutoML双样本测试

这项工作使用了一个简单的测试,将见证函数的平均偏差作为测试统计量,并证明最小化平方损失将导致见证具有最佳测试能力,从而在不同的分布移位基准以及具有挑战性的双样本测试问题上实现竞争性能。

通过分类进行Minimax最优测试

结果表明,CAT在对全变量(TV)分离的依赖性和各种非参数设置(包括离散分布、密度平滑的d维分布和高斯序列模型)中的误差δ概率方面都达到了(近似)最小最大样本复杂度。

高维数据的成对样本假设检验框架

这项工作提出了得分函数可以由连接每对实例的线段的垂直平分超平面定义的决策规则产生的想法,并提出了一个两步测试程序的框架。

分类的Minimax最优测试

本文考虑了一种受ML启发的假设检验方法,称为分类器/分类准确度检验,并表明在各种非参数设置下,$\mathsf{CAT}$在对总变量分离的依赖性和错误概率的依赖性方面都达到了(近似)最小最大样本复杂度。

序贯预测双样本和独立性测试

我们研究了序列非参数双样本和独立性检验问题。顺序测试在线处理数据,并允许使用观察到的数据来决定是否停止并拒绝空值

一种快速有效的基于核的大尺度二样本测试方法

本文提出了一种新的测试方法,该测试对多种备选方案都具有很高的性能,与现有方法相比,它对高维的测试更为稳健,并且不需要通过数据分割来优化内核带宽和其他参数的选择。

用随机游程分布对图和点云进行局部二样本检验。

本文提出了一个用于该任务的通用假设测试框架,并研究了该框架的一个特例,即通过随机遍历样本来实现定位,并推导出了一种使用一种扫描统计量的易于处理的测试过程。

总变化距离的高概率下限

这项工作介绍了一个基于一维投影(如分类或回归方法)构建总变化距离高概率下限的框架,可以解释为指向分布差异的样本的最小部分。

基于分类概率的双样本检验

这项工作在分类框架中重铸了经典的双样本测试问题,并提出了一个测试统计量,该统计量可应用于复杂的高维数据,只要有分类器为此类数据提供一致的分类概率估计。

两样本测试的分类准确度

这项工作证明了两个结果,适用于任何维度的所有分类器:如果它的真实错误保持$\epsilon—优于某些$\epsilon>0$作为$d的概率,则(a)基于置换的测试是一致的(幂接近于1),和(b)基于零分布的高斯近似的计算效率测试也是一致的。

重温分类器双样本测试

建立了C2ST的性质、性能和用途,分析了它们的主要理论性质,并提出了它们用于评估具有难以处理的可能性的生成模型(如生成对抗网络)的样本质量。

随机森林和其他平均分类器的一致性

给出了建立平均规则通用一致性的几个定理,并证明了一些流行的分类器,包括Breiman提出的分类器,并不是通用一致的。

大规模双样本测试的最优核选择

与早期的内核选择启发式方法相比,新的内核选择方法产生了更强大的测试,并使内核选择和测试过程适合于数据流,在数据流中,观察值不能全部存储在内存中。

内核双样本测试

本文提出了一个用于分析和比较分布的框架,该框架用于构建统计测试,以确定是否从不同的分布中抽取两个样本,并提出了两个基于最大平均偏差(MMD)的大偏差界的无分布测试。

概率测度解析表示的快速二样本检验

一类非参数双样本测试,其样本量具有成本线性,基于代表每个分布的分析函数之间的距离集合,这些分布比竞争方法提供更好的功率/时间权衡,在某些情况下甚至比最昂贵的二次时间测试提供更好的直接功率。

基于随机森林的非平衡数据学习实证研究

本文讨论了一套全面的实验,分析了在Weka中实现的随机森林(RF)学习者的性能,为基于不平衡数据构建的RF学习者提供了广泛的实证评估。

B检验:非参数、低方差核二样本检验

B检验使用小于二次数的核求值,完全避免了复杂空假设近似的计算负担,同时保持了I类错误的一致性和概率保守阈值。

我们需要数百个分类器来解决实际的分类问题吗?

随机森林显然是最好的分类器家族(5个最佳分类行为中有3个是RF),其次是SVM、神经网络和boosting集成(前20名中分别有5个和3个成员),一些模型明显优于其他模型。
...