On the use of random forest for two-sample testing

Simon Hediger; Loris Michel; Jeffrey Näf

本文图表

PKLM：使用分类的灵活MCAR测试

Meta-Lina斯波恩杰弗里·纳夫洛里斯·米歇尔N.明绍森

计算机科学、数学

2021

本文针对数据集丢失机制的完全随机丢失（MCAR）假设开发了一个完全非参数、易于使用且功能强大的测试，并提供了一个R包PKLMtest及其测试实现。

[PDF]（PDF格式）

两样本测试的分类准确度

阿迪蒂亚·拉姆达斯阿尔蒂·辛格L.Wasserman先生

计算机科学、数学

统计年刊

2021

这项工作证明了两个结果，适用于任何维度的所有分类器：如果它的真实错误保持$\epsilon—优于某些$\epsilon>0$作为$d的概率，则（a）基于置换的测试是一致的（幂接近于1），和（b）基于零分布的高斯近似的计算效率测试也是一致的。

AutoML双样本测试

乔纳斯·M·库布勒文森特·施汀珀西蒙·巴赫霍尔茨克里卡莫尔·穆安德特B.肖尔科夫

计算机科学、数学

神经信息处理系统

2022

这项工作使用了一个简单的测试，将见证函数的平均偏差作为测试统计量，并证明最小化平方损失将导致见证具有最佳测试能力，从而在不同的分布移位基准以及具有挑战性的双样本测试问题上实现竞争性能。

8

[PDF]（PDF格式）

通过分类进行Minimax最优测试

P.R.格贝尔韩彦军（Yanjun Han）Gergely Neu公司洛伦佐·罗萨斯科

计算机科学、数学

结果表明，CAT在对全变量（TV）分离的依赖性和各种非参数设置（包括离散分布、密度平滑的d维分布和高斯序列模型）中的误差δ概率方面都达到了（近似）最小最大样本复杂度。

PDF格式

高维数据的成对样本假设检验框架

一、巴乔塔斯阿吉里斯·卡洛格拉托斯N.瓦亚蒂斯

计算机科学、数学

IEEE工具国际会议…

2023

这项工作提出了得分函数可以由连接每对实例的线段的垂直平分超平面定义的决策规则产生的想法，并提出了一个两步测试程序的框架。

[PDF]（PDF格式）

分类的Minimax最优测试

P.R.Gerber先生韩彦军（Yanjun Han）尤里·波利安斯基

计算机科学、数学

计算学习理论年会

2023

本文考虑了一种受ML启发的假设检验方法，称为分类器/分类准确度检验，并表明在各种非参数设置下，$\mathsf{CAT}$在对总变量分离的依赖性和错误概率的依赖性方面都达到了（近似）最小最大样本复杂度。

2

[PDF]（PDF格式）

序贯预测双样本和独立性测试

A.波德科帕耶夫阿迪蒂亚·拉姆达斯

数学

神经信息处理系统

2023

我们研究了序列非参数双样本和独立性检验问题。顺序测试在线处理数据，并允许使用观察到的数据来决定是否停止并拒绝空值…

4

[PDF]（PDF格式）

一种快速有效的基于核的大尺度二样本测试方法

Hoseung Song公司陈浩

数学、计算机科学

2021

本文提出了一种新的测试方法，该测试对多种备选方案都具有很高的性能，与现有方法相比，它对高维的测试更为稳健，并且不需要通过数据分割来优化内核带宽和其他参数的选择。

2

[PDF]（PDF格式）

用随机游程分布对图和点云进行局部二样本检验。

鲍里斯·兰达日昊区约瑟夫·T·张Y.Kluger先生

数学、计算机科学

2020

本文提出了一个用于该任务的通用假设测试框架，并研究了该框架的一个特例，即通过随机遍历样本来实现定位，并推导出了一种使用一种扫描统计量的易于处理的测试过程。

总变化距离的高概率下限

洛里斯·米歇尔杰弗里·纳夫N.明绍森

数学、计算机科学

2020

这项工作介绍了一个基于一维投影（如分类或回归方法）构建总变化距离高概率下限的框架，可以解释为指向分布差异的样本的最小部分。

三

[PDF]（PDF格式）

基于分类概率的双样本检验

H.蔡布莱恩·戈金清塘江

数学、计算机科学

统计分析和数据挖掘

2020

这项工作在分类框架中重铸了经典的双样本测试问题，并提出了一个测试统计量，该统计量可应用于复杂的高维数据，只要有分类器为此类数据提供一致的分类概率估计。

13

[PDF]（PDF格式）

两样本测试的分类准确度

阿迪蒂亚·拉姆达斯阿尔蒂·辛格L.Wasserman先生

计算机科学、数学

统计年刊

2021

这项工作证明了两个结果，适用于任何维度的所有分类器：如果它的真实错误保持$\epsilon—优于某些$\epsilon>0$作为$d的概率，则（a）基于置换的测试是一致的（幂接近于1），和（b）基于零分布的高斯近似的计算效率测试也是一致的。

重温分类器双样本测试

大卫·洛佩兹·帕兹M.奥夸布

计算机科学、数学

国际学习会议…

2017

建立了C2ST的性质、性能和用途，分析了它们的主要理论性质，并提出了它们用于评估具有难以处理的可能性的生成模型（如生成对抗网络）的样本质量。

[PDF]（PDF格式）

随机森林和其他平均分类器的一致性

G.彪L.德夫罗伊G.卢戈西

计算机科学、数学

机器学习研究杂志

2008

给出了建立平均规则通用一致性的几个定理，并证明了一些流行的分类器，包括Breiman提出的分类器，并不是通用一致的。

大规模双样本测试的最优核选择

A.格雷顿Bharath K.Sriperumbudur学院 K.Fukumizu

数学

神经信息处理系统

2012

与早期的内核选择启发式方法相比，新的内核选择方法产生了更强大的测试，并使内核选择和测试过程适合于数据流，在数据流中，观察值不能全部存储在内存中。

内核双样本测试

A.格雷顿卡斯滕·博格沃德M.拉什B.肖尔科夫亚历克斯·斯莫拉

数学

机器学习研究杂志

2012

本文提出了一个用于分析和比较分布的框架，该框架用于构建统计测试，以确定是否从不同的分布中抽取两个样本，并提出了两个基于最大平均偏差（MMD）的大偏差界的无分布测试。

概率测度解析表示的快速二样本检验

卡普尔·奇瓦尔科夫斯基（Kacper P.Chwialkowski）阿迪蒂亚·拉姆达斯D.塞季诺维奇A.格雷顿

计算机科学、数学

神经信息处理系统

2015

一类非参数双样本测试，其样本量具有成本线性，基于代表每个分布的分析函数之间的距离集合，这些分布比竞争方法提供更好的功率/时间权衡，在某些情况下甚至比最昂贵的二次时间测试提供更好的直接功率。

143

[PDF]（PDF格式）

基于随机森林的非平衡数据学习实证研究

T.科什戈夫塔尔M.Golawala先生J.V.Hulse公司

计算机科学、数学

IEEE工具国际会议…

2007

本文讨论了一套全面的实验，分析了在Weka中实现的随机森林（RF）学习者的性能，为基于不平衡数据构建的RF学习者提供了广泛的实证评估。

314

B检验：非参数、低方差核二样本检验

Wojciech Zaremba公司A.格雷顿马修·布拉施科

数学

神经信息处理系统

2013

B检验使用小于二次数的核求值，完全避免了复杂空假设近似的计算负担，同时保持了I类错误的一致性和概率保守阈值。

我们需要数百个分类器来解决实际的分类问题吗？

M.德尔加多E.塞尔纳达斯S.巴罗D.阿莫林

计算机科学、数学

机器学习研究杂志

2014

随机森林显然是最好的分类器家族（5个最佳分类行为中有3个是RF），其次是SVM、神经网络和boosting集成（前20名中分别有5个和3个成员），一些模型明显优于其他模型。

关于使用随机森林进行两样本测试

本文图表

话题

PKLM：使用分类的灵活MCAR测试

两样本测试的分类准确度

AutoML双样本测试

通过分类进行Minimax最优测试

高维数据的成对样本假设检验框架

分类的Minimax最优测试

序贯预测双样本和独立性测试

一种快速有效的基于核的大尺度二样本测试方法

用随机游程分布对图和点云进行局部二样本检验。

总变化距离的高概率下限

基于分类概率的双样本检验

两样本测试的分类准确度

重温分类器双样本测试

随机森林和其他平均分类器的一致性

大规模双样本测试的最优核选择

内核双样本测试

概率测度解析表示的快速二样本检验

基于随机森林的非平衡数据学习实证研究

B检验：非参数、低方差核二样本检验

我们需要数百个分类器来解决实际的分类问题吗？

关于使用随机森林进行两样本测试

本文图表

话题

32引文

PKLM：使用分类的灵活MCAR测试

两样本测试的分类准确度

AutoML双样本测试

通过分类进行Minimax最优测试

高维数据的成对样本假设检验框架

分类的Minimax最优测试

序贯预测双样本和独立性测试

一种快速有效的基于核的大尺度二样本测试方法

用随机游程分布对图和点云进行局部二样本检验。

总变化距离的高概率下限

125参考文献

基于分类概率的双样本检验

两样本测试的分类准确度

重温分类器双样本测试

随机森林和其他平均分类器的一致性

大规模双样本测试的最优核选择

内核双样本测试

概率测度解析表示的快速二样本检验

基于随机森林的非平衡数据学习实证研究

B检验：非参数、低方差核二样本检验

我们需要数百个分类器来解决实际的分类问题吗？

相关论文