开放式访问
2021 意外抽样:改进和扩大本地病例对照抽样
沈新伟(Xinwei Shen),Kani Chen(卡尼·陈),文余(Wen Yu)
作者关联+
电子。J.统计。 15(1): 2454-2482 (2021). 内政部:10.1214/21-EJS1844

摘要

Fithian和Hastie[7]提出了一种称为局部病例对照(LCC)抽样的抽样方案,该方案通过利用与逻辑模型相关的巧妙调整来实现稳定性和效率。它特别适用于大数据和不平衡数据的分类。本文基于一个工作原理,提出了一种更通用的采样方案,即如果数据点包含更多信息或出现“令人惊讶”的情况,例如,导频预测误差较大或绝对分数较大,则应获得更高的采样概率。与文献[7]和[1]中报告的相关现有抽样方案相比,所提出的方案具有若干优点。它自适应地给出了各种目标的最佳形式,包括LCC和[1]作为特殊情况。在相同的模型规范下,该估计器的性能也不比文献中的差。即使模型指定错误和/或导频估计器不一致或依赖于完整数据,估计程序仍然有效。我们从理论上证明了所声称的估计和抽样设计的优点和最佳性。与[1]不同的是,我们的大样本理论是人口层面的,而不是数据层面的。此外,所提出的方法可以应用于无监督学习研究,因为它本质上只需要一个特定的损失函数,不需要数据的响应协变量结构。进行了数值研究,并给出了支持该理论的证据。

资金筹措表

Kani Chen获得了香港GRF拨款16309816和1616212117的支持。文宇获得国家自然科学基金项目(12071088)的资助。

致谢

作者感谢张成教授和马鹏飞教授提供的微博数据,并感谢裁判提出的建设性意见和建议。

引文

下载引文

沈新伟。 Kani Chen。 文余。 “意外抽样:改进和扩大当地病例对照抽样。” 电子。J.统计。 15 (1) 2454 - 2482, 2021 https://doi.org/10.1214/21-EJS1844

问询处

收到日期:2020年8月1日;发布日期:2021年
欧几里德项目首次推出:2021年5月3日

数字对象标识符:10.1214/21-EJS1844

学科:
主要用户:62D05型
次要:62J12型

关键词:广义线性模型,Horvitz-Thompson估计量,本地病例对照抽样,模型错误规范,二次采样

第15卷•第1期•2021
返回页首