×

用于海量数据的可扩展引导程序。 (英语) Zbl 07555464号

概要:引导提供了一种简单而强大的评估评估器质量的方法。然而,在涉及越来越普遍的大型数据集的环境中,基于bootstrap的数量的计算可能会在计算上要求过高。尽管原则上可以使用子采样和\(m\)out-of\(n\)bootstrap等变体来降低bootstrap计算的成本,但这些方法通常对调谐参数(如子采样数据点的数量)的规范不具有鲁棒性,并且它们通常需要了解估计器的收敛速度,与引导程序相反。作为一种替代方法,我们引入了“小引导包”(BLB),这是一种新的程序,它结合了引导和子抽样的特点,以产生一种稳健、计算效率高的评估估计器质量的方法。BLB非常适合现代并行和分布式计算体系结构,并且保留了引导的通用适用性和统计效率。我们通过理论分析说明了该过程的特性,并通过仿真研究比较了BLB与bootstrap、(m)out(n)bootstrap和subsampling,证明了BLB具有良好的统计性能。此外,我们还展示了BLB大规模分布式实现的结果,证明了其在海量数据上的计算优势,自适应选择BLB调整参数的方法,将BLB应用于几个实际数据集的实证研究,以及将BLB扩展到时间序列数据。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用