从截断样本学习指数族

的一部分神经信息处理系统进展36(NeurIPS 2023)主要会议轨道

Biptex公司 纸类 补充的

作者

Jane Lee、Andre Wibisono、Emmanouil Zampetakis

摘要

缺失数据问题在许多科学领域都有许多表现形式。当样本被\textit{截断}时,就会出现基本类型的缺失数据问题,即未观察到位于支持子集中的样本。截断样本的统计估计是统计学中的一个经典问题,可以追溯到Galton、Pearson和Fisher。最近的一项工作为高斯分布参数和高斯噪声线性回归提供了第一个有效的估计算法。本文将这些结果推广到对数压缩指数族。我们提供了一个估计算法,该算法表明,在保持多项式样本和平均时间复杂性的同时,\textit{外推}可以用于更大的分布类。我们的算法基于投影随机梯度下降,不仅适用于更一般的设置,而且比最近的算法更简单有效。我们的工作对于学习一般的对数曲线分布和只对截断数据进行采样也有着有趣的意义。