我们给出了熵和互信息的非参数估计的一些新结果。首先,我们使用熵函数的精确局部展开来证明三个最常用的离散信息估计量的几乎必然一致性和中心极限定理。该设置与格伦纳德的筛分方法有关,对生成数据的潜在概率测度没有任何假设。其次,我们证明了与这些一致性定理相反的一个定理,证明了误用最常见的估计技术会导致对真实信息的任意错误估计,即使给定无限的数据。这个“不一致性”定理导致对偏差的分析近似,在小样本情况下有效,并且比通常更准确参数空间大区域上的Miller和Madow公式。这些结果的两个最实际的含义是负面的:(1)即使使用“偏差修正”估计量,在某一数据领域中的信息估计也可能受到偏差的影响;(2)标准技术计算的置信区间大大低估了最常见估计方法的误差。

最后,我们注意到熵估计的偏差和某个多项式近似问题之间的一个非常有用的联系。通过在这个近似理论框架中铸造偏差计算问题,我们获得了已知渐近偏差结果的最佳可能推广。更有趣的是,这个框架导致了一个具有一些良好特性的估计器:估计器在所有可能的潜在概率分布上都有严格的最大误差界限,而这个最大误差却出人意料地小。我们演示了这种新估计在实际和模拟数据上的应用。

此内容仅以PDF格式提供。
您当前无权访问此内容。