本周的Riddler经典这是一个关于统计的简单问题。但这并不简单!以下是问题的解释版本:
有$n$tanks,标记为$\{1,2,\dots,n\}$。我们看到了一个随机选择的$k$罐的样本,我们观察到样本中最小的标签是$22$,最大的标签是$114$。$n$和$k$均未知。我们的是什么最佳估计$n$?
以下是参数估计的简短介绍,仅供好奇者参考:
[显示解决方案]
这个问题属于参数统计值得为那些不熟悉的人做一个简短的介绍,因为这在统计中出现了很多。基本设置是,存在一个“总体”值,该值遵循依赖于一组固定参数的假定概率分布。目标是通过观察人群中的随机“样本”来估计这种分布的参数。
例如,我们的人口可能是美国所有人口的高度正态分布,但我们不知道分布的均值或方差参数。我们想估计平均值,因为我们想知道美国所有人的平均身高。测量美国每个人的身高是不切实际的,所以我们随机调查了100人并获得了他们的身高。然后,我们可以计算样本的平均值,并将其用作总体平均值的估计值。这是一个示例估计器; 将样本映射到参数估计值的函数。
估计器的重要性质是什么?什么是“好的”估计器?如果我们固定样本的大小,但采取大量不同的随机样本,我们将获得一组样本均值。由于样品的可变性,它们可能都不同。两个重要概念是:
- 这个偏差估计值:这是真实总体平均值和所有样本平均值之间的差异。理想情况下,我们希望偏差尽可能小。对于我们的示例,样本均值估计值具有零偏差,所以我们说它是无偏见的.
- 这个方差估计量:这是我们的样本均值集的样本方差。大致上,这是我们可以预期的参数估计值的可变性。显然,我们也希望方差尽可能小。
偏差和方差的概念类似于准确度和精密度你想准确还是准确?事实证明,两者都不可能兼得。在参数统计中,这被称为偏方差权衡。我们不能使偏差和方差都为零。我们只能以牺牲另一个为代价使一个变小。继续我们的平均高度示例,我们本可以使用一个更简单的估算器:始终估算6英尺作为平均高度!这个估计量没有任何方差,因为它总是估计相同的东西,但它肯定是有偏差的,因为真正的人口平均数可能不到6英尺。
虽然这是一个相当简单的例子,但我希望它能说明,除非我们明确地定义了“最佳”的概念,否则谈论“最佳估计器”是没有意义的。有时,差异可以显著减少,只会让我们付出一点偏见。这是使用的主要好处之一正规化在机器学习中。这总是一种权衡,“最佳”的概念取决于上下文和应用程序。
既然这样,让我们重新开始数坦克吧!
下面是我对这个问题的解决方案:
[显示解决方案]
我们分布的参数是$n$(坦克数量)和$k$(小组规模)。我们要观察的随机变量是最小值和最大值标签,我分别称之为$x$和$y$。这个概率质量函数是
\[
P_{n,k}(x,y)=\压裂{y-x-1\选择k-2}{n\选择k}
\]因为有$y-x-1\choose-k-2$种挑选$k$个不同整数的方法,它们的最小值和最大值分别是$x$和$y$,还有$n\choose k$种从$n$中挑选$k$distinct整数的总方法。我们可以通过检查以下内容来验证这是一个合法的概率质量函数
\[
\和{x=1}^{n-k+1}\和{y=x+k-1}^{n}P{n,k}(x,y)=1
\]求和中出现奇怪边界的原因是,并非所有的最小值和最大值都是允许的。例如,如果在$\{1,2,3,4,5\}$中选择$k=3$不同的数字,则最小$x$的唯一可能值是$\{2,3\}$。
对于这个问题,我们的“样本”是我们观察到的单对$(x,y)$,我们的任务是估计$n$。与上面的人口高度示例不同,我们不再清楚应该在这里使用哪种估计值。我将介绍一些选项。
最大似然估计量
估算$n$的一种可能方法是使用最大似然估计量(MLE)。这个可能性是将$(x,y)$修复为所观察到的值,并将$P_{n,k}(x,y)$作为$(n,k)$的函数查看时得到的结果。这告诉您参数的值是可能性更大根据你观察到的数据。对于任何固定的$k,x,y$,很明显,我们可以通过使$n$尽可能小来最大化$P_{n,k}(x,y)$,所以MLE是选择$\n=y$。对于MLE的偏差和方差,我们可以说什么?我们可以使用上面的$P_{n,k}(x,y)$直接计算这些量:
\[
\文本{MLE:}\,(\n=y)\,\左\{
\开始{对齐}
\文本{偏移}&=-\frac{n-k}{k+1}\\
\文本{方差}&=\frac{k(n+1)(n-k)}{(k+1)^2(k+2)}
\结束{对齐}
\对。
\]正如我们所看到的,估计器有偏差。这很有道理:我们的估计是我们看到的最大数字,所以我们总是低估了n$的真实价值。
最小方差无偏估计量
另一种估计$n$的方法是将我们的注意力限制在无偏估计上。因为我们只观察$x$和$y$,所以合理的做法是计算期望值$\mathbb{E}x$和$\mathbb{E}y$。这样,我们可以获得:
\[
\mathbb{E}x=\frac{n+1}{k+1},\qquad
\mathbb{E}y=\frac{k(n+1)}{k+1}
\]我们可以通过将这些相加来消除$k$!事实上,我们发现:
\[
n=\mathbb{E}(x+y-1)
\]这告诉我们,如果我们使用$\hat n=x+y-1$作为估计值,它将是无偏的!我们可以像以前一样计算偏差和方差,得到:
\[
\文本{MVUE:}\,(\n=x+y-1)\,\左\{
\开始{对齐}
\text{Bias}&=0\\
\文本{方差}&=\frac{2(n+1)(n-k)}{(k+1)(k+2)}
\结束{对齐}
\对。
\]使用更多高级统计实际上可以证明,在所有无偏估计量中,这是方差最小的估计量。不错!但请注意,该估计量的方差仍约为MLE估计量的两倍。另一种表现偏方差权衡.
解决方案
“最佳估计”的概念是一个模棱两可的概念,因此我们必须清楚“最佳”的含义。最大似然估计量(MLE)是估计所观察到的最大标记$\hat n=y$。对于问题中的示例,我们选择$\hat n=114$。尽管这是最有可能的$n$,但这是一个有偏见的估计:它总是低估了真实的$n$。
另一种选择是寻找一个无偏估计量。也就是说,如果我们有大量坦克组的独立样本,并且我们对各组的估计值进行平均,我们平均会得到真实的$n$。最小方差无偏估计量(MVUE)是选取$\hat n=x+y-1$(观测到的最大和最小标签之和减去1)。对于问题中的示例,这将产生$\hatn=135$。虽然MVUE是无偏的,但它的方差大约是MLE的两倍,这意味着它可以产生更高的变量估计值。
这种更高的可变性是不可避免的;如果我们想得到一个无偏估计量,我们必须愿意放弃一些方差!这类似于精度vs精度上面的MVUE实际上是所有无偏估计量中方差最小的估计量,所以如果您正在寻找一个无偏估计值,这就是“最佳”估计值!
模拟
为了证明MVUE估计器按预期工作,我创建了以下模拟:我设置$n=100$和$k=15$,然后在$n$中随机选择$k$坦克,记录最小和最大标签$x$和$y$,并计算$n$的MVUE估计值,即$\n=x+y-1$。我重复了这个过程$10^6$次,并记录了所有$hatn$值。根据上述计算,这组估算值的平均值和标准偏差应为:
\[
\mathbb{E}(\hatn)=n=100,\quad\text{和}\quad
\mathrm{Var}(hatn)=\sqrt{tfrac{2(n+1)(n-k)}{(k+1)(k+2)}}=7.9451
\]我获得的价值分别为100.0015$和7.9279$。看起来很匹配!以下是模拟结果的直方图:
因此,看起来MVUE估计器的性能与预期的一样。请注意,即使我们完全不知道$k$,或者如果我们观察到的每个随机储罐样本的大小都不同,平均值仍然是$n$。更改$k$只会影响我们对估计值的信心。$k$越大,我们越有信心(方差越小)。