储罐计数

本周的Riddler经典这是一个关于统计的简单问题。但这并不简单!以下是问题的解释版本:

有$n$tanks,标记为$\{1,2,\dots,n\}$。我们看到了一个随机选择的$k$罐的样本,我们观察到样本中最小的标签是$22$,最大的标签是$114$。$n$和$k$均未知。我们的是什么最佳估计$n$?

以下是参数估计的简短介绍,仅供好奇者参考:
[显示解决方案]

下面是我对这个问题的解决方案:
[显示解决方案]

关于“储罐计数”的五点思考

  1. 如果我们假设N=[114,some_cutoff]的均匀可归一化分布,那么在N=[114,some_cutoff]和k=[2,93]上积分P(22114,k,N)*N以获得N的期望是否合法?[

    1. 是的,这很管用。数学上,我们得到$P(z\mid\theta)$,其中$z=(x,y)$是我们的数据(观察到的最小和最大储罐数),$\theta=(n,k)$是未知参数。这是假设我们知道参数的最小值和最大值的分布。如果我们假设数据$z$是固定的,那么$P(z\mid\theta)$(视为$\theta$的函数)被称为“似然”。

      最大似然估计量(MLE)只是使似然最大化,即使$P(z\mid\theta)$最大化的参数$\theta$的值是多少。

      如果在$\theta$上有一个“先验”分布,例如,如果您知道$n$在[114,some_cutoff]上均匀分布,正如您所建议的那样,那么我们可以将此称为$P(\theta)$。然后,我们可以计算“后验分布”,这是以数据为条件的参数分布。使用贝叶斯定理,我们说后验满足:
      \[
      P(θ\中z)
      \]最大后验估计量(MAP)是选择最大化后验分布的$\theta$值。

      你所建议的,即取后验分布的期望值(而不是求最大值)也有一个名称。它被称为最小均方误差估计量(MMSE)。这是一个更通用的估计类的具体示例,称为贝叶斯估计再一次,这里没有错误的答案,只是估计值的不同潜在选择。

      注意:在您的公式中,您不仅假设$n$是均匀分布的,而且$k$也是均匀分布的!您必须记住规范化$n$和$k$的概率分布,这意味着将积分(实际上是一个和)除以$(\text{截止}-114)(93-2)$.

  2. 啊,但德国坦克投入战斗,其中一些被盟军摧毁。由于建造一辆坦克需要几天的时间,所以在任何一天看到的所有坦克在战场上的天数并不相同。早期建造的坦克,因此战斗时间更长,更有可能被摧毁。例如,1号至22号坦克比125号至135号坦克更有可能被摧毁,这意味着您无法观察其序列号。

    但并没有失去一切。由于上述原因,135的估计值可能过高,而不是过低。这意味着盟国最有可能拥有更少的德国坦克作战。

    哦,但你说这些不是德国坦克。更可能的是,早期建造的坦克已经退役,要么已经出现故障,要么需要定期维护。

留下回复

您的电子邮件地址将不会被发布。 已标记必填字段*