6
$\开始组$

在讨论置信区间时,我看到过“总体参数不是随机变量”的说法。

例如在这里

请务必注意,总体参数不是随机变量。

在频率学家的解释中,我接受这一说法没有任何问题。根据这种解释,总体参数是固定的,但未知的。它们不是随机变量。

但是这个词置信区间也要携带特定的解释? 或者它只是数学函数(如上所示维基)以下为:

在此处输入图像描述

例如,我认为𝜃 (总体参数)为随机变量,X为随机样本。给定它们的联合分布,我计算函数:

P(u(x)<𝜃 < v(x))=c∀𝜃

它看起来像下图中的红线:

在此处输入图像描述

(数字借用自在这里)

现在,我把红线称为“随机变量的置信区间”是不是不对𝜃?

编辑:这个问题主要是关于语义的,得到了两个信息量很大的答案,对于反对给定术语的特殊用法。我对这两个都投了赞成票(如果可能的话,我会接受这两个),但我选择不接受其中一个,因为这样做会(国际海事组织)判断一个比另一个更正确。最后,你选择哪一方是主观的(我在发布问题时不知道这一点),我把它留给未来的读者自己决定。

$\端组$
2
  • 4
    $\开始组$ 根据定义,置信区间与数值特性分配随机变量。请参阅关于置信区间的线索因此,如果你希望你的听众能理解“随机变量的置信区间”这样的短语,你需要解释一下,你是以一种非常规的方式使用“置信区间”的,你需要定义一下你所说的置信区间是什么意思。 $\端组$
    – 沃伯
    5月11日13:33
  • 2
    $\开始组$ 查阅任何关于统计或估计的标准文本:Kendall,Stuart&Ord;莱曼;卡塞拉和伯杰;等。我们的一些关于CI定义的帖子提供参考。 $\端组$
    – 沃伯
    5月11日14:59

4个答案4

重置为默认值
9
$\开始组$

$(1-\alpha\%)$-置信区间是观测值的函数X美元$创建包含true参数的边界$\θ$以一定频率$(1-\alpha\%)$如果我们考虑无限次重复实验的极限(更具体地说,这种成功的频率与之前的$\θ$).

对于这个定义,没有必要$\θ$是一个常数,每个实验都相同。参数的基本性质$\θ$置信区间是否为置信区间并不重要。

例如,可能是工厂测试糖含量$\θ$一批番茄酱中的糖分含量不是恒定的。不过,您可以为每个批次设计一个置信区间。

然而,关于“参数是常数”有一个微妙的注释,这是问题的主题贝叶斯观点中的“数据是固定的”和频率主义观点中的”数据是随机的“,在数学上谈论同一件事吗?在那次讨论中,我认为以下引用是关键点:

这并不是说数据或参数必须被认为是真正固定的,而是间隔与条件分布的计算其中一个(数据/参数)是在另一个(参数/数据)固定的基础上计算的。

正是在计算中,就像条件概率的计算一样,我们认为参数是固定的。但这些参数不需要是它们自己就能被固定。

置信区间的覆盖概率表达式为以参数值为条件,但参数不一定是常量参数,也可以是变量。这并不是说,参数的置信区间是从参数的随机分布中考虑的,其方法与贝叶斯方法中表示参数的先验分布和后验分布的方法相同。


这也是一个语义上的讨论。在本例中,特定批次番茄酱的糖含量既是一个变量,又是一个确定的常量。

  • 从这个角度来看,由于番茄品种、阳光、糊料浓度、热处理等各种随机因素,各批次的未知糖含量会略有不同,这是一个变量。

  • 从这个角度来看,一旦番茄过去被创造出来(并且所有的随机变量都被“绘制”出来),它就有一个固定的真值。

它可以被视为大写变量之间的差异$Z$或小写$z(美元)$置信区间将参数视为固定实现,而不是具有分布的变量。没有计算参数的概率分布。这也类似于基准分布,与信心有关,与概率分布不同.

$\端组$
7
  • 4
    $\开始组$ 某物是否是随机变量是一个数学问题,而不是现实问题。你可以有一个概率模型,其中糖分是随机的,你可以有概率模型,糖分是固定的。事实上,没有什么能让第二个错误,第一个正确。我看到的所有关于置信区间的正式定义都将$\theta$视为固定值,这是有充分理由的,因为否则,它们会在给定数据的情况下,邀请有关$\theta$的概率声明,而这是不允许的。 $\端组$ 5月11日13:30
  • $\开始组$ @Christian Hennig置信区间背后的原始思想,即基准概率,将区间视为关于$\theta$的概率陈述。只是“给定数据”,这不是一个概率陈述。 $\端组$ 5月11日14:50
  • 2
    $\开始组$ 关于置信区间历史的维基百科条目en.wikipedia.org/wiki/Confidence_interval#历史相反地说。 $\端组$ 5月11日15:02
  • 1
    $\开始组$ 内曼多次强调,置信区间内的参数不是随机的。他可能不是第一个计算出置信区间的人,但我很好奇你是否有任何参考资料支持“置信概率是置信区间背后的原始思想”这一说法。我会的非常感到惊讶。 $\端组$ 5月11日17:47
  • 1
    $\开始组$ @克里斯蒂安·海宁(Christian Hennig):我还有一些书要读(目前正在写《数理统计与概率讲座与会议》第5章),但读到内曼和费舍尔如何争吵和分歧,几乎是一件有趣的事。在我看来,这两种方法在考虑给定参数的数据分布的思想上似乎非常相似。Fisher对基准分布的限制性更强,因为基准分布并不总是可以定义的,而置信区间背后的思想可以得到更广泛的应用。 $\端组$ 5月11日23:23
7
$\开始组$

问题是,在我看来,“说”某事就是沟通,如果它强烈地引起误解,沟通就不好。

置信区间的概念与频率学家对概率的解释有关,其中参数不是随机变量,正如你所说的那样(至少在标准的频率学家定义和置信区间的解释中没有-原则上频率学家可以拥有包含随机变量参数的模型,但置信区间不会这样对待它)。

实际上,您可以定义一个设置,其中参数是随机变量,然后计算置信区间。没有人阻止你这样做。

现在你问,你是否可以说这是随机变量的置信区间$\θ$。我明白你的观点,但如果你这样说而没有给出进一步的解释,这看起来是错误的,因为它忽略了这不是定义置信区间的那种设置。贝叶斯主义者通常反对置信区间,而频率论者则反对将参数视为随机变量。因此,如果双方都认为你错误地使用了这个概念,那就是沟通错误。

但从技术上讲,你说得有道理。我认为如果你承认这个问题,它会更好地工作,比如“我对置信区间的行为感兴趣,在这种情况下$\θ$实际上是一个随机变量,由一些先验值生成。我将此称为“随机变量的置信区间”,承认此处使用的置信区间与CI的含义和最初定义不同。"

事实上,人们可能对此类实验感兴趣,因为即使从频率学家的角度来看,在某些情况下,也可能会有一些过程产生参数,这些参数可以用先验分布(“经验贝叶斯”)来描述,在这种情况下,人们可能有兴趣研究频率专家程序的特征,例如置信区间(忽略先验)。

但是也要注意,在这种情况下,定义置信区间的概率声明仍然$u(X)$$v(X)$和是有条件的$\θ$也就是说,它不是概率陈述关于 $\θ$给出了数据。这并不是证明费希尔的基准概率(如果你知道那是什么)的一种方法,试图对$\θ$不可信区间(我在这里以“内曼尼式”的方式将其作为一个错误来陈述,我很清楚这已经被一些非常聪明的人所捍卫,尽管不是基于这里讨论的论点)。

$\端组$
6
  • $\开始组$ “现在你问是否可以说这是随机变量的置信区间𝜃“。这正是我的问题。我现在明白了为什么它会引起误解。我仍然想知道是否有可能准确地得出关于语句正确性或不正确性的结论?语义完全有可能不是那么黑白分明,我们不能肯定地称其为正确或不正确。你认为呢? $\端组$ 5月11日12:05
  • 1
    $\开始组$ “频率学家对概率的解释,其中参数不是随机变量”频率学家对概率的解释也可以考虑随机变量的参数(例如,从另一个分布中提取的参数,以及那个分布具有固定参数)。 $\端组$ 5月11日12:47
  • $\开始组$ @SextusEmpiricus是的,可以说,我的回答后面的部分也提出了同样的观点。我会改写的。 $\端组$ 5月11日13:22
  • $\开始组$ @克里斯蒂安·海宁(Christian Hennig)我接受这个答案有点过于急躁。读了塞克斯特斯的回答后,我又一次感到困惑。我会再考虑一下。 $\端组$ 5月11日15:44
  • 1
    $\开始组$ @Shreyans关于CI一词的一般用法,大多数人确实认为这意味着参数是固定的(当明确定义时,通常在文献中找到),但正如你在这里看到的,这方面的一致性不是100%。通常,对于定义的最终正确性没有绝对权威。在某些情况下,人们普遍同意,但像CI这样的术语在如此广泛的领域和文化中使用,您可能会发现不一致,即使大多数使用意味着应该有一个唯一的定义。 $\端组$ 5月12日10:30
4
$\开始组$

一定要注意人口参数不是随机变量。

然后你自相矛盾:

我认为𝜃 (总体参数)为随机变量。

不能将总体参数视为随机变量。你可以:

  • 使用样本获取总体参数的估计值
  • 尝试确定样本统计的理论抽样分布(可以是正态、t、F、二次方等)
  • 通过使用样本统计的采样分布来生成真实总体参数的置信区间。

在任何阶段,人口参数都不是随机变量。相反,红线是使用(随机变量)样本统计生成的总体参数(固定但未知)的置信区间。

进一步评论概率的理论方法、频率方法和贝叶斯方法之间的区别很深,但也很微妙。在通常意义上思考概率时,我们通常会绕过“我是从哪个范式来处理这个问题的”这一思维过程?

一般来说,您的问题不在于概念,而在于您想使用与贝叶斯分析的频率学家解释相关的术语。这可能会混淆其他人。这也可能导致他们误会你。

一个简单的解决方案是使用贝叶斯术语。

进一步评论2要理解哲学冲突并不容易,必须小心处理,一个简单的方法是我认识的一位在采访中被问及的人的(真实)故事:

抛硬币落在头上的概率是多少?立即、自信地回答$\压裂{1}{2}$紧随其后的是残暴这个房间的天花板今天掉下来的概率是多少?

而潜在的问题是,采访者考虑的是贝叶斯概率(对硬币的真实了解尚不清楚),而被采访者(相当天真)考虑的是公平硬币的理论概率。

$\端组$
15
  • $\开始组$ “你的陈述是矛盾的。”不,它们不是,因为第一个不是我的陈述,而是引用。 $\端组$ 5月11日11:05
  • $\开始组$ “一般来说,你不能认为人口参数是一个随机变量”。我当然可以,否则就不可能进行任何贝叶斯分析。 $\端组$ 5月11日11:05
  • $\开始组$ 那么你的陈述与引用的内容相矛盾。报价是正确的。 $\端组$
    – 星光
    5月11日11:06
  • $\开始组$ “在任何阶段,人口参数都不是随机变量”。很明显是这样,因为我将其定义为具有给定概率分布的RV。 $\端组$ 5月11日11:06
  • 1
    $\开始组$ 当使用贝叶斯方法时,贝叶斯措辞sich也用作可信区间。当我读到“信心区间”时,我想到了频繁性。 $\端组$ 5月11日11:15
0
$\开始组$

我认为你的困惑源于我们通常会有这样的表达P美元(a<X<b)$哪里X美元$,随机变量,位于中间,所以我们将其作为概率X美元$在间隔中下降【a,b】美元$.

现在,我们如何读取您给出的包含参数的CI的概率表达式?它的随机性是什么?为什么您的符号中的参数“代替”RV?

问题是,随机性来自区间本身,一组iid正常RV的样本平均值的95%区间由下式给出

$$\条{X}\pm 1.96\sigma/\sqrt{n}$$.

这里的样本均值是一个随机变量,代表了我们可以通过抽样n个观测值获得的所有可能的样本均值,将它们相加并除以n。其分布称为抽样分布。

所以,区间本身是随机的,你可以想象,每次你得到一个样本并计算CI,它的边界都会落在数字线上的某个地方。有时他们会摔倒$\θ$而其他时候则不然。这种情况发生的频率确切地说是

$P(l(X)<θ<u(X))=1-α$并注意到$X=(X_1,\cdots,X_n)$是一个随机向量。

$\端组$

你的答案

单击“发布您的答案”,表示您同意我们的服务条款并确认您已阅读我们的隐私政策.

不是你想要的答案吗?浏览标记的其他问题问你自己的问题.