为什么GLM没有错误项，为什么残差不应该是i.i.d？

Question

我在帖子上读了几十篇关于这个主题的文章，但我无法理解。从我收集的信息来看，GLMS不像线性模型（LM）那样在其公式中包含错误项。我想知道为什么（或者如果它们是奇数项，为什么LM会包括这个错误项）？我觉得这是由于正态分布的可加性，这使得LM可以通过关注Y的平均值并添加一个以0为中心的正态分布变量（误差项）来对Y的分布进行建模，该变量的方差适合$\sum_i X_i$以及Y的方差。但是，链接函数不是应该将非正态分布变量转换为正态分布的变量，从而可以使用误差项吗？

注意：如果你能在你的答案中提供连续分布的例子，而不仅仅是离散分布的例子的话，那就太棒了，因为我很难理解离散分布的这个问题。

谢谢

这回答了你的问题吗？GLM家族代表响应变量或残差的分布？ — kjetil b halforsen公司, 评论 5月20日18:00
这个问题同时提出了许多问题。1）首先，对于OLS，残差也不是i.i.d。例如，想象一下大小为2的样本的平均值和残差。2)GLM不建模误差项，而是建模分布。误差项，在加性意义上，是高斯噪声的一种。 — 塞克斯都·恩披里柯, 评论 5月20日19:53
可能有用：stats.stackexchange.com/search？q=考克斯+斯奈尔 — 塞克斯都·恩披里柯, 评论 5月20日19:56
这一特殊情况可能会阐明一般问题：为什么我们在线性回归中建模噪声，而不是在逻辑回归中建模？ — 斯蒂芬·科拉萨, 评论 5月20日21:06

格伦_b · Accepted Answer · 2024-05-23 23:43:46Z

7

GLM在每个预测组合中指定一个条件分布。

当条件分布为正态且方差为常数时，平均值的误差将为i.i.d.正态，而残差（通常）将近似为正态。

除了这种特殊情况外，这些条件分布的价差并不相同，而且通常甚至没有相同的形状因此，当您减去条件“总体”（过程）的集合时，只要平均值不同，就会得到错误项有不同的分布.

对于第一个连续示例，考虑伽马GLM。每个条件分布的形状相同，但价差不同。如果减去平均值，则每个值的支持度都不同，因此“错误”也不同。

请参阅此处的显示：https://stats.stackexchange.com/a/224253/805

将具有特定伽马分布误差（形状=1）的加性模型与具有响应的GLM进行对比的是条件伽马分布。

对于逆高斯函数，情况更糟——形状随着平均值的变化而变化。

然而，最好的简单示例可能是泊松GLM（我知道您不喜欢使用离散示例，但作为基本情况，它仍然是理想的，您并不是唯一可能对此有所帮助的人）。具有不同平均值的每个泊松的分布和形状是不同的。当你减去平均数时，你就得到了不同的发行版，具有不同的支持。如果根据价差的不同进行缩放，它们仍然具有不同的支撑和不同的形状。

你的帖子似乎假设链接功能被用作数据转换这个前提是错误的。即使你这样使用它，它也不会产生一般的常态，甚至不会产生近似的常态。对于自然链接GLM，线性化变换不同于方差稳定变换，而方差稳定变换又不同于对称化变换；事实上，这些转变变得越来越弱。

已编辑5月23日23:43

回答5月20日19:18

格伦_b

28.5万37枚金徽章636枚银徽章1.1k青铜徽章

$\开始组$ 谢谢你的回答。深入研究这一点使我意识到，即使对于简单的线性回归，我也有很多不理解或错误理解的地方。不过，你的回答确实澄清了很多问题。我不熟悉你在上一段中提到的所有变换，我意识到“变换”可能有一个我不知道的特定技术意义。然而，我有一个非常基本的问题。链接功能的目的是什么？在我看来，线性模型很有用，因为正态分布具有可加性（其余部分将在下一条评论中介绍）。 $\端组$
– 布森-杜蒙-格雷戈里
评论 5月20日20:54
$\开始组$ 可以按不同比例（系数）添加不同变量（X）的影响，并再现观测变量Y的分布。然而，这与其他分布不适用。我认为使用link函数是解决这个问题的一种方法。例如，取0到1之间的比值logit，得到正态分布值，如果取计数数据log，结果也是一样的。然后你可以用一个线性模型，也就是一个正态分布变量的总和，对这个新的，某种正态分布的变量进行建模。我错过了什么？ $\端组$
– Boussens Dumon Grégoire酒店
评论 5月20日20:54
$\开始组$ “例如，你取0到1之间的比值的logit，得到正态分布值，如果你取计数数据的log，结果也是如此。”——你应该解释一下是什么导致你认为这两件事会是这样。这两种说法都不是真的，我已经在最后一段的前两句话中直接说过，它们产生的前提在我的回答中是错误的。，而最后一句是解释原因。我会考虑如何更详细地解释它。 $\端组$
– 格伦_b
评论 5月20日23:10
1

$\开始组$ @Boussens-DumonGrégoire关系是任何关系。然而，链接函数允许特定类型的非线性进入模型。例如，如果逻辑回归模型是正确的，特征与条件期望之间的关系是非线性的。然而，特征和转换后的条件期望之间的关系是线性的。 $\端组$
– 戴夫
评论 5月21日15:21
$\开始组$ @Glen_b我想我在被教给我的时候理解错了。老实说，我对你最后一段的内容一无所知。我会在互联网上看到所有这些转变是什么，但现在我不知道它们意味着什么，也不知道其中一个比另一个弱或强。我正在阅读GLM的维基百科页面，这里是另一个尝试。链接函数的目的只是将非线性关系（E（Y）和预测器之间的关系）转换为线性关系，并满足E（Y|X）假设的分布假设吗？ $\端组$
– 布森-杜蒙-格雷戈里
评论 5月21日18:48

| 显示1更多评论

阿达姆 · Accepted Answer · 2024-05-20 17:54:37分

5

可以说，回归关系到预期响应的建模。如果我们关注建模的这一方面，“误差”与其说是模型固有的东西，不如说是计算估计不确定性的一种方法。你似乎已经意识到OLS的经典假设——误差与拟合值无关——在许多情况下是无法实现的。

例如，在二进制响应中，无论进行何种转换，定义为观测值减去预测值的“误差”的分布都将总是取决于预测值。对于美元$（真概率）接近0.5，你会发现误差是对称的，而美元$接近1将具有负偏斜误差，并且美元$与0相反，无论大小（正态、对数、logistic等）

事实上，如果你遵循通过逆方差加权处理异方差的方法，你会导出Newton-Raphson方法，将似然方程作为一种矩估计方法来求解，从而强化了这实际上是关于建模期望的想法。

在OLS框架中，您可以等效地编写两个模型：

$$E[Y|X]=\alpha+\beta X$$

或

$$Y=α+βX+ε$$

两者都没有真正揭示出谨慎的估计程序，也没有提出任何不同的方法，除非我们规定了关于$\epsilon美元$.

已编辑5月20日17:54

回答5月20日17:21

阿达姆

63.3万6枚金徽章128枚银徽章260枚青铜徽章

$\开始组$ 我想我理解你的二项式分布示例。您希望拟合值为0或1。因此，如果观察值为1，则误差将为0或负值，如果为0，则误差为0或正值。因此，误差的分布取决于拟合值。你能给我举一个例子吗，为什么我们对连续分布（例如伽玛分布）有同样的问题？ $\端组$
– 布森-杜蒙-格雷戈里
评论 5月20日17:38
$\开始组$ 此外，当您使用logit kink函数时，您将从[0-1]中包含的离散分布变为连续无界分布。如果您尝试在logit尺度上拟合数据（估计$\text{logit}（y_i）$），那么您的错误也没有界限，因此您的模型中不能有一个iid的错误项吗？ $\端组$
– 布森-杜蒙-格雷戈里
评论 5月20日17:45
$\开始组$ @Boussens-DumonGrégoire在您的第二条评论中，您一直在谈论“分发”。你指的是什么发行版？注意，如果我取任何$\text{二项式}（n，p）$分布，然后从中减去$p$，则该分布仍然是离散的。事实上，可以根据样本大小猜测$n$和$p$。 $\端组$
– 阿达莫
评论 5月20日20:24

添加评论 |

戴夫 · Accepted Answer · 2024-05-21 19:49:42Z

GLM不应该泛化$y=X\beta+\varepsilon$.它们概括了等效项$^{\匕首}$概念$\mathbb E\left[Y\vert X=X\right]=X\beta$。在这方面没有我们可以进行假设的错误项。

这个概括来自于注意到前面的方程等价于$g\左（\mathbb E\左[Y\vert X=X\右]\右）=X\β$什么时候$克$是识别功能。

因此，GLM不包含错误项，或者至少通常不是用错误项编写的，因为这与它们推广线性模型的方式不同。他们从一种不包含误差项的线性模型开始，对线性模型进行了推广。

当然，我们可以用期望值加上期望值与观测值之间的偏差来编写模型，但这样就失去了与合理分布的联系。使用Gamma分布时，预期值可以高于或低于观察值。因此，残差是正负值的一些奇怪的混合分布，忽略了条件Gamma分布。

那么你如何估计模型参数呢？在线性模型中，我们可能会选择使用OLS，它是在发现高斯最大似然估计之前开发的，不需要条件高斯分布（尽管与最大似然估算的等效性很好）。在广义线性模型中，我们是否采用平方损失最小化？这是一个选项，但我们想知道估计器有什么性质。在什么条件下（如果有的话），该估计量是无偏的？在什么条件下，如果有的话，这个估计是一致的？我们在这样的条件下运营吗？该估计器的效率如何？该估计值的稳健性如何？我们如何为回归系数或测试回归系数编写置信区间。

但这里有一个伽马分布。因此，如果我们真的相信伽玛可能性，$^{\ddagger}$，我们通过最大似然估计得到了一个明显的估计。我们知道很多关于极大似然估计的定理，以及它们的性质有多大。我们有关于如何计算参数置信区间的定理。我们有关于如何测试嵌套模型的定理。

因此，选项是：

将GLM简化为一种格式，该格式明确使用具有恶劣分布的残差，不会导致具有已知、理想属性的明显估计策略，也没有明确的方法计算置信区间或测试嵌套模型。
使用不使用残差的格式，从而得到我们从经典线性回归（高斯假设的OLS，相当于最大似然估计）中知道并喜爱的常见类型的点估计、区间估计和假设检验。

我认为统计学领域选择了第二种方法，而不是根据残差计算GLM理论，这是可以理解的。

$^{\匕首}$在通常的假设下是等价的，例如高斯-马尔科夫（尽管即使是高斯-马尔可夫也比要求的更严格）

$^｛\dagger｝$对于伽玛射线来说，这可能是一个令人怀疑的假设。然而，考虑一个逻辑回归，其中结果是二元的。条件分布是伯努利.

你好，戴夫。谢谢你的回答。我一整天都在看有关这方面的帖子，我的头都快要爆炸了，但我想我并没有慢慢开始理解。有一件事我还不确定。假设$Y|X$的分布是Gamma。那么$g（Y|X）$的分布是什么？ — 布森-杜蒙-格雷戈里, 评论 5月20日22:55
@Boussens-DumonGrégoire链接函数的目的是转换（未观察到的）期望值，而不是整个分布。 — 戴夫, 评论 5月20日23:36
这个转换的目的是得到预测器和Y之间的线性关系，对吗？ — 布森-杜蒙-格雷戈里, 评论 5月21日1:03
@我认为哈迪的评论是针对我的，于是我进行了编辑。 — 戴夫, 评论 5月21日19:06

gung-恢复Monica · Accepted Answer · 2024年5月20日17时39分17秒

GLM公司(一般的1.adj.使…化线性模型)包括许多不同类型的模型。它更像是一个家庭，而不是一个单一的模型。值得注意的是，典型的线性模型是GLM的特例。GLM由来自指数族（这当然可能是正常的）和链接功能。让我们来看GLM的另一个特例，即逻辑回归在这种情况下，假设响应是有条件的二项式链接是logit（即成功几率的日志）。现在认识到二项式残差的方差取决于平均值。因此，存在异方差和非正态性。所以，可以肯定的是，至少有一种形式的GLM并没有这些功能（实际上，还有很多）。

编辑回复：
链接函数当然不会将非正态分布转化为正态分布响应，也不是“假定”的。再次，考虑二项式情况是有建设性的。想象一个二元结果（例如癌症/非癌症）回归到二元暴露（例如氡/非）。logit转换了$0$（没有癌症）是$-\英寸$，logit转换为$1$（癌症）是$\infty（美元）$。它们不是正态分布的。a的方差伯努利是：$${\rm变量}（X）=p（1-p）$$哪里美元$是“成功”的概率（即平均值）。

谢谢你的编辑。还有很多事情我很困惑，哈哈。0和1的logit显然不正常，但我认为在二元回归中，logit函数是按概率应用的，而不是直接应用于0和1。当你生成一个0到1之间的数字向量并对这些数字应用logit函数时，你得到的值的分布实际上是正态的。因此，通过将逆对数函数应用于正态分布的预测值，您应该能够获得估计的几率，从中可以得出Y的估计值，对吗？ — 布森-杜蒙-格雷戈里, 评论 5月20日18:02
@Boussens-DumonGrégoire，考虑我制作的二进制Y，二进制X的例子。观察到的两个比例分别为0.2$和0.05$。logits为-1.386294$和-2.944439$。它们不是正态分布的。 — gung-恢复Monica, 评论 5月20日18:05

堆栈交换网络

为什么GLM没有错误项，为什么残差不应该是i.i.d？

4个答案4

你的答案

不是你想要的答案吗？浏览标记的其他问题
回归，回归
广义线性模型
残余沉积物
qq点
iid公司
或问你自己的问题.

已链接

热门网络问题

为什么GLM没有错误项，为什么残差不应该是i.i.d？

4个答案4

你的答案

注册或登录

以客人身份发布

不是你想要的答案吗？浏览标记的其他问题回归，回归广义线性模型残余沉积物qq点iid公司或问你自己的问题.

已链接

相关的

热门网络问题

不是你想要的答案吗？浏览标记的其他问题
回归，回归
广义线性模型
残余沉积物
qq点
iid公司
或问你自己的问题.