$\开始组$

希望对残差的正态性与模型的“最佳”拟合进行一些了解。

在运行简单的线性回归并检查残差的正态性之后,我记录了结果变量,这显著提高了残差的正态性。见下文:在此处输入图像描述

使用绘图后地理_平滑(),我注意到关系可能不是线性的,而是二阶多项式。在此处输入图像描述

我将模型与AIC和多边形^2被认为更适合。

df AIC公司PT~年龄3 496.7536PT~聚(年龄,2)4 490.3009

我的问题出现在检查二阶多项式模型的残差时。与简单的线性回归相比,我可以看出它们不是正态分布的。在此处输入图像描述

我的问题是,这里什么更重要?我是选择简单的线性回归还是二阶多项式(这看起来更适合我的数据)?我还应该补充一点,在生理水平上,这对于拐点从50左右开始的位置来说是有意义的。

$\端组$
6
  • $\开始组$ 相关:stats.stackexchange.com/questions/232465/… $\端组$
    – 加伦
    评论 5月23日3:30
  • $\开始组$ 虽然AIC中的差异很有用,但并没有完全回答我的问题,因为我问的是模型的假设与“最佳”拟合。 $\端组$
    – 丹尼
    评论 5月23日3:44
  • $\开始组$ 评论并不是回答;这就是答案。 $\端组$
    – 加伦
    评论 5月23日3:46
  • 2
    $\开始组$ 如果我正确理解这一点,关系中的曲率是可见的,也是合理的。问题是,二次曲线形状与我看到的不匹配,或者至少是一个不同的故事,这是一个从大约55岁开始下降的近似平缓的关系。(考虑到我自己的年龄,我对后者感到相当震惊。)你没有庞大的样本量,在任何情况下都不需要直接跳到这里“所以,它是二次的!”。与选择函数形式的问题相比,我认为对AIC和BIC的大惊小怪是一个完全的副作用。样条方法可能会有所帮助。 $\端组$ 评论 5月24日8:33
  • 1
    $\开始组$ 我同意@NickCox的观点,即样条方法可能比多项式更好。第一次读到这篇文章时,我把绘制的函数误认为是拟合函数,我认为多项式在很大一部分散点图中具有平坦分布的分布中表现更差。 $\端组$ 评论 5月24日9:03

1答案1

重置为默认值
5
$\开始组$

首先,我会注意到,严格遵守回归中残差的正态性假设充其量是有争议的(见评论在这里). 我最近读过一篇论文这表明,通过各种模拟,OLS回归即使在极端偏离常态的情况下也表现得非常好。我想是什么更多重要的是,残差可以作为发现模型中是否有您可能遗漏的重要部分的指南。似乎你已经在一定程度上研究了核心数学部分,这一部分很重要,即分布的线性度。对我来说,很明显,你的数据呈二次曲线,因此更合适的拟合是多项式方程。你的AIC值看起来确实有所提高,但我认为这在这里并不重要。

就我个人而言,我不喜欢日志转换,除非它1)有助于解释,或2)有助于传播一个极为扭曲的分布。我经常看到人们将日志应用于任何偏离正态分布的分布。在我看来,这似乎完全没有必要,有时会以性能/口译为代价。在您的情况下,我认为没有必要进行日志转换。多项式很适合这项工作。在这种情况下,日志似乎唯一能做的就是略微改善误差方差,但我敢打赌,这对您的情况来说并不重要。

正如上面的模拟论文中所讨论的,最重要的问题可能是,您没有具有极端异常值的非正态分布。在您的情况下,基于残差,这似乎不是问题,但即使这样,稳健的方法仍然可以很好地进行多项式拟合。

您还注意到曲线中的拐点是有意义的。这向我表明,您对日志模型没有的拟合有明确的理论解释。

$\端组$
  • $\开始组$ 我见过许多假设正态性会导致灾难的例子,因为当存在强烈的非正态性,特别是分布的强烈不对称性时,它会导致无效的系数估计。但OP问题的核心是在进行分析之前很难选择Y的“正确”转换。这就是为什么我总是对连续Y使用转换依赖的半参数序数模型,对于连续Y,资源是在这里. $\端组$ 评论 5月23日11:40
  • 1
    $\开始组$ 我可能应该强调我第一句话中的“严格遵守”部分,以注意到这当然可能是一个问题,这取决于上下文(例如,拟合二进制结果,其中非正常残差表示明显的问题)。我的主要问题是,当人们仅仅将他们的数据转换为模糊数据时,因为残差最终看起来并不完全正常。。。他们很少实践(至少从我的经验来看)。在像OP这样的情况下,将模型作为-is进行拟合并不危险。我希望我能更有信心地说,序数模型是如何克服这一点的,但我将阅读该链接:) $\端组$ 评论 5月23日13:46
  • 2
    $\开始组$ 谢谢肖恩。更多信息是在这里在这里,我试图提出一个主要观点,即序数模型允许任何感兴趣的读数,包括相对度量(如优势比)和绝对度量(如均值和分位数),以及组平均值和分位数的差异,所有这些都是在原始尺度上进行的,没有假设分布。只有当Y是间隔标度的或几乎是这样的时候,我们才需要注意请求序数回归来计算平均值。 $\端组$ 评论 5月23日13:48

你的答案

单击“发布您的答案”,表示您同意我们的服务条款并确认您已阅读我们的隐私政策.

不是你想要的答案吗?浏览标记的其他问题问你自己的问题.