处理右偏数据

介绍

当响应变量向右倾斜时,许多人认为回归变得困难起来。偏差数据通常被认为是有问题的。然而,glm框架为处理权利提供了两种选择倾斜响应变量。对于伽马和逆高斯分布,一个右偏的响应变量实际上是有帮助的。

伽马分布的不同形状

关键的一步是当您看一个。戏剧偏态是\(\压裂{2}{\sqrt(形状)}\)。如果形状为小,伽马分布是右偏的。如果形状增加伽玛变得更加对称

图书馆(GlmSimulatoR)
图书馆(ggplot2)
图书馆(dplyr,警告.冲突= 错误的)
图书馆(统计数据)

设置种子(1)
#非常向右倾斜。倾斜度2
伽马射线<- 有机玻璃(1000,形状= 1,刻度= 1)
临时雇员<- 易怒的(伽马射线=伽马_rv)
ggplot图(温度,原子发射光谱(x个=伽马))+
  地理直方图(垃圾箱= 30)


#驼峰稍微向中间移动。倾斜度1.154701
伽马射线<- 有机玻璃(1000,形状= ,刻度= 1)
临时雇员<- 易怒的(伽马射线=伽马_rv)
ggplot图(温度,原子能机构(x个=γ))+
  地理直方图(垃圾箱= 30)


#接近高斯分布。略微向右倾斜。歪斜。2
伽马射线<- 有机玻璃(1000,形状= 100,刻度= 1)
临时雇员<- 易怒的(伽马射线=伽马_rv)
ggplot图(温度,原子发射光谱(x个=γ))+
  地理直方图(垃圾箱= 30)

使用非常扭曲的数据构建模型

为了证明广义线性模型能够处理偏度,让我们数据和训练模型并计算均方误差。

#生成数据
设置种子(1)
simdata软件<- 模拟伽马(
  N个= 10000,链接= “反向”,
  重量= c(1,2,),附属的=.05
)
#确认Y~γ
ggplot图(simdata,原子发射光谱(x个=Y) )+
  地理直方图(垃圾箱= 30)


glm公司<- 天然气管理(是~X1型+X2个+X3、,数据=simdata、,家庭= 伽马射线(“反向”))

#均方误差
意思是((simdata)$Y(Y)- 预测(全球市场,新数据=模拟数据,类型= “响应”))^2)
#> [1] 0.004147222