如何解决GLM LM预测值之和与高色散
为什么预测值的总和与因变量的总和相同?
ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14)
trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69)
group <- gl(2,10,20,labels = c("Ctl","Trt"))
weight <- c(ctl*100,trt*20)
lm.D9 <- glm(weight ~ group,family = gaussian())
summary(lm.D9)
y<-predict(lm.D9,newdata=group,type="response")
sum(weight)
sum(y)
分散性也很高(在我的实际数据中)。有什么线索可以解决这个问题吗?我的原始数据为实际模型与预期模型建立了联系。我尝试了2种不同的模型,
- 预期的依存率与具有高斯的GLM
- 实际-预期的差异是依存的。
但是在第二种情况下,色散很高,并且两个模型都无法验证。
帮助表示赞赏!
解决方法
您有两组,执行线性回归时,预测值是各组的平均值:
predict(lm.D9,newdata=data.frame(group=c("Ctl","Trt")))
1 2
503.20 93.22
您可以检查以下内容:
tapply(weight,group,mean)
Ctl Trt
503.20 93.22
如果您对预测值求和,本质上是观察值的数量*平均值,它可以为您返回所有值的总和。
我们可以检查数据的外观,对我来说看起来还可以,没有疯狂的异常值:
boxplot(weight ~ group)
您可以查看此post,以lm为单位的色散是残差平方的总和除以自由度,基本上是与预测值的偏差的平方:
sum(residuals(lm.D9)^2)/lm.D9$df.residual
[1] 1825.962
鉴于您的数据平均值为298.21,sqrt(1825.962) = 42.73128
的平均偏差还可以
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。