如何解决如何使用R预测kaggle房价竞争中的价格?
我参加了kaggle竞赛:House Prices: Advanced Regression Techniques。 作为基准,我想创建线性回归。 首先,我清理数据。 其次,我只选择数字变量。
data_num<-data[sapply(data,function(x) is.numeric(x))]
train<-data_num[1:1460,]
test<-data_num[1461:nrow(data_num),]
然后我绘制直方图以查看SalePrice的分布。如我们所见,这里存在偏斜。 因此,我创建了log(SalePrice)。好多了
我的线性模型: 型号
model2<-lm(SalePrice~LotArea+OverallQual+OverallCond+YearBuilt+
MasVnrArea+ExterQual+BsmtQual+BsmtCond+BsmtFinSF1+`1stFlrSF`+
`2ndFlrSF`+BsmtFullBath+BedroomAbvGr+KitchenAbvGr+KitchenQual+
TotRmsAbvGrd+GarageCars+GarageCond+WoodDeckSF+ScreenPorch,train)
p<-predict(model2,test)
c<-cbind(price,p)
RMSE=sqrt(mean((log(p)-log(price$SalePrice))^2))
#RMSE 0.4215566
对我来说,建立线性模型很重要。我想将其与更复杂的模型xgboost,套索和其他模型进行比较
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。