如何解决由于分类变量列的问题,通过随机森林预测变量的问题
嗨,我收到以下错误消息;
Error in predict.randomForest(classifier,newdata = grid_set) :
variables in the training data missing in newdata
当我输入以下代码时;
classifier = randomForest(x = training_set[-3],y = training_set$Purchased,ntree = 10)
set = training_set[-3]
X1 = seq(min(set[,1]) - 1,max(set[,1]) + 1,by = 0.01)
X2 = seq(min(set[,2]) - 1,2]) + 1,by = 0.01)
grid_set = expand.grid(X1,X2)
colnames(grid_set) = c('Age','Estimated Salary')
ygrid = predict(classifier,newdata = grid_set)
问题在于,存在第三列,这是我认为通过运行代码training_set [-3]删除的类别变量。这不会删除该列吗?只是在我的网格集“ X3”中添加另一层引用已购买的列也不能解决问题。
我想知道我是否只是需要另一种方法来从训练集数据中的x中删除购买的列,或者我是否在其他地方出错?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。