如何解决为什么我收到与种子相关的错误?
我使用此question
中的示例train$`1stFlrSF`<-train$S1stFlrSF
train$`2ndFlrSF`<-train$S2ndFlrSF
train$`3SsnPorch`<-train$S3SsnPorch
library("randomForest")
set.seed(1)
rf.model <- randomForest(SalePrice ~ .,data = train,ntree = 50,nodesize = 5,mtry = 2,importance = TRUE,metric = "RMSE")
library("caret")
caret.oob.model <- train(train[,-ncol(train)],train$SalePrice,method = "rf",tuneGrid = data.frame(mtry = 2),metric = "RMSE",trControl = trainControl(method = "oob",seed = 1),allowParallel = FALSE)
但是在caret.oob.model
中有一个错误
错误:错误的种子:种子对象应该是一个长度为2的列表,其中包含1个大小为1的整数矢量,并且最后一个列表元素至少具有一个整数。
这是我的数据集https://drive.google.com/file/d/1el-gAgA93EbYnM6VnDqzhT5c5uWsnKvq/view?usp=sharing
我该如何解决这个问题?
解决方法
randomForest是一种随机算法,取决于行和列的采样。设置RNG种子可获得可重复的结果。对于randomForest
,在调用训练函数之前仅一个种子就足够了。在插入符中,由于重新采样以及安装了一个以上的模型,使得情况变得更加复杂。
在您的情况下,即使没有重新采样,您也可以拟合两个模型,一个模型用于对mtry
超参数进行OOB评估,而最后一个模型。
?trainControl
的帮助页面指出,seeds
参数是可选的整数集,将用于在每次重采样迭代时设置种子。
它被指定为B + 1个元素的列表,其中B是重采样的数目(“ boot632”方法除外)。列表的前B个元素应该是长度为M的整数的向量,其中M是要评估的模型数(在您的情况下为1)。列表的最后一个元素只需要是一个整数(对于最终模型)。
示例:
library(randomForest)
library(caret)
data(mtcars)
set.seed(1)
rf.model <- randomForest(mpg ~ .,data = mtcars,ntree = 50,nodesize = 5,mtry = 2,importance = TRUE,metric = "RMSE")
rf.model
Call:
randomForest(formula = mpg ~ .,metric = "RMSE")
Type of random forest: regression
Number of trees: 50
No. of variables tried at each split: 2
Mean of squared residuals: 7.353122
% Var explained: 79.1
caret.oob.model <- train(mpg ~ .,method = "rf",tuneGrid = data.frame(mtry = 2),metric = "RMSE",trControl = trainControl(method = "oob",seeds = list(1,1)))
caret.oob.model$finalModel
Call:
randomForest(x = x,y = y,mtry = param$mtry,importance = TRUE)
Type of random forest: regression
Number of trees: 50
No. of variables tried at each split: 2
Mean of squared residuals: 7.353122
% Var explained: 79.1
在我看来,基于完全相同的Mean of squared residuals
和% Var explained
,这些模型是相同的。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。