迭代地拟合线性模型并使用 varImp() 计算迭代中所有预测变量的变量重要性

如何解决迭代地拟合线性模型并使用 varImp() 计算迭代中所有预测变量的变量重要性

我想迭代拟合线性模型 (= LM) 并在每次迭代后使用 caret::varImp() 函数计算各个变量/预测变量的变量重要性。我的数据表和天数如下所示(dt.train 的列数总是可以不同,days 变量也可以):

d <- 50  
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'),by = '1 day',length.out = 366),"DE" = rnorm(366,35,1),"Wind" = rnorm(366,5000,2),"Solar" = rnorm(366,3,"Nuclear" = rnorm(366,100,5),"ResLoad" = rnorm(366,200,3),check.names = FALSE)

我也已经有一个函数可以每 d 天(此处为 d<-50)为我计算一次:

varImportance <- function(data){
  ## Model fitting: ##
  lmModel <- stats::lm(DE ~ .-1-date,data = data)
  
  terms <- attr(lmModel$terms,"term.labels")
  varimp <- caret::varImp(lmModel)
  importance <- data[,.(date,imp = t(varimp))]
} 
## Get variable importance: ##
dt.importance <- dt.train[,varImportance(.SD),by = seq_len(nrow(dt.train)) %/% d]

现在我想要一个循环来为我构建迭代,如下所示:

1.运行: 使用从“2020-01-01”到“2020-02-20”(这里正好是 50 天)的数据进行模型拟合

2.运行: 用“2020-01-02”到“2020-02-21”的数据进行模型拟合

3.运行:用“2020-01-03”到“2020-02-22”的数据进行模型拟合

... 等等

上次运行:使用“2020-11-11”到“2020-12-31”的数据进行模型拟合


变量重要性应始终保存在新表中以匹配模型拟合,即:

1 的变量重要性。运行: 应声明为“2020-01-01”,

2 的变量重要性。运行: 应声明为“2020-01-02”,

...等等

Last Run: 的变量重要性应声明为“2020-11-11”。

这怎么可能?

解决方法

您可以使用 rollapply 包中的 zoo

重要的论点是:

  • width 设置窗口
  • by.column = FALSE 将所有列一起传递给模型
  • aligned = 'left' 以便滚动窗口从第一个数据点开始

由于 rollapply 适用于矩阵,它将 datesnumeric 混合转换为 charactersee,因此 date 字段具有分开处理。

library(data.table)
library(caret)
library(zoo)

d <- 50
## Create random data table: ##
dt.train <- data.table(date = seq(as.Date('2020-01-01'),by = '1 day',length.out = 366),"DE" = rnorm(366,35,1),"Wind" = rnorm(366,5000,2),"Solar" = rnorm(366,3,"Nuclear" = rnorm(366,100,5),"ResLoad" = rnorm(366,200,3),check.names = FALSE)

varImportance <- function(data){
  ## Model fitting: ##
  lmModel <- stats::lm(DE ~ .-1,data = data.table(data))
  terms <- attr(lmModel$terms,"term.labels")
  varimp <- caret::varImp(lmModel)
  importance <- t(varimp)
}

# Removing date because rollapply needs a unique type
Importance <- as.data.frame(zoo::rollapply(dt.train[,!"date"],FUN = varImportance,width = d,by.column=FALSE,align='left')
                            )

# Adding back date
Importance <- cbind(dt.train[1:nrow(Importance),.(date)],Importance)

Importance
#>            date     Wind     Solar   Nuclear    ResLoad
#>   1: 2020-01-01 2.523219 1.0253985 0.1676970 0.80379590
#>   2: 2020-01-02 2.535376 1.3231915 0.3292608 0.78803748
#>   3: 2020-01-03 2.636790 1.5249620 0.4857825 0.85169700
#>   4: 2020-01-04 3.158113 1.1318521 0.1869724 0.24190772
#>   5: 2020-01-05 3.326954 1.0991870 0.2341736 0.09327451
#>  ---                                                   
#> 313: 2020-11-08 4.552528 0.8662639 0.8824743 0.22454327
#> 314: 2020-11-09 4.464356 0.8773634 0.8845554 0.19480862
#> 315: 2020-11-10 4.532254 0.8230178 0.7147899 0.38073588
#> 316: 2020-11-11 4.415192 0.7462676 0.8225977 0.32353235
#> 317: 2020-11-12 3.666675 0.3957351 0.6607121 0.19661800

此解决方案比您已经使用的函数花费的时间更多,因为它的计算量是 chunck 版本的 50 倍。也不可能使用 data.table::frollapply,AFAIK 只能输出一维向量。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-