data.table 列表列上的元编程映射

如何解决data.table 列表列上的元编程映射

我无法使用 data.table 映射嵌套列。 我做了一个例子。

library(data.table)    
library(purrr)

DT <- setDT(list(
  gp = c("A","B"),data = list(
    setDT(list(d1 = c(1,2,3),d2 = c(2,4),d3 = c(0.2,0.2,0.4))),setDT(list(d1 = c(10,20,30),d2 = c(20,40),0.4)))
  ),metric = c("max","min")
))

choose_achoose_b 是嵌套的 n 列中的两列。 calc_name 是计算出的新列的名称,由 calc_metric_mean 函数

calc_metric_mean <- function(a,b,metric){
  if(metric == "max"){ 
    return(mean(c(max(a),max(b))))
  }
  if(metric == "min"){
    return(mean(c(min(a),min(b))))
  }
  if(metric == "q74"){
    return(mean(c(quantile(a,74),quantile(b,74))))
  }
}

choose_a <- c("d1","d2","d2")
choose_b <- c("d3","d1","d2")
calc_name <- paste(choose_a,choose_b,sep = '')
metric <- "max"

for(i in 1:length(calc_name)){
  DT[,calc_name[[i]] := map_dbl(
    .x = data,~calc_metric_mean(
      a = choose_a[[i]],b = choose_b[[i]],metric = "max"
    )
  )]
}

结果是

   gp              data d1d3 d2d1 d2d2
1:  A <data.table[3x3]>  1.7  3.5    4
2:  B <data.table[3x3]> 15.2 35.0   40

添加于 2021 年 3 月 18 日 第二个问题:如果嵌套数据之外的列中有参数“metric”怎么样? 结果是

   gp              data metric d1d3 d2d1 d2d2
1:  A <data.table[3x3]>  max   1.7  3.5    4
2:  B <data.table[3x3]>  min   5.1   15   20

解决方法

抱歉,如果我没有正确理解问题,但是如果您尝试使用 DT 生成所需的输出,则可以选择使用带有 for()set() 循环:

for(i in 1:length(calc_name)){
  set(DT,NULL,j = calc_name[i],value = lapply(DT$data,function(x){
      calc_metric_mean(a = x[[choose_a[i]]],b = x[[choose_b[i]]],metric = "max")
      }
    )
  )
}

DT

这种方法在某种程度上是一个嵌套的 for 循环,它不是最优雅的,但它可以完成工作并且使用 set() 循环仍然可以非常快,因为它是通过引用更新的。需要注意的是,这种方法利用了 data.table 是带有 x[[choose_a[i]] 的列表这一事实。

为了让我的代码正常工作,我必须对您的示例设置进行两个小的更改。首先,因为您使用结构创建了 DT,所以您需要 setDT(DT) 才能使用 set()。其次,我编辑了 calc_metric_mean() 以更明确地说明它返回的内容。否则,它会为我返回 NULL

calc_metric_mean <- function(a,b,metric){
  if(metric == "max"){ 
    return(mean(c(max(a),max(b))))
    }
  if(metric == "min"){
    return(mean(c(min(a),min(b))))
    }
  if(metric == "q74"){
    return(mean(c(quantile(a,74),quantile(b,74))))
  }
}
,

感谢@diaggy 的精彩回答,还有另一个答案。

for(i in 1:length(calc_name)){
  DT[,calc_name[i] := lapply(DT$data,function(x){
    calc_metric_mean(a = x[[choose_a[i]]],metric = "max")
  })][]
}

这也会导致预期的结果。

> DT
   gp              data d1d3 d2d1 d2d2
1:  A <data.table[3x3]>  1.7  3.5    4
2:  B <data.table[3x3]> 15.2   35   40

有一些评论要做:

  1. 最后一个空的 [] 是列出 data.table 中的 := 结果所必需的(参见 faqs 中的 2.23)。
  2. 双重调用 x[[ 是评估列表列中的内部列所必需的。出于某种原因,x[,choose_a[i]] 返回字符choose_a[i] 并且这不起作用。

相比之下,@diaggy 的解决方案更好:

              expr      min       lq     mean   median       uq     max neval
 eval(diaggys_set) 3.589102 3.849702 4.487934 4.054001 4.516901 10.4261   100
      eval(direct) 4.749001 5.127901 5.844534 5.386051 5.985651 12.9724   100
,

第一变体:使用来自嵌套目标的变量

lapply 就足够了。请参阅@diaggy 的回答。

第二个变化:使用嵌套目标内外的变量

如果您必须从其他列加载参数,则必须从 lapply 传递到 mapply

for(i in 1:length(calc_name)){
  set(DT,value = mapply(function(x,m){
        calc_metric_mean(a = x[[choose_a[i]]],metric = m)
      },x = DT$data,m = DT$metric,SIMPLIFY = FALSE
    )
  )
}

> DT
   gp              data metric d1d3 d2d1 d2d2
1:  A <data.table[3x3]>    max  1.7  3.5    4
2:  B <data.table[3x3]>    min  5.1   15   20

SIMPLIFY = FALSE 是必需的,如果它返回一个列表而不是一个向量。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-