如何解决data.table 列表列上的元编程映射
我无法使用 data.table 映射嵌套列。 我做了一个例子。
library(data.table)
library(purrr)
DT <- setDT(list(
gp = c("A","B"),data = list(
setDT(list(d1 = c(1,2,3),d2 = c(2,4),d3 = c(0.2,0.2,0.4))),setDT(list(d1 = c(10,20,30),d2 = c(20,40),0.4)))
),metric = c("max","min")
))
choose_a
和 choose_b
是嵌套的 n 列中的两列。
calc_name
是计算出的新列的名称,由
calc_metric_mean
函数
calc_metric_mean <- function(a,b,metric){
if(metric == "max"){
return(mean(c(max(a),max(b))))
}
if(metric == "min"){
return(mean(c(min(a),min(b))))
}
if(metric == "q74"){
return(mean(c(quantile(a,74),quantile(b,74))))
}
}
choose_a <- c("d1","d2","d2")
choose_b <- c("d3","d1","d2")
calc_name <- paste(choose_a,choose_b,sep = '')
metric <- "max"
for(i in 1:length(calc_name)){
DT[,calc_name[[i]] := map_dbl(
.x = data,~calc_metric_mean(
a = choose_a[[i]],b = choose_b[[i]],metric = "max"
)
)]
}
结果是
gp data d1d3 d2d1 d2d2
1: A <data.table[3x3]> 1.7 3.5 4
2: B <data.table[3x3]> 15.2 35.0 40
添加于 2021 年 3 月 18 日 第二个问题:如果嵌套数据之外的列中有参数“metric”怎么样? 结果是
gp data metric d1d3 d2d1 d2d2
1: A <data.table[3x3]> max 1.7 3.5 4
2: B <data.table[3x3]> min 5.1 15 20
解决方法
抱歉,如果我没有正确理解问题,但是如果您尝试使用 DT
生成所需的输出,则可以选择使用带有 for()
的 set()
循环:
for(i in 1:length(calc_name)){
set(DT,NULL,j = calc_name[i],value = lapply(DT$data,function(x){
calc_metric_mean(a = x[[choose_a[i]]],b = x[[choose_b[i]]],metric = "max")
}
)
)
}
DT
这种方法在某种程度上是一个嵌套的 for 循环,它不是最优雅的,但它可以完成工作并且使用 set()
循环仍然可以非常快,因为它是通过引用更新的。需要注意的是,这种方法利用了 data.table
是带有 x[[choose_a[i]]
的列表这一事实。
为了让我的代码正常工作,我必须对您的示例设置进行两个小的更改。首先,因为您使用结构创建了 DT
,所以您需要 setDT(DT)
才能使用 set()
。其次,我编辑了 calc_metric_mean()
以更明确地说明它返回的内容。否则,它会为我返回 NULL
:
calc_metric_mean <- function(a,b,metric){
if(metric == "max"){
return(mean(c(max(a),max(b))))
}
if(metric == "min"){
return(mean(c(min(a),min(b))))
}
if(metric == "q74"){
return(mean(c(quantile(a,74),quantile(b,74))))
}
}
,
感谢@diaggy 的精彩回答,还有另一个答案。
for(i in 1:length(calc_name)){
DT[,calc_name[i] := lapply(DT$data,function(x){
calc_metric_mean(a = x[[choose_a[i]]],metric = "max")
})][]
}
这也会导致预期的结果。
> DT
gp data d1d3 d2d1 d2d2
1: A <data.table[3x3]> 1.7 3.5 4
2: B <data.table[3x3]> 15.2 35 40
有一些评论要做:
- 最后一个空的
[]
是列出 data.table 中的:=
结果所必需的(参见 faqs 中的 2.23)。 - 双重调用
x[[
是评估列表列中的内部列所必需的。出于某种原因,x[,choose_a[i]] 返回字符choose_a[i] 并且这不起作用。
相比之下,@diaggy 的解决方案更好:
expr min lq mean median uq max neval
eval(diaggys_set) 3.589102 3.849702 4.487934 4.054001 4.516901 10.4261 100
eval(direct) 4.749001 5.127901 5.844534 5.386051 5.985651 12.9724 100
,
第一变体:使用来自嵌套目标的变量
lapply
就足够了。请参阅@diaggy 的回答。
第二个变化:使用嵌套目标内外的变量
如果您必须从其他列加载参数,则必须从 lapply
传递到 mapply
。
for(i in 1:length(calc_name)){
set(DT,value = mapply(function(x,m){
calc_metric_mean(a = x[[choose_a[i]]],metric = m)
},x = DT$data,m = DT$metric,SIMPLIFY = FALSE
)
)
}
> DT
gp data metric d1d3 d2d1 d2d2
1: A <data.table[3x3]> max 1.7 3.5 4
2: B <data.table[3x3]> min 5.1 15 20
SIMPLIFY = FALSE
是必需的,如果它返回一个列表而不是一个向量。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。