如何解决存在/不存在多个变量
我有一个数据集,其中相同的观察值(一个对象)具有几个可以具有相同值(装饰性图案)的变量。
decor_data <- data.frame(Site= "XYZ",Motif1 = c("A","B","A","C"),Motif2 = c("C","D",NA,"B"),Motif3 = c("B",NA),Motif4 = c("D",NA))
我现在想为每个主题值创建一列,以指出它们的存在或不存在。
我可以通过以下函数来做到这一点:
presabs.decor <- function(data,motif){
data <- data %>% dplyr::mutate((!!quo_name (motif)) := case_when((Motif1 == motif | Motif2 == motif | Motif3 == motif | Motif4 == motif) ~ 1,TRUE~0))
}
但是然后我必须每次都给出变量的名称,这显然是在浪费时间
decors <- decor_data %>% presabs.decor("A") %>%
presabs.decor("B") %>%
presabs.decor("C") %>%
presabs.decor("D")
有很多方法可以使用dcast对一列进行此操作,但是我找不到像我需要的跨多列的任何内容。
我觉得这里缺少明显的东西。
非常感谢您的帮助!
解决方法
使用 base :
#get unique motif names
m <- na.omit(unique(unlist(decor_data[,-1])))
cbind(decor_data,sapply(m,function(i) rowSums(decor_data[,-1] == i,na.rm = TRUE)))
# Site Motif1 Motif2 Motif3 Motif4 A B C D
# 1 XYZ A C B D 1 1 1 1
# 2 XYZ B D A <NA> 1 1 0 1
# 3 XYZ B D <NA> <NA> 0 1 0 1
# 4 XYZ B A <NA> <NA> 1 1 0 0
# 5 XYZ A <NA> <NA> <NA> 1 0 0 0
# 6 XYZ C B <NA> <NA> 0 1 1 0
,
使用data.table
和tidyverse
:
setDT(decor_data)
motif_vars <- str_subset(names(decor_data),"Motif")
decor_data[,(motif_vars) := map(.SD,as.character),.SD = motif_vars]
motif_values <- decor_data[,motif_vars,with = FALSE] %>%
unlist() %>%
unique() %>%
.[!is.na(.)]
decor_data[,motif := pmap_chr(.SD,~c(...) %>% .[!is.na(.)] %>% str_c(collapse = "")),.SD = motif_vars]
decor_data[,(motif_values) := map(motif_values,~str_detect(motif,.x) * 1L)]
decor_data %>% select(-motif)
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。