如何解决如何使用purrr在几个条件下替换值?
帖子已于2020年8月17日进行编辑,以使示例看起来更像我的实际数据。
总是以1位或2位数字排在第一位。几个月来,无论是全部还是部分,总以法语排名第二。年份总是以2位或4位数字排在第三位。
我正在学习使用tidyverse软件包进行编码。如果它们符合特定条件,我将尝试用另一个字符串替换变量中的每个元素。问题是我当时只能做一个条件。我想知道如何一次达到几个条件。
这是可繁殖的例子:
library(tidyverse)
library(magrittr)
tib <- tibble(
ID = 1:6,Date = c("1-JAN-20","15-JUILL-20","30 DEC 2020","1-JAN-20","30 DEC 2020"),Comm = c("Should be 2020-01-01","Should be 2020-06-15","Should be 2020-12-30","Should be 2020-01-01","Should be 2020-12-30"))
head(tib)
# A tibble: 6 x 3
ID Date Comm
<int> <chr> <chr>
1 1 1-JAN-20 Should be 2020-01-01
2 2 15-JUILL-20 Should be 2020-06-15
3 3 30 DEC 2020 Should be 2020-12-30
4 4 1-JAN-20 Should be 2020-01-01
5 5 15-JUILL-20 Should be 2020-06-15
6 6 30 DEC 2020 Should be 2020-12-30
# Returns the unique values of the character variables execept the "Comm" one. So,it
# returns only one in that case,but my original data have severals ones.
tib %>% select(where(is.character),-Comm) %>% map(~ unique(.x))
$Date
[1] "1-JAN-20" "15-JUILL-20" "30 DEC 2020"
我们在这里!以下代码有效,但是我想知道是否有更好的方法来代替它,而不是每次都复制/传递相同的代码行并进行更改。
tib <- tib %>% mutate(Date = case_when(Date == "1-JAN-20" ~ "2020-01-01",Date == "15-JUILL-20" ~ "2020-06-15",Date == "30 DEC 2020" ~ "2020-12-01"))
head(tib)
# A tibble: 6 x 3
ID Date Comm
<int> <chr> <chr>
1 1 2020-01-01 Should be 2020-01-01
2 2 2020-06-15 Should be 2020-06-15
3 3 2020-12-01 Should be 2020-12-30
4 4 2020-01-01 Should be 2020-01-01
5 5 2020-06-15 Should be 2020-06-15
6 6 2020-12-01 Should be 2020-12-30
由于我将不得不对其他变量进行此操作,因此我该如何构建一个可以完成此操作的函数?
此外,我想知道您是否知道一些好的文档/教程来学习Purrr软件包?
谢谢,祝你有美好的一天!
解决方法
也许您可以尝试dplyr :: case_when:
library(magrittr)
library(purrr)
# A tibble that looks like my data.
tib <- tibble(
ID = 1:6,Date = c("01-JAN-20","15-JUN-20","30 DEC 2020","01-JAN-20","30 DEC 2020"),Comm = c("Should be 2020-01-01","Should be 2020-06-15","Should be 2020-12-30","Should be 2020-01-01","Should be 2020-12-30"))
head(tib)
tib %>% select(where(is.character),-Comm) %>% map(~ unique(.x))
tib <- tib %>% mutate(Date = dplyr::case_when(Date == "01-JAN-20" ~ "2020-01-01",Date == "15-JUN-20" ~ "2020-06-15",Date == "30 DEC 2020" ~ "2020-12-01"))
> tib
# A tibble: 6 x 3
ID Date Comm
<int> <chr> <chr>
1 1 2020-01-01 Should be 2020-01-01
2 2 2020-06-15 Should be 2020-06-15
3 3 2020-12-01 Should be 2020-12-30
4 4 2020-01-01 Should be 2020-01-01
5 5 2020-06-15 Should be 2020-06-15
6 6 2020-12-01 Should be 2020-12-30
此处最好的方法是使用“随时”包将Date列转换为Date类。尽管您将必须手动修复“日期”列,所以所有年份都为4位数字。如果年份始终是日期的最后一位,那可能很容易。
,在处理日期/时间时,应使用标准的日期时间函数进行操作。不要使用str_replace
一一替换日期。假设您有不同年份的1000个日期,实际上不可能列出每个日期。在这种情况下,您可以使用lubridate::dmy
将它们转换为日期对象,对于更复杂的情况,有lubridate::parse_date_time
可以将不同格式的变量转换为日期。
tib %>% dplyr::mutate(new_date = lubridate::dmy(Date))
# ID Date Comm new_date
# <int> <chr> <chr> <date>
#1 1 01-JAN-20 Should be 2020-01-01 2020-01-01
#2 2 15-JUN-20 Should be 2020-06-15 2020-06-15
#3 3 30 DEC 2020 Should be 2020-12-30 2020-12-30
#4 4 01-JAN-20 Should be 2020-01-01 2020-01-01
#5 5 15-JUN-20 Should be 2020-06-15 2020-06-15
#6 6 30 DEC 2020 Should be 2020-12-30 2020-12-30
如果要以特定格式显示日期,可以在format
上使用new_date
函数。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。