如何计算列中的值并将它们与特定行匹配？

如何解决如何计算列中的值并将它们与特定行匹配？

我有一个看起来像这样的数据集，其中 ID 和电子邮件对应于一个唯一的人。其余列代表由该人/行命名的人。例如，ID 为 1 且电子邮件地址为 alex@gmail.com 的人在被问到问题时名为 Pete、Jane 和 Tim。

id email          john_b alex_a pete jane tim
1  alex@gmail.com NA     NA     1    1    1
2  pete@yahoo.com NA     1      1    NA   NA
3  jane@q.com     NA     NA     1    NA   1
4  bea@mail.co    NA     1      1    NA   NA
5  tim@q.com      NA     NA     1    NA   1

我需要新数据集看起来像这样，其中新的列提名表示该人/行在数据集的其余部分中被命名的次数。例如，Pete 被 5 人命名，并在提名列中的相关电子邮件地址行中获得 5 名。 Jane 曾被提名过一次（由 alex@gmail.com 命名），并在提名栏中的 Jane 电子邮件地址行获得 1 分。

id email          john_b alex_a pete jane tim nomination
1  alex@gmail.com NA     NA     1    1    1   0 
2  pete@yahoo.com NA     1      1    NA   NA  5
3  jane@q.com     NA     NA     1    NA   1   1
4  bea@mail.co    NA     1      1    NA   NA  0
5  tim@q.com      NA     NA     1    NA   1   3

我有一种感觉，我需要在这里结合使用 case-when 和 grepl，但我无法理解它。

感谢您的帮助！

解决方法

嗨，我终于想出了一个代码，希望能让您达到您的期望。但是，我想不出任何方法将 bea@mail.co 匹配到 john_b。这肯定需要比我更聪明的头脑，但如果我能想到什么，我会在这里更新我的代码：

library(dplyr)
library(tidyr)
library(stringr)

df <- tribble(
 ~email,~john_b,~alex_a,~pete,~jane,~tim,"alex@gmail.com",NA,1,"pete@yahoo.com","jane@q.com","bea@mail.co","tim@q.com",1
)

# First we count the number of times each person is named
nm <- df %>%
  summarise(across(john_b:tim,~ sum(.x,na.rm = TRUE))) %>%
  pivot_longer(everything(),names_to = "names",values_to = "nominations")
nm

# A tibble: 5 x 2
  names  nominations
  <chr>        <dbl>
1 john_b           0
2 alex_a           2
3 pete             5
4 jane             1
5 tim              3

然后我们尝试将每个姓名与其对应的电子邮件部分匹配。这里唯一的问题是我之前提到的 john_b。

nm2 <- nm %>%
  rowwise() %>%
  mutate(emails = map(names,~ df$email[str_detect(df$email,str_sub(.x,1L,4L))])) %>%
  unnest(cols = c(emails))

nm2

# A tibble: 4 x 3
  names  nominations emails        
  <chr>        <dbl> <chr>         
1 alex_a           2 alex@gmail.com
2 pete             5 pete@yahoo.com
3 jane             1 jane@q.com    
4 tim              3 tim@q.com

最后我们通过emails连接这两个数据框：

df %>%
  full_join(nm2,by = c("email" = "emails"))

# A tibble: 5 x 8
  email          john_b alex_a  pete  jane   tim names  nominations
  <chr>          <lgl>   <dbl> <dbl> <dbl> <dbl> <chr>        <dbl>
1 alex@gmail.com NA         NA     1     1     1 alex_a           2
2 pete@yahoo.com NA          1     1    NA    NA pete             5
3 jane@q.com     NA         NA     1    NA     1 jane             1
4 bea@mail.co    NA          1     1    NA    NA NA              NA
5 tim@q.com      NA         NA     1    NA     1 tim              3

如果您愿意，也可以省略 names 列。我只是将其保留下来，以便您可以将它们放在一起进行比较。如果您可以对 john 的电子邮件进行一些修改，它们就会完美匹配。

如果您按照与电子邮件列相同的顺序组织您的姓名列，那么您可以简单地：

nomination <- colSums(df[,-(1:2)],na.rm = TRUE)
names(nomination) <- NULL
df <- cbind(df,nomination)

如何计算列中的值并将它们与特定行匹配？

如何解决如何计算列中的值并将它们与特定行匹配？

解决方法

相关推荐