满足条件的按组ID的多列观测值的计数和平均值

如何解决满足条件的按组ID的多列观测值的计数和平均值

我在R中遇到了一个问题，如下所述。我需要满足条件的每个组ID的所有列（避免使用NA）的计数和平均值。

我在下面有数据集，其中还有一个附加列。 “ T”

    structure(list(ID = c(1L,1L,2L,3L,3L),S1 = c(NA,5L,4L,2L),S2 = c(1L,7L,NA,11L),T = c(3L,2L)),class = "data.frame",row.names = c("1","2","3","4","5","6"))

仅当列满足条件（列值

结果数据框应如下所示：

  ID S1.count S2.count S1.overall S2.overall S1.per S2.per
1 1  1        3        2          3          0.5    1.0  
2 2  1        0        1          1          1.0    0.0
3 3  1        0        2          1          0.5    0.0

S1.count和S2.count：分别小于T的观测数。

S1.overall和S2.overall：每列中的观察总数（避免使用NA）。

S1.per和S2.per：S1.count / S1.overall，S2.count / S2.overall。

解决方法

您可以使用aggregate()函数来获取有关给定组的特定值的出现的信息。将数据分组到ID组中，您可以很容易地构建刚刚概述的数据框：

data = data.frame("ID"=c(1,1,2,3,3),"S1"=c(NA,5,4,2),"S2"=c(1,7,NA,11),"T"=c(3,2))

newdata = data.frame("ID"=unique(data$ID),"S1.count"=aggregate(c(data$S1<=data$T)~data$ID,FUN=sum)[,2],"S2.count"=aggregate(c(data$S2<=data$T)~data$ID,"S1.overall"=aggregate(c(!is.na(data$S1))~data$ID,"S2.overall"=aggregate(c(!is.na(data$S2))~data$ID,2])

newdata$S1.per = newdata$S1.count/newdata$S1.overall
newdata$S2.per = newdata$S2.count/newdata$S2.overall

在这里，我使用逻辑矢量来计算有效且小于T值的数量。逻辑向量的总和是TRUE个元素的数量。

此简短程序的输出为：

> newdata
  ID S1.count S2.count S1.overall S2.overall S1.per S2.per
1  1        1        3          2          3    0.5      1
2  2        1        0          1          1    1.0      0
3  3        1        0          2          1    0.5      0

使用dplyr，您可以如下计算：

library(dplyr)

df %>%
  group_by(ID) %>%
  summarise(across(starts_with('S'),list(count = ~sum(. <= T,na.rm = TRUE),overall = ~sum(!is.na(.)),per = ~mean(. <= T,na.rm = TRUE)))) %>%
  select(ID,ends_with('count'),ends_with('overall'),everything())

#     ID S1_count S2_count S1_overall S2_overall S1_per S2_per
#  <int>    <int>    <int>      <int>      <int>  <dbl>  <dbl>
#1     1        1        3          2          3    0.5      1
#2     2        1        0          1          1    1        0
#3     3        1        0          2          1    0.5      0

数据

df <- structure(list(ID = c(1L,1L,2L,3L,3L),S1 = c(NA,5L,4L,2L),S2 = c(1L,7L,11L),T = c(3L,2L)),class = "data.frame",row.names = c(NA,-6L))

满足条件的按组ID的多列观测值的计数和平均值

如何解决满足条件的按组ID的多列观测值的计数和平均值

解决方法

相关推荐