reshape2：聚合函数的多个结果？

根据我的阅读,reshape2中的* cast操作失去了result_variable功能. Hadley暗示为此目的使用plyr(将多个结果列附加到输入数据框).我怎么才能实现文档示例……

aqm <- melt(airquality,id=c("month","day"),na.rm=TRUE)
cast(aqm,month ~ variable + result_variable,range)

使用reshape2(dcast)和plyr(ddply)？

由于’reshape2’和’plyr’包的灵活性,这个问题有多个答案.我将在这里展示一个最容易理解的例子：

library(reshape2)
library(plyr)

aqm <- melt(airquality,id=c("Month","Day"),na.rm=TRUE)
aqm_ply <- ddply(aqm,.(Month,variable),summarize,min=min(value),max=max(value))
aqm_melt <- melt(aqm_ply,"variable"),variable.name="variable2")
dcast(aqm_melt,Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93

第1步：让我们将其分解为几个步骤.首先,让我们单独留下’aqm’的定义,并根据融化的数据进行处理.这将使示例更容易理解.

aqm <- melt(airquality,na.rm=TRUE)

#     Month Day variable value
# 1       5   1    Ozone  41.0
# 2       5   2    Ozone  36.0
# 3       5   3    Ozone  12.0
# 4       5   4    Ozone  18.0
# ...
# 612     9  30     Temp  68.0

第2步：现在,我们要将’value’列替换为’min’和’max’列.我们可以使用’plyr’包中的’ddply’函数来实现这一点.为此,我们使用’ddply’函数(数据帧作为输入,数据帧作为输出,因此“dd”-ply).我们首先指定数据.

ddply(aqm,

然后我们指定要用于对数据进行分组的变量,’月’和’变量’.我们使用.函数直接引用此变量,而不是引用它们包含的值.

ddply(aqm,

现在我们需要选择一个聚合函数.我们在这里选择汇总函数,因为我们不希望在最终数据中包含列(‘Day’和’value’).汇总函数将删除所有原始的非分组列.

ddply(aqm,

最后,我们指定要为每个组执行的计算.我们可以参考原始数据框(‘aqm’)的列,即使它们不会包含在我们的最终数据框中.这就是它的样子：

aqm_ply <- ddply(aqm,max=max(value))

#    Month variable  min   max
# 1      5    Ozone  1.0 115.0
# 2      5  Solar.R  8.0 334.0
# 3      5     Wind  5.7  20.1
# 4      5     Temp 56.0  81.0
# 5      6    Ozone 12.0  71.0
# 6      6  Solar.R 31.0 332.0
# 7      6     Wind  1.7  20.7
# 8      6     Temp 65.0  93.0
# 9      7    Ozone  7.0 135.0
# 10     7  Solar.R  7.0 314.0
# 11     7     Wind  4.1  14.9
# 12     7     Temp 73.0  92.0
# 13     8    Ozone  9.0 168.0
# 14     8  Solar.R 24.0 273.0
# 15     8     Wind  2.3  15.5
# 16     8     Temp 72.0  97.0
# 17     9    Ozone  7.0  96.0
# 18     9  Solar.R 14.0 259.0
# 19     9     Wind  2.8  16.6
# 20     9     Temp 63.0  93.0

第3步：我们可以看到数据大大减少了,因为ddply函数聚合了这些行.现在我们需要再次融合数据,因此我们可以获得最终数据框的第二个变量.请注意,我们需要指定一个新的variable.name参数,因此我们没有两个名为“variable”的列.

aqm_melt <- melt(aqm_ply,variable.name="variable2")

    #    Month variable variable2 value
# 1      5    Ozone       min   1.0
# 2      5  Solar.R       min   8.0
# 3      5     Wind       min   5.7
# 4      5     Temp       min  56.0
# 5      6    Ozone       min  12.0
# ...
# 37     9    Ozone       max  96.0
# 38     9  Solar.R       max 259.0
# 39     9     Wind       max  16.6
# 40     9     Temp       max  93.0

第4步：我们最终可以通过将数据转换为最终形式来将其全部包装起来.

dcast(aqm_melt,Month ~ variable + variable2)

#   Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min  Temp_max
# 1     5         1       115           8         334      5.7     20.1       56        81
# 2     6        12        71          31         332      1.7     20.7       65        93
# 3     7         7       135           7         314      4.1     14.9       73        92
# 4     8         9       168          24         273      2.3     15.5       72        97
# 5     9         7        96          14         259      2.8     16.6       63        93

希望这个例子能让你有足够的理解来帮助你入门.请注意,正在以“dplyr”名称积极开发“plyr”软件包的新数据框优化版本,因此您可能希望在完全成熟后将代码转换为新软件包.

reshape2：聚合函数的多个结果？

相关推荐