如何解决将一个变量的分组总和添加到原始数据
我的数据如下:
Sample_ID Member_ID gender relative_ID relative_desc
1 11 male 1 Head
1 12 female 2 Partener
1 13 female 3 Child
1 14 female 3 Child
2 21 female 1 Head
2 22 male 3 Child
3 31 male 1 Head
3 32 female 2 Partener
4 41 male 1 Head
4 42 female 2 Partener
4 43 male 3 Child
4 44 male 3 Child
5 51 female 1 Head
5 52 female 3 Child
5 53 male 3 Child
5 54 male 3 Child
和许多其他列。 我想知道的是每个家庭有多少个孩子 我做了很多搜索,然后尝试通过以下方式取消对relative_desc变量的设置:
COMPUTE Child = (relative_desc = "Child").
然后尝试对带有示例ID中断的汇总求和
DATASET DECLARE AggHouse.
AGGREGATE OUTFILE='AggHouse'
/BREAK SAMPLE_ID
/Child = SUM(Child).
这会将每个家庭的样本ID和孩子的数量移动到新数据集中,我所做的是将新的sum列合并到原始数据集中,但是我遗漏了很多数据,还有其他建议吗? 非常感谢。
解决方法
您可以直接聚合到原始数据集中,从而节省工作和麻烦:
AGGREGATE OUTFILE=* mode=addvariables overwritevars=yes
/BREAK SAMPLE_ID
/Child = SUM(Child).
注意-overwritevars
子命令使您可以用和重写Child
变量。或者,您可以将总和放入新的变量中,例如SumChild
。
如果您确实希望汇总到一个新的数据集,然后将其重新附加到原始数据集,请在您的帖子中添加用于此的语法,以便我们了解问题所在。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。