如何解决在分组之前将“全部”添加到Spark数据框中的列
我正在尝试将一个“全部”类别添加到datframe的列中,这是我通过这样做实现的。
df2=df1.withcolumn('Column1',lit('all'))
# Union the dataframe
Df_union1=df2.union(df1)
# Adding all to another column
Df_union2=Df_union1.withcolumn('column2',lit('all'))
Df_union_column2=Df_union2.union(Df_union1)
.
.
.
.
.
# grouping the dataframe
Unions_all.groupby(['column1','column2']).....
由于我必须在很多专栏中进行此操作,因为我想将所有排列组合在一起,因此必须有很多并集,我只是想知道是否有更好或更聪明的方法来实现相同的目的
在Json World中,我看到人们做类似的事情
attribute1=['column1','all']
attribute2=['column2','all']
采用attribute1和attribute2的itertools.product
谢谢!
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。