如何解决如何以将“日期”分组到不同列中的方式进行合并,而不是将同一列中的所有内容组合在一起
我是pyspark的新手。这是一种小情况,我为每个文件创建了一个数据框(总共9个,每个文件代表每个月的计数),然后我需要将它们全部合并为一个大df。事情是我需要这样出来,每个月都有它自己的单独列。
name_id | 2020_01 | 2020_02 | 2020_03
1 23 43534 3455
2 12 34534 34534
3 2352 32525 23
但是,使用我当前的代码,它将所有月份都放在同一列下。我已经在互联网上搜索了很长时间,但是找不到任何解决方法(也许我需要groupby,但是不确定如何执行此操作)。下面是我的代码。谢谢!
df1=spark.read.format("parquet").load("dbfs:")
df2=spark.read.format("parquet").load("dbfs:")
df3=spark.read.format("parquet").load("dbfs:")
df4=spark.read.format("parquet").load("dbfs:")
df5=spark.read.format("parquet").load("dbfs:")
df6=spark.read.format("parquet").load("dbfs:")
df7=spark.read.format("parquet").load("dbfs:")
df8=spark.read.format("parquet").load("dbfs:")
df9=spark.read.format("parquet").load("dbfs:")
#union all 9 files
union_all=df1.unionAll(df2).unionAll(df3).unionAll(df4).unionAll(df5).unionAll(df6).unionAll(df7).unionAll(df8).unionAll(df9)
这是当前输出
name_id | count | date
1 23 2020_01
2 12 2020_01
1 43534 2020_02
2 34534 2020_02
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。