如何解决窗口中的总行数
在Pyspark中,我试图对数据框中的所有行进行计数。
在Hive上,我可以执行以下操作:
count(1) OVER () as biggest_id
但是在pyspark上,我不确定如何执行它。这是我尝试过的:
df_new = (
df.withColumn('biggest_id',F.count(F.lit(1)).over())
)
通常,over参数需要一个窗口语句,但是我在如何做到这一点上还没有成功。
解决方法
尝试一下。不允许无,但可以使所有窗口成为窗口。
.over(Window.partitionBy())
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。