如何解决当我在pyspark中的数据帧上使用重新分区时,它给我一个分区大小为零,并将两种类型的键合并在一起
这里是一个例子。单元44的输出显示了不同键的计数,但是当我在单元45中找到分区大小时,它将3和5组合在一起。同样,保存一个分区的大小仍然为零。任何帮助将不胜感激。
解决方法
默认情况下,Spark将HashPartitioner应用于列overint
的值。显然,值3
和5
在经过散列处理后属于同一分区。
您可能要选择RangePartitioner。或者,如果需要完全的灵活性,还可以编写定制Partitioner
类。但是,仅在RDD API上可用,而在结构化API上不可用。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。