如何解决在pyspark中优化木地板文件
我在pyspark中有大量的计算工作,可以相当迅速地输出为镶木地板格式,但可以在N个分区(其中N已知)上生成数千个〜3Mb文件。我知道我可以在写入之前将数据重新分区到这些分区上,但是从〜2000个节点开始的随机整理工作似乎要花很长时间。鉴于此,我有一个两部分的问题:
-
重新分区然后在一个步骤中写入镶木地板会更好,还是先写入镶木地板然后重新粘贴并再次写入镶木地板,再合并小文件,会更好吗?本质上,这将在最后执行镶木地板优化步骤。请注意,我并不担心存储空间。
-
如果我采用重新贴装和重写的方法,那么以下是执行此操作的最佳方法吗?
df.repartition(N,'partition_name').write.partitionBy('partition_name').saveAsTable(...)
似乎repartition命令引入了另一种慢速随机播放操作,考虑到数据已被分区,实际上并没有必要。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。