如何解决Spark集群中可用资源有限
如果我有一个大小为10GB的数据集,而spark集群中只有10GB的资源(执行程序)可用,那么它将如何以编程方式进行处理?
解决方法
您似乎假设Spark可用的内存必须等于或超过数据的大小。事实并非如此。 Spark将根据需要溢出到磁盘上。
此外,压缩将缩小数据的内存占用量。
底线:继续操作而不保留数据(.cache()
)。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。