如何解决Spark Performance EMR2.4.5和EKS3.0.0
我正在对一些Spark作业进行实验,并且试图比较EMR和EKS上的性能。我使用的硬件是2个m5.2xlarge实例(8个vCore,32 GiB内存)。原因是它是EKS和EMR之间通常共享的硬件实例,因此比较性能更可靠。
我还分享了spark配置:
--conf spark.executor.instances=2 \
--conf spark.executor.cores=3 \
--conf spark.default.parallelism=16 \
--conf spark.executor.memory=4g \
--conf spark.driver.memory=4g \
--conf spark.executor.memoryOverhead=4g
(对于EMR,Spark 2.4.5,对于Kubernetes,Spark 3.0.0)
spark作业从S3读取一些json文件,然后将镶木地板再次存储在S3上。 我系统地在EMR上从S3获得更快的读写(在EMR上大约快23%)。
那可能是因为EMR的s3特定优化吗?有什么可能要做的事情来使Kubernetes上的性能更好?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。