如何解决Spark数据帧没有利用工人
我有一个带有3个工作程序节点的Spark集群,当我尝试从hdfs加载csv文件时,它仅利用了我通过spark-shell(使用的主节点)加载csv的系统上的资源(cpu和内存)
加载数据框
val df = spark.read.format("csv")
.option("header","true")
.load("hdfs://ipaddr:9000/user/smb_ram/2016_HDD.csv")
对数据框进行一些操作
df.agg(sum("failure")).show
当我加载csv时,系统内存增加1.3 GB,这是hdfs文件大小和100%CPU使用率。工作人员使CPU的空闲率接近0%,并且内存使用率没有变化。理想情况下,我希望所有繁重的工作都由没有发生的工人完成。
解决方法
将火花模式设置为可以解决问题的群集。看来您的工作正在客户端模式下运行。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。