如何解决spark master无法处理并发作业AWS EMR
我正在运行AWS EMR集群(emr-5.30.1,Spark 2.4.5,Livy 0.7.0)。我的服务将作业传递给livy,livy在群集模式下执行“火花提交”以将作业提交给yarn。 spark master是8核16GB机器。
我一次看到约15-20个职位提交给利维公司,就看到了失业的职位。 livy 日志显示“以代码143退出的火花提交” ,表明该进程已被内核或oom处理程序杀死。我无法在任何地方找到更多有关被终止进程的日志。提交这些作业时,监视主节点显示约100%的CPU和约80%的内存。
我尝试使用32GB主盘。该节点可以处理15-20个并行提交的作业,但是当并行作业超过〜30个时失败。
为解决此问题,我正在考虑在服务中加入一个队列,然后逐渐将工作(每8-10秒一次)传递给livy。我不愿意添加队列,因为它需要是分布式的。
我在这里有几个问题
- 这似乎是内存不足的问题,但我看不到明确的日志。我可以断定这是内存错误吗?
- 还有哪些其他替代解决方案/方法可以用来解决此问题。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。