如何解决同时运行约10个批处理作业时,Flink纱线会话模式变得不稳定
我正在尝试建立一个flink-yarn会话来运行大约100多个批处理作业。连接到〜40个任务管理器并正在运行约10个作业(每个任务管理器都有2个插槽和1GB内存)后,会话似乎变得不稳定。有足够的可用资源。 flink UI突然变得不可用,我想作业管理器可能已经死了。最终,纱线应用也被杀死。
作业管理器在4个核心16GB节点12 GB可用的内存上运行
有没有关于作业管理器资源及其可处理任务管理器数量的数学指南?
解决方法
我已解决此问题。 flink会话中断的原因是群集中工作计算机的带宽较低。运行任务管理器容器的工作计算机应至少具有750Mbps或更高的速度。每个任务管理器都有2个插槽和1GB内存,适度的带宽〜450Mbps不会减少它。如果工作是IO密集型工作,角色(工作经理与工人或工人与工人之间)之间的通信可能会超时(默认要求超时为100ms)。
我决定不增加询问超时时间,以免由于这个瓶颈而导致工作花费很长时间。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。