如何解决在SLURM服务器上为作业分配更多节点是否会增加可用RAM?
我正在使用需要大量RAM的程序。目前,我正在SLURM群集上运行它。每个节点具有125GB RAM。将作业提交到单个节点时,由于内存不足,它最终将失败。我刚接触服务器时,我的问题很天真:
使用--nodes标志命令分配更多节点是否会增加提交作业的可用RAM?
例如: 当使用下面的命令分配10个节点而不是1个节点时,程序在与一个节点相同的位置失败。
#SBATCH --nodes=10
是否还有其他方法可以将多个节点的RAM合并为一个作业? 任何建议都欢迎!
解决方法
这取决于您的程序,但很可能不是。
要在Slurm群集(或任何群集)上使用多个节点,您的程序需要以非常特定的方式进行设置,即。您需要进行节点间通信。通常,这是通过MPI完成的,整个程序必须围绕它进行设计。
因此,如果您的程序使用MPI,则它可能能够将工作负载分配到多个节点上。而且即使那样也不能保证内存较低,因为通常这不是并行化的目标。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。