如何解决使用新的JOBID重新排队
是否可以设置一些重新排队选项,以便在Slurm决定重新排队作业时更改JOBID。 (例如,在节点故障之后) 这样,与第一个JOBID关联的文件夹就不会被覆盖。
谢谢
解决方法
重新排队的作业仍然是相同的作业,因此作业ID不会更改。
您可以做的是通过--no-requeue
防止重新排队。但是随后,您将需要手动或使用工作流管理器重新提交作业。
另一种选择是将重新启动计数添加到文件夹名称。例如,如果您的提交脚本中有一行,例如
WORKDIR=/some/path/${SLURM_JOB_ID}
mkdir -p $WORKDIR
cd $WORKDIR
您可以将其替换为
mkdir -p /some/path/${SLURM_JOB_ID}${SLURM_RESTART_COUNT}
mkdir -p $WORKDIR
cd $WORKDIR
在第一次运行时,将$SLURM_RESTART_COUNT
保留为原来的行为,但是将其设置为1、2,依此类推,从而有效地给作业ID加上了重新排队编号。 >
对于输出文件的名称,可以使用--open-mode=append
来在作业重新启动时避免覆盖输出文件。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。