Spring Batch Job/Step 如何具有状态“STARTING”和 exit_code“EXECUTING”但从未完成？ AWS ECS 上的自动缩放是如何处理的docker？

如何解决Spring Batch Job/Step 如何具有状态“STARTING”和 exit_code“EXECUTING”但从未完成？ AWS ECS 上的自动缩放是如何处理的docker？

我的 Spring Batch 应用程序遇到了一个问题，该应用程序从 Amazon S3 存储桶读取 .csv 文件并将它们写入 postgres 数据库。

我最近有 1 个特定的作业/步骤（基于块），但从未完成。实际上运行了 8 个作业，所有 7 个都成功了除了这个。应该有大约 300,000 条记录写入数据库。检查 Spring Batch 为我们引导的 batch_step_execution 表后，我只能看到写入了 14,500 条记录。此外，我可以看到 status 为 STARTING，exit_code 为 EXECUTING。

此外，batch_job_execution 元数据表列出了 status STARTED 和 exit_code UNKNOWN。

现在，我的假设是，我 99.9% 确定发生了什么 - 这个 Spring Batch 应用程序是 Docker 化的（在 Docker 容器中）并托管在 AWS ECS（弹性容器服务）上。现在我已启用自动缩放功能，有 1 个最小容器和 2 个最大容器。

我能够在这个作业应该运行的那天晚上看到，AWS ECS 上的一个新容器被“启动”或实例化来处理这个特定的作业 (job_execution_id 552 ）。我可以在我的日志中看到，这个容器似乎被 AWS“杀死”了（我仍然不确定发生了什么 - 很可能它超过了内存限制，或者 ECS 开始“耗尽”（也就是删除容器实例）容器，因为它仅在 CPU > 30% 或内存 > 80% 时自动缩放。

我认为这是一个很好的小图，可以显示 2 个 Spring Batch 容器和我所描述的场景：

TL;DR

Spring 批处理应用程序在 AWS ECS 上运行 1 分钟。最多 2 个容器。
有一天晚上我开始了一个批处理作业，然后随机停止，状态为 STARTED，退出代码为 EXECUTING。它从未恢复。
我在日志中看到，这个特定的作业在一个全新的容器上启动，而我的其他 7 个作业在不同的容器上启动（但是都是同一个容器）并且它们成功了。相关作业失败。

问题：

Spring Batch 如何处理自动缩放？如果 cpu/内存负载触发自动缩放（水平），我如何确保我的 Spring Batch 应用程序将在全新的容器上启动作业，并且它会正确完成，而不会中途崩溃？如果负载下降，或者任何容器的内存超过任务定义文件设置的硬限制（我在下面列出了我的规格，CPU 168，memoryReservation），ECS 容器将“耗尽”或删除任务（基本上是容器） 1280 和内存（硬限制）2048)
假设上述最坏情况发生，是否可以修改 Spring Batch 中的 Step 逻辑以恢复 Step/Job？我可以将步骤或某个流程标记为 FAILURE 状态并以某种方式让作业恢复吗？我正在运行一个 TaskExecutor 这使它成为多线程步骤/块 - 重新运行作业/步骤是否有可能使用 TaskExecutor 和多线程步骤/块？我只是从 CSV 文件中以 250 个块为单位读取项目并将它们写入数据库。我有处理异常的逻辑，以便 Step 跳过该项目并继续处理 - 我可以添加任何类型的逻辑或功能来防止状态为 STARTED 且 exit_code 为 EXECUTING 的情况?

似乎一个具体的“失败”会更容易处理，但在这种情况下，它就像一个不确定状态或炼狱，似乎很难防止，至少在应用程序代码中是这样。

Spring Batch Job/Step 如何具有状态“STARTING”和 exit_code“EXECUTING”但从未完成？ AWS ECS 上的自动缩放是如何处理的docker？

如何解决Spring Batch Job/Step 如何具有状态“STARTING”和 exit_code“EXECUTING”但从未完成？ AWS ECS 上的自动缩放是如何处理的docker？

相关推荐