如何解决Ceph MDS会在“ up:replay”中停留数小时 MDS故障转移需要10到15个小时
我们有9个节点的Ceph集群。 Ceph版本是15.2.5。群集具有175 OSD(HDD)+ 3 NVMe作为“ cephfs_data”池的缓存层。 CephFS池信息:
kubectl port-forward --namespace default svc/my-release-mongodb-headless 27017:27017
我们使用了多个活动的MDS实例:3个“活动”和3个“备用”。每个MDS服务器都有128GB RAM,“ mds缓存内存限制” = 64GB。
故障转移到备用MDS实例需要10到15个小时!客户端一直无法访问CephFS。在这段时间内,MDS实例一直处于“ up:replay”状态。看起来MDS恶魔在此步骤中检查了所有文件夹。我们有数百万个文件夹和数百万个小文件。文件夹/子文件夹扫描完成后,CephFS再次处于活动状态。我认为MDS故障转移期间的10个小时停机是意外的行为。有什么方法可以强制MDS将状态更改为活动状态并在后台运行所有必需的目录检查?如何定位根本原因?
P.S .:我们尝试了待机重播,它虽然有帮助,但并未消除根本原因。
解决方法
mds_log_max_segments = 100000是根本原因。该值应小于1000。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。