在启动后的几分钟内，Cassandra因内存不足而崩溃

如何解决在启动后的几分钟内，Cassandra因内存不足而崩溃

我们使用EC2Snitch在AWS上拥有一个具有3个节点和复制因子3的Cassandra集群。

实例类型为c5.2xlarge（8核和16GB RAM）。

集群一直运行良好，但是从昨天晚上突然开始，所有节点上的cassandra进程开始崩溃。它们设置为自动重新启动，但是在启动后1或2或3分钟内，它们会因内存不足堆空间错误而崩溃。

堆配置：

MAX_HEAP_SIZE="4G"
HEAP_NEWSIZE="800M"

此后，我们尝试将节点大小增加到r5.4x或128 GB内存，并分配了64GB堆，但是仍然发生同样的事情，而不管所有3个节点正在启动还是一次仅启动一个节点。我们可以注意到，第一次垃圾收集是在一段时间后发生的，然后在几秒钟内连续发生，无法释放更多的内存并最终崩溃。

我们不确定启动后立即将什么内容拉到内存中。

其他参数：

卡桑德拉版本：2.2.13
数据库大小为250GB
hinted_handoff_enabled: true
commitlog_segment_size_in_mb: 64
memtable_allocation_type: offheap_buffers

在这里的任何帮助，将不胜感激。

编辑： 我们发现查询特定表时，它会导致casssandra节点崩溃。

cqlsh:my_keyspace> select count(*) from my_table ;
ReadTimeout: Error from server: code=1200 [Coordinator node timed out waiting for replica nodes' responses] message="Operation timed out - received only 0 responses." info={'received_responses': 0,'required_responses': 1,'consistency': 'ONE'}

所以我们认为，这与该特定表中的数据损坏/巨大有关。谢谢。

解决方法

一些快速观察：

如果要构建新集群，请使用最新的3.11.x版本。在2.2上构建新版本是没有意义的。
根据您的设置，看起来您正在使用CMS GC。如果您不太熟悉GC调整，则可以通过切换到G1并 not 指定HEAP_NEWSIZE来获得更高的稳定性（G1会自行计算Eden大小）。
如果您受制于CMS，将HEAP_NEWSIZE设置为100mb x内核的指导是错误的。为了避免新旧升级，将HEAP_NEWSIZE设置为堆总大小的40％-50％，并将MaxTenuringThreshold增加到6-8。
在具有CMS GC的16GB RAM计算机上，我将使用8GB堆，并将memtable_allocation_type: offheap_buffers翻转回heap_buffers。
将commitlog_segment_size_in_mb设置为32。通常，当人们需要弄乱它时，它是降低，除非您也更改了max_mutation_size_in_kb。
您没有提到崩溃发生时应用程序正在做什么。我怀疑正在发生大量写操作。在这种情况下，您可能需要三个以上的节点，或者在应用程序端查看速率限制正在进行的写入次数。

可帮助您的其他信息：

CASSANDRA-8150-有关良好的JVM设置的Cassandra提交者讨论。

Amy's Cassandra 2.1 Tuning Guide-艾米·托比（Amy Tobey）的管理指南对集群配置的良好默认设置有很多了解。

修改

我们正在使用G1 GC。

非常重要的是，您不用G1设置堆的新大小（Xmn）。确保将其注释掉。

从my_table中选择count（*）；

是的，未绑定的查询（没有WHERE子句的查询）绝对会给节点带来不必要的压力。特别是如果桌子很大。这些类型的查询是Cassandra不能很好完成的。寻找使用/需要此结果的方法。

您可能可以通过设置较小的页面大小（驱动程序侧）或使用类似Spark的方法来使其工作。或者也许通过令牌范围查询，然后将结果汇总到应用程序端。但是不这样做会更好。

除了@aaron提出的CG和内存调整建议外，您还应该检查是否对数据使用了正确的压缩策略。

https://docs.datastax.com/en/dse/5.1/dse-dev/datastax_enterprise/config/configChooseCompactStrategy.html#Whichcompactionstrategyisbest

您还应该检查是否有损坏的SStables，因为尝试获取损坏的数据也将以相同的方式表现出来。（例如https://docs.datastax.com/en/cassandra-oss/3.0/cassandra/tools/toolsScrub.html）

在启动后的几分钟内，Cassandra因内存不足而崩溃

如何解决在启动后的几分钟内，Cassandra因内存不足而崩溃

解决方法

相关推荐