Cassandra无限行响应

如何解决Cassandra无限行响应

我正在使用Cassandra python驱动程序，该驱动程序包含具有38500000行的表。我正在使用我们正在开发的产品对各种数据库进行基准测试。为了对选择进行基准测试，我使用了一个过滤器，该过滤器应返回包含3个选择列的大约一半行（然后我改变选择列以查看哪个表现最好）。但是，在使用Cassandra时，每个查询每次只能获得57016个结果（必须有一定的上限）。我已经尝试过使用SimpleStatement并设置fetch_size = 38500000，但这没有用。我想知道是否应该更改某些参数，因为除了Cassandra如何分解超出fetch_size的页面之外，我在文档中找不到任何内容。

[编辑]

要添加更多信息，查询将返回：

cassandra.ReadFailure: Error from server: code=1300 [Replica(s) failed to execute read] message="Operation failed - received 0 responses and 1 failures" info={'consistency': 'LOCAL_ONE','required_responses': 1,'received_responses': 0,'failures': 1} 我使用session.default_fetch_size = None之后。然后，在将逻辑删除增加到tombstone_failure_threshold: 10000000并让gc_grace_seconds = 0之后，我仍然遇到相同的错误。我也进入了Cluster.py并设置了_default_timeout = 1000，但这并没有导致任何结果。

[编辑2] 通过调试控制台，错误为： <SELECT * FROM mydb.facttable WHERE int64 > 0 LIMIT 38500000>,total time 5007 msec,timeout 5000 msec，那么我又可以在哪里修改超时5000毫秒参数？

解决方法

嗨，

好消息是我可以解释您的情况和问题，但坏消息是我认为没有简单的解决方法。

为您提供简短的答案和解决方案：
读取失败是因为Cassandra采取了适当的保护措施来防止“故障”或“恶意”查询损害整个群集的性能。因此，有一个读取超时（如您在EDIT2中发现的那样），默认为 5000ms 。如果您需要增加该值，则需要修改 cassandra.yaml 中的read_request_timeout_in_ms。

但这不是真正的解决方案。

现在，很长的答案：
据我了解，您的查询针对您希望Cassandra过滤的38M行，然后返回大约1900万行。我可以看到在具有精心设计的表格和大量微调的生产硬件上实现的价值。根据EDIT1中的信息，您似乎正在使用一个单节点群集，因此我想这是一个很小的开发节点，甚至可能托管在您的笔记本电脑/ PC上。虽然共享表架构和查询本来可以提供更多信息并提供更多建议，但总的来说，问题仍然在于您试图在功能明显不足的集群（实际上是节点）上运行任务。
根据您的数据，该节点每秒可以处理超过20k行（并返回10k），然后再超时。根据我的经验，这似乎与低资源开发节点是一致的。由此推论，假设您的节点有足够的内存来存储38M条记录，并且需要花费大约半小时才能通过该记录，并且没有其他配置会造成问题（如果我没有弄错，计算）。对于查询而言，即使对于管理查询而言，这也是很长的时间。尝试处理这么多行时，您不仅应该尝试按比例使用硬件来运行查询，还应该：

避免全面扫描（您应该始终尝试击中单个分区，如果不是这种情况，您可能应该重新考虑数据库模型）；
大多数分区应该在10MB以下，所有应该在100MB以下；
分区上限为20亿个单元（（行数）*（每行平均单元数））时，通常应保持在10万个单元以下。

鉴于通常如此接受的3种“最佳实践”以及您提供的数据，我倾向于认为您没有实施3种实践中的至少2种。再加上动力不足的硬件导致缺乏一个简单的解决方案（例如只是增加超时值）。
我对真正解决问题的建议是：

如果仅这样做是为了测试您的代码或其他方法，则与开发版服务器相比，应使用具有一定功能的“开发服务器”功能的数据量。鉴于大量必需的行使我认为DB模型可能存在问题，您仍然应该确保正在使用的Cold模型可以在生产中有效运行。
使用有关您的情况，当前架构和期望结果的信息来打开另一个问题，您将获得有关建模用例的帮助。如果正确使用Cassandra可能会非常强大，但是如果使用不当，效率可能会非常低。

希望这会有所帮助，
干杯。

Cassandra无限行响应

如何解决Cassandra无限行响应

解决方法

相关推荐