保存和查询股票价格的数据库选择

如何解决保存和查询股票价格的数据库选择

我目前正在从证券交易所接收每秒2000的价格，并且需要将其保存在适当的数据库中。我当前的选择是PostgresQL，它太慢了。我需要以汇总形式（例如OHLC）保存这些价格（价格）。因此，例如，如果要保存D1数据，则需要首先从数据库中获取股票的先前D1记录，检查高价或低价是否已更改并设置新的收盘价，然后将其再次保存到数据库中。这是永远的，而Postgres不可能做到。我不想保存OHLC数据，我更喜欢实时查询（汇总）这些数据。

所以我的要求是：

持久性
快速写入（目前每秒2k，最高10k）
查询，例如实时（每秒50-100次）汇总OHLC数据
可用于任何现代编程语言而无需编写原始查询（对于该数据库，Python使用SDK或该数据库使用JS）
可在AWS或GCP上轻松部署

我在考虑Apache Cassandra。我不熟悉Cassandra，像OHLC这样的强大查询是否可能？卡桑德拉有替代品吗？

谢谢！

解决方法

鉴于我从您的问题中了解的内容，我相信Cassandra应该可以轻松满足您的用例。

关于您的要求：

持久性：Cassandra不仅可以持久存储您的数据，而且还可以以最少的配置覆盖冗余；
快速写入：这是Cassandra最优化的目标，尽管确切的吞吐量取决于很多因素，但一般而言，Cassandra会处理以千/秒/核心为单位的写入；另外，写入的最终次数并不实际相关，因为Cassandra可以线性扩展而没有实际损失，因此5k，10k，100k或更多都可行；
适应性：Cassandra拥有适用于最常见语言（Python，C系列，NodeJs，Java，Ruby，PHP，Scala）的官方驱动程序，以及社区开发的适用于更多语言（{{3 }}）;
可部署：在云中部署非常容易。您可以选择将其手动部署在独立的实例上，也可以使用托管的Cassandra集群（AWS有一个集群，称为“ AWS Keyspaces ”，Datastax（负责驱动Cassandra的大部分开发工作的公司）拥有一个集群。称为“ Astra ”，还有更多可能的解决方案。考虑到Cassandra是大数据存储的主要参与者之一，在云中找到DB的位置应该很容易。 / li>

我只提到了5个要求中的4个。那是因为在谈论阅读时，事情变得更加复杂，需要进行更大的讨论。

假设每秒2k +写入量，则

500-100次读取/秒似乎与Cassandra的一般思想相一致，后者是针对写入密集型任务进行优化的。在Cassandra中，您对表进行建模的方式将决定事物的工作状况。对于像您描述的任务，我的第一个想法是：

您每天存储每只股票=>您将得到一个分区，该分区大约有3万行（8个交易小时内每秒更新1次），大小小于0.2MB（30k * 4B）。这将完全在建议值之内，并且在最坏情况下也很明显；
当您需要汇总数据时，有两种选择：

2a。您按原样读取分区并在应用程序端聚合该分区（我会建议）；

2b。您在数据库上实现了一个“ 用户定义的聚合”功能，即可完成工作（list of divers）。尽管我不能保证，但这应该可行。除了难以实现之外，问题在于，鉴于您的明显用例，可能不希望在数据库上放置这种额外的工作负载。让我解释一下：我希望您的阅读负荷在某些时间（交易时间之前，期间和之后）处于最活跃状态，而负荷较轻。根据您的体系结构，您可以在高峰时间启动多个应用程序实例，然后在非高峰期将其缩减以降低成本。虽然可以在AWS和GC等云提供商上轻松扩展应用程序。卡萨纳德拉（Cassanadra）无法像这样放大和缩小（早上5个节点，晚上3个节点，依此类推）（当然可以，但它并非旨在这样做，这将是一个糟糕的决定）。因此，将尽可能多的非恒定工作负载移至应用程序似乎是最好的主意；

（可选）有一个工作人员，在工作日/交易日结束时，它将汇总每只股票的值并将其保存到另一张表中，以便在查看历史数据时会更容易。这些数据甚至可以按周，月甚至一年进行存储，具体取决于聚合数据占用的空间。

您还可以在Casandra前面添加Spark和Kafka，以提供一种更强大的实时聚合方法，但我们不应将眼前的问题偏离太多。

Cassandra在正确的建模和正确的体系结构方面非常强大。乍一看，您所需要的似乎很适合Cassandra，但功能却强大，如果您以非设计方式使用它，就会变得很糟糕。我希望这个答案能帮助您做出正确的决定。

干杯。

保存和查询股票价格的数据库选择

如何解决保存和查询股票价格的数据库选择

解决方法

相关推荐