高效检索列族

如何解决高效检索列族

| 最近，我遇到了从单列族的单行中高效检索几列的问题。目前，我正在使用Pelops作为Cassandra API。问题是如果我想从多个范围中获取列，该怎么办。如果我能一次根据几个切片从家族中获得色谱柱，那将是很容易的，但是我做不到。例如，我有一个家庭，他们的列数很多。其中一些具有通用前缀，例如\“ group / xxx \”，其中xxx是标识符。还有几列，例如\“ a \”，\“ b \”，\“ c \”。现在，我想将这些列放在一起，所以我必须定义两个切片，并两次调用getColumnsFromRow。如何从效率上解决这个问题？ Cassandra是否以某种方式缓存了最近检索到的列族，并且第二次调用getColumnsFromRow不会再次进行搜索？

解决方法

因为您已经滚动了自己的复合列名称，所以基本上必须发出多个get_slice调用。这不是一个非常大的效率问题，因为这些列在同一行中，并且，如果您正确选择了比较器，则应该是单个磁盘搜索。对同一行的后续查询应在OS的磁盘缓存中击中表的此部分（OS级别，与Cassandra无关）。行缓存是为经常访问整个内容（例如序列化对象或类似对象）的小行设计的。对于这样的大行，它们实际上将施加大量的内存压力。我建议为此CF禁用行缓存。如果您需要，可以通过以下调整进行一些其他调整： -拒绝read_repair_chance -启用``结果固定''：https://github.com/apache/cassandra/blob/cassandra-0.7.0/conf/cassandra.yaml#L229-236 这将使您的0S \ S文件系统缓存更有效地工作，因为相同的主机将处理相同的查询，并且随后的切片将理想地在同一SSTable中的行的各个部分上进行操作，从而在FS缓存中进行。（无耻的插件-但在这些情况下实际上很有用）。另外，请考虑免费下载OpsCenter（http://www.datastax.com/opscenter），并在尝试使用不同选项时观察列系列的指标。这将为您提供一种最有效的方式，专门针对数据构建查询。 , Cassandra确实具有可选的行缓存，但是如果您的行很大，这可能会占用大量内存，因此建议不要这样做。（行缓存是使用存储配置中的rows_cached，row_cache_save_period_in_seconds和preload_row_cache属性按列家庭配置的） http://wiki.apache.org/cassandra/StorageConfiguration说：行缓存可节省更多时间，但必须存储其所有值行，所以它非常占用大量空间。最好只使用行缓存（如果您有热门行）或静态行。

如何解决高效检索列族

解决方法

相关推荐