如何解决高效检索列族
| 最近,我遇到了从单列族的单行中高效检索几列的问题。目前,我正在使用Pelops作为Cassandra API。问题是如果我想从多个范围中获取列,该怎么办。如果我能一次根据几个切片从家族中获得色谱柱,那将是很容易的,但是我做不到。 例如,我有一个家庭,他们的列数很多。其中一些具有通用前缀,例如\“ group / xxx \”,其中xxx是标识符。还有几列,例如\“ a \”,\“ b \”,\“ c \”。现在,我想将这些列放在一起,所以我必须定义两个切片,并两次调用getColumnsFromRow。 如何从效率上解决这个问题? Cassandra是否以某种方式缓存了最近检索到的列族,并且第二次调用getColumnsFromRow不会再次进行搜索?解决方法
因为您已经滚动了自己的复合列名称,所以基本上必须发出多个get_slice调用。
这不是一个非常大的效率问题,因为这些列在同一行中,并且,如果您正确选择了比较器,则应该是单个磁盘搜索。对同一行的后续查询应在OS的磁盘缓存中击中表的此部分(OS级别,与Cassandra无关)。
行缓存是为经常访问整个内容(例如序列化对象或类似对象)的小行设计的。对于这样的大行,它们实际上将施加大量的内存压力。我建议为此CF禁用行缓存。
如果您需要,可以通过以下调整进行一些其他调整:
-拒绝read_repair_chance
-启用``结果固定'':https://github.com/apache/cassandra/blob/cassandra-0.7.0/conf/cassandra.yaml#L229-236
这将使您的0S \ S文件系统缓存更有效地工作,因为相同的主机将处理相同的查询,并且随后的切片将理想地在同一SSTable中的行的各个部分上进行操作,从而在FS缓存中进行。
(无耻的插件-但在这些情况下实际上很有用)。另外,请考虑免费下载OpsCenter(http://www.datastax.com/opscenter),并在尝试使用不同选项时观察列系列的指标。这将为您提供一种最有效的方式,专门针对数据构建查询。
, Cassandra确实具有可选的行缓存,但是如果您的行很大,这可能会占用大量内存,因此建议不要这样做。
(行缓存是使用存储配置中的rows_cached,row_cache_save_period_in_seconds和preload_row_cache属性按列家庭配置的)
http://wiki.apache.org/cassandra/StorageConfiguration说:
行缓存可节省更多时间,
但必须存储其所有值
行,所以它非常
占用大量空间。最好只使用
行缓存(如果您有热门行)或
静态行。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。