如何解决函数 to_date 和 BETWEEN 对大表的慢查询
我使用的是 PostgreSQL,我使用以下查询:
SELECT r.name,count(r.name)
from rooms r
where to_date(dateinput,'YYYYMMDD') between r.start_date and r.end_date
or to_char(r.end_time,'HH24:MI:SS')<> '00:00:00')
and (r.name in ('nameA','nameB'))
group by r.name
当我的表有 900.000 行时,它非常慢。我在 start_date
、end_date
和 name
列上创建了一个索引。它在 1543 毫秒内执行。 end_time
的数据类型为 time without time zone
。
但是当我将查询更改为
SELECT r.name,count(r.name)
from rooms r
where cast(dateinput as date) >= r.start_date
and cast(dateinput as date) < r.end_date
and r.name in ('nameA','nameB')
or to_char(r.end_time,'nameB'))
group by r.name
执行时间减少到 786 毫秒。我认为 to_date
和 between
使索引无法运行。我找不到任何文档或示例来解释为什么在使用 to_date
和 between
时不能使用索引。我不知道为什么修改查询会将时间减少到 786 毫秒。有人可以帮我吗?
解决方法
索引不能用于任一查询,执行时间的差异可能是因为第一个查询必须从磁盘读取更多数据,而在第二个查询期间它们已经缓存在 RAM(共享缓冲区)中。
>奇怪的 OR
条件使得这个查询很难高效,而且 to_char(r.end_time,'HH24:MI:SS')
无法索引(我不明白它的意思)。
您将不得不在没有 OR
的情况下重写查询(使用 UNION
)并以不同的方式表达 end_time
上的条件,然后您可以使用索引来加快速度。
我会像这样重写查询:
SELECT r.name,count(r.name)
FROM (SELECT r.name
FROM rooms r
WHERE to_date(dateinput,'YYYYMMDD') <@ daterange(r.start_date,r.end_date,'[]')
AND r.name IN ('nameA','nameB')
UNION
SELECT r.name
FROM rooms r
WHERE r.end_time <> TIME '00:00:00'
AND r.name IN ('nameA','nameB')
) AS r
GROUP BY r.name;
这些索引可能会有所帮助:
CREATE INDEX ON rooms USING gist (daterange(r.start_date,'[]')) WHERE r.name IN ('nameA','nameB');
CREATE INDEX ON rooms (name) WHERE r.end_time <> TIME '00:00:00' AND r.name IN ('nameA','nameB');
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。