如何解决在日期字段上使用索引时,PostgreSQL表导出查询的性能低下
我在使用postgresql表时遇到问题。该表有14列,其中2列的索引如下:
Column | Type | Modifiers
---------------------+------+-----------
u_id | text | not null
p_date | date | not null
...
Indexes:
"unq_uid_pdate" UNIQUE CONSTRAINT,btree (u_id,p_date)
"pdate_idx" btree (p_date)
表的大小约为50亿行,u_id中总共有约1000万个不同的值,每个p_date中的u_id平均有约500个不同的值。
当我尝试通过u_id导出或不使用任何过滤器时,性能达到每秒40万行的良好速度,并且不会随时间大幅下降。
psql "..." -c "\\copy (SELECT u_id,p_date FROM l_nights) to stdout with csv header" | pv --line-mode --rate > /dev/null
[ 468k/s]
[ 485k/s]
[ 497k/s]
[ 435k/s]
但是,如果我要导出特定p_date的大约1000万行,则性能非常差,从每秒几千行开始,并在几分钟内达到停顿状态。添加limit
的行为是相同的:
psql "..." -c "\\copy (SELECT u_id,p_date FROM l_nights where p_date = '2020-06-01' limit 50000) to stdout with csv header" | pv --line-mode --rate > /dev/null
[1.09k/s]
[1.28k/s]
[1.48k/s]
[3.01k/s]
[ 954 /s]
[1.40k/s]
[ 918 /s]
[ 849 /s]
[ 383 /s]
[ 364 /s]
[ 358 /s]
[0.00 /s]
[ 170 /s]
[0.00 /s]
查询使用的是正确的索引,基于解释响应:
explain analyse select u_id,p_date from l_nights where p_date = '2020-06-01' limit 50000;
QUERY PLAN
---------------------------------------------------------------------------------------------------------------------------------------------------------------
Limit (cost=0.72..158646.09 rows=50000 width=15) (actual time=9.672..207430.728 rows=50000 loops=1)
-> Index Scan using pdate_idx on l_nights (cost=0.72..233913736.58 rows=73722207 width=15) (actual time=9.671..207396.204 rows=50000 loops=1)
Index Cond: (p_date = '2020-06-01'::date)
Planning Time: 0.182 ms
Execution Time: 207451.360 ms
基于当前性能,在我看来,即使对列进行了索引,搜索仍在进行完整扫描。其他导出策略(例如在node.js中获取postgresql游标)的行为也相同。
我在做什么错了?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。