PostgreSQL逻辑优化——整体架构

小编说：PostgreSQL作为一个优秀的数据库产品，其本身有着非常多值得学习和研究的地方。《PostgreSQL查询引擎源码技术探析》则是一本难得的专门介绍和研究PostgreSQL查询引擎的专著。

本文选自《PostgreSQL查询引擎源码技术探析》，点击阅读原文了解更多详情。

中间六边形分割线

一棵完成transform和rewrite操作的查询树是否是一棵最优的查询树？如果不是，那么又该如何对该查询树进行优化？而优化所使用的策略正是本节要讨论的重点内容，而且优化部分也是整个查询引擎的难点。

子链接（SubLink）如何优化？子查询（SubQuery）又如何处理？对表达式（Expression）如何进行优化？如何寻找最优的查询计划（Cheapest Plan）？哪些因素会影响JOIN策略（Join Strategies）的选择，而这些策略又是什么？查询代价（Cost）又是如何估算的？何时需对查询计划进行物化（Plan Materialization）处理等一系列的问题。

在查询计划的优化过程中，对不同的语句类型有着不同的处理策略：

（1）对工具类语句（例如，DML、DDL语句），不进行更进一步的优化处理。

（2）当语句为非工具语句时，PostgreSQL使用pg_plan_queries对语句进行优化。

与前面一样，PostreSQL也提供定制化优化引擎接口，我们可以使用自定义优化器planner_hook，或者使用标准化优化器standard_planner。

Pg_plan_queries的函数原型如下所示。

逻辑优化——整体架构介绍

在未使用第三方提供的优化器时，PostgreSQL将planner函数作为优化的入口函数，并由函数subquery_planner来完成具体的优化操作。从下图中的Call Stack我们可以看出planner与subquery_planner之间的调用关系。

函数以查询树作为输入参数，并以优化后语句作为返回值。

在standard_planner中，首先处理“DECLARE CURSOR stmt”形式的语句，即游标语句，并设置tuple_fraction值。那么tuple_fraction又是什么呢？

tuple_fraction描述我们期望获取的元组的比例，0代表我们需要获取所有的元组；当tuple_faction Î(0,1)时，表明我们需要从满足条件的元组中取出tuple_faction这么多比例的元组；当tuple_factionÎ [1,+¥ )时，表明我们将按照所指定的元组数进行检索，例如，LIMIT语句中所指定的元组数。

完成对tuple_faction的设置后，进入后续优化流程，subquery_planner的函数原型如下所示。

这里也许读者会迷惑，为什么是subquery_planner呢？从名字上看该函数像是用来处理子查询，那么为什么用来作为整个查询语句优化的入口呢（Primary Entry Point）？

子查询语句作为查询语句的一部分，很大程度上与父查询具有相似的结构，同时两者在处理方式和方法上也存在着一定的相似性：子查询的处理流程可以在对其父查询的过程中使用。例如，本例中的子查询语句SELECT sno FROM student WHERE student.classno = sub.classno，其处理方式与整个查询语句一样。因此，使用subquery_planner作为我们查询优化的入口，虽然从函数名上来看其似乎是用于子查询语句的处理。

由gram.y中给出的SelectStmt的定义可以看出，其中包括了诸如WINDOWS、HAVING、ORDER BY、GROUP BY等子句。那么subquery_planner函数似乎也应该有相应于这些语句的优化处理。就这点而言，subquery_planner与原始语法树到查询树的转换所采取的处理方式相似。根据上述分析，我们可给出如下所示的subquery_planner的函数原型。

按照上述给出的原型，只要完成假定的process_xxx函数，就可以实现对查询语法树的优化工作。是不是觉得很简单？当然不是，原理很简单，但是理论与实际还有一定的距离。例如，如何处理查询中大量出现的子链接？如何对d算子执行“下推”？如何选择索引？如何选择JOIN策略？这些都需要我们仔细处理。

PostgreSQL给出的subquery_planner如下所示。

由PostgreSQL给出的实现可以看出，核心处理思想与我们讨论的相一致：依据类型对查询语句进行分类处理。

这里需要读者注意的一点就是查询计划的生成部分，PostgreSQL将查询计划的生成也归入subquery_planner中，但为了方便问题的讨论，我们并未将查询计划的生成部分在subquery_planner中给出。我们将查询优化的主要步骤总结如下：

处理CTE表达式，ss_process_ctes；

上提子链接，pull_up_sublinks；

FROM子句中的内联函数，集合操作，RETURN及函数处理，inline_set_returning_ functions；

上提子查询，pull_up_subqueries；

UNION ALL语句处理，flatten_simple_union_all；

处理 FOR UPDATE（row lock）情况，preprocess_rowmarks；

继承表的处理，expand_inherited_tables；

处理目标列（target list），preprocess_expression；

处理withCheckOptions，preprocess_expression；

处理 RETURN表达式，preprocess_expression；

处理条件语句-qual，preprocess_qual_conditions；

处理HAVING子句，preprocess_qual_conditions；

处理WINDOW子句，preprocess_qual_conditions；

处理LIMIT OFF子句，preprocess_qual_conditions；

WHERE和HAVING子句中的条件合并，如果存在能合并的HAVING子句则将其合并到WHERE条件中，否则保留在HAVING子句中；

消除外连接（Outer Join）中的冗余部分，reduce_outer_joins；

生成查询计划，grouping_planner。

博文视点

您阅读的专业智库

喜欢请分享至朋友圈

了解更多本书详情请点击阅读原文

长按二维码轻松关注

点击阅读原文，即可快速抵达本书详情页！

PostgreSQL逻辑优化——整体架构

博文视点

相关推荐