最近在学习开源数据库 PostgreSQL 的解析器部分，需要用到 flex 和 bison，花了一些时间学习了一下，把目前已经搞清楚的地方和大家交流交流。如果有不对的地方，欢迎指正

1. flex 和 bison 是什么东西？用来干什么的？

flex和 bison 是两个用来生成程序的工具（这两个工具的用途很广泛，这里只说它在 PostgreSQL 中的使用）。在 PostgreSQL 中，它们被用来生成 SQL 语句的词法和语法分析器。注意，flex 和 bison 本身不是词法或语法分析器，利用它们生成的程序才是。即：

2. 词法和语法分析器是怎么工作的？

任何一种语言，都是有一定的语法规则的，不管是人类的语言，还是计算机语言（如 C/C++ 编程语言等），因此，可以利用这些已知的规则，来对对应的语言进行分析。举个例子，汉语中的一个句子，基本的格式是：主（名词/代词）+ 谓（动词）+ 宾（名词/代词），当你在说一句话的时候，我们把你说的话（输入）先拆分成一个个有意义的字（或词），然后对照该语法，看词性及组合，是否符合既定的语法规范，如果符合，则可以知道你说的话是符合规范的。比如，你说“我吃饭”，输入会被依次拆成“我”“吃”“饭”，他们分别是代词、动词、名词，因此符合上面的语法规则，因此这句话是 ok 的。而如果说“我饭吃”，则会发现与上面的规范不符合（也没有其他符合的规范），因此这句话语法上是有问题的。flex 和 bison 生成的词法和语法分析器就是干的这两件事：flex 生成的词法分析器将输入拆分成一个一个的记号(token)，bison 生成的语法分析器根据已有的规则，分析这些 token 的组合，是否是符合语法规范的。

3. flex/bison 源文件格式

上面已经提到，flex/bison是通过处理其源文件来生词法和语法分析器的，flex 源文件的扩展名为 .l，bison 源文件的扩展名为 .y。它们的格式比较类似，分为三个段：

/* 定义段 */

…

/* 规则段 */

…

/* 用户子程序段 */

…

三个段用 %% 进行分离，

（1）定义段，这一部分一般是一些声明及选项设置等。C 语言的注释、头文件包含等一般就放在 %{ %} 之间，这一部分的内容会被直接复制到输出文件的开头部分，选项后面再说；

（2）规则段为一系列匹配模式和动作，模式一般使用正则表达式书写，动作部分为 C 代码：

模式1 {动作1（C 代码） }

在输入和模式 1 匹配的时候，执行动作部分的代码；

（3）用户子程序段，这里为 C 代码，会被原样复制到输出文件中，一般这里定义一些辅助函数等，如动作代码中使用到的辅助函数。

词法分析器所做的，就是在输入中寻找字符的模式（pattern）。在词法分析器中，我们要给定我们需要识别的模式，因此需要使用一种方式来描述模式，这就是常用的正则表达式。正则表达式在这里不多讲，如果完全不了解，可以问问谷歌或者度娘，花个十几二十分钟看看最基本的部分，基本就能应付现在的需要了。来看一个简单地例子，实际地认识认识（强烈建议自己动手敲代码实践哦！）。

4. flex 小试牛刀

编写以下 flex 源文件（flex_1.l，注意后缀名是 l （字母 L）哦！）：

/* 这里的部分会被直接拷贝到生成的 .c 文件的开始部分，在这里可以包含需要使用的头文件，如 stdio.h

*/
#include <stdio.h>

/* 下面这个 %% 就表示定义段结束了，规则段开始了 */

/* 规则段开始了，下面定义了四条规则，前面的部分就是模式，处于一行的开始位置，后面的部分就是动作，也就是，输入中匹配到了这个模式的时候，对应的进行什么动作，就像你蹲在战壕里，前面出来一个人，你通过匹配知道是敌人，你就开枪一样。第一个模式也就是匹配连续的一个到多个字符，匹配到之后就将其打印出来。注意到 yytext，在输入匹配到该模式的时候，匹配的部分就存储在这个 yytext 里面啦！这里把它作为字符串直接输出就可以了；第二条规则的模式部分，就是匹配连续的一个或者多个数字，匹配到了之后，也是以字符串的形式输出（对于输入，就是一连串的字符，什么转换之类的，就得我们自己操心了）；第三条规则的模式部分，就是匹配一个换行符了，并且匹配到之后就打印一个新行的信息；第四条规则的模式部分，是一个点。正则表达式里面这个也就是匹配任何出了 \n 之外的字符。因此，下面的游戏规则就是，匹配到英语单词（当然，不一定是正确的单词，比如 niubi，暂时先不计较这个），则将该单词输出，匹配到连续数字，将其输出；匹配到换行符，打印一条信息；匹配到任何其他的字符，则直接忽略（{} 也就是动作是空的，就是什么都不做了。什么都不做了那程序该干啥呢？当然是继续识别后面的输入啦！） */

[a-zA-Z]+ { printf(“get word: %s”,yytext); }

[0-9]+ {printf(“get number:%s”,yytext); }

\n {printf(“New line\n”); }

. { }

/* 规则段之后就是用户子程序段了。这里现在我们就空着，先重点关注一下规则段的再说。其实上面这第二个%% 也是可以去掉的哦！不妨动手试试吧！ */

好了，flex 源文件写好了，你一定迫不及待想看看跑起来的样子吧？现在就开始（找个有 flex 的环境，linux 一般都自带，如果你实在不想用 Linux，那就在 windows 上装一个吧！个人建议直接在 windows 上装一个 cygwin，很多 GNU 的工具都可以使用）:

tom@linux-oqq5:~/mycode/flex_bison>flex flex_1.l

tom@linux-oqq5:~/mycode/flex_bison>ll

total 48

-rw-r--r-- 1 tom users 170 May 17 21:53 flex_1.l

-rw-r--r-- 1 tom users 41617 May 1722:08 lex.yy.c

可以看到，生成了一个名字为lex.yy.c 的 C 源码文件，如果有兴趣的话，可以打开该 C 文件看看。这一步，也就是 flex 通过 flex 源码文件，生成了一个词法分析器的 C 源码文件了。那么下一步做什么呢？当然就是编译这个词法分析器的源码文件，生成词法分析器程序啦（暂且就叫它 scanner 吧，注意要带上-lfl链接flex的库，否则会报一些函数找不到）！

tom@linux-oqq5:~/mycode/flex_bison> gcc -o scanner lex.yy.c -lfl

tom@linux-oqq5:~/mycode/flex_bison> ll

total 68

-rw-r--r-- 1 tomusers 170 May 17 21:53 flex_1.l

-rw-r--r-- 1 tom users41617 May 17 22:08 lex.yy.c

-rwxr-xr-x 1 tom users17447 May 17 22:16 scanner

注意到我们在编译的时候，链接了一个库 fl，这个是 flex 提供的一个库，生成的词法分析器里面会用到这个库里面的一些东西。这个里面也包括内置的 main 函数，回头看看，上面的 flex 源文件中，是不是没有 main 函数的？最后的入口 main，就是来自这个库啦！当然，也可以自己写 main 函数，就在用户子程序段，不过得调用词法分析器的入口程序才行哦！这个入口函数就是 yylex()。一会儿再看看最后的那个例子吧！现在可以看到，生成了一个可执行程序 scanner，赶紧试试吧！

1 tom@linux-oqq5:~/mycode/flex_bison> ./scanner

2 Hello,scanner! This isa test string: hi,123

3 get word: Hello

4 get word: scanner

5 get word: This

6 get word: is

7 get word: a

8 get word: test

9 get word: string

10 get word: hi

11 get number: 123

12 New line

为了方便说明，我在上面的各行添加了行号。程序启动后，等待你的输入，我们输入第二行所示的内容，然后敲回车键，则输出如3-12 行所示。从上面的结果可以很清晰地看到，所有的英文单词都被识别了并输出了出来（3-10行），所有数字被识别了出来（11行），最后敲的换行符也被识别出来了（12行），而其他的所有符号，如，！：和空格等，都被忽略掉了，从输出结果中，我们找不到它们的一点踪迹。

通过上面这个例子，应该知道flex的大概的工作原理了吧！当然，我们这里举的例子很简单，动作部分也就是简单地打印。那么，在真实的情况下，又是怎么样的呢？其实，道理是一样的。一般词法分析器和语法分析器会一起使用，语法分析器会调用词法分析器来读取输入，词法分析器匹配到特定的模式后，就向语法分析器报告（类型和值之类的）。也就是说，词法分析器的工作，就是读取、报告、再读、再报告，而语法分析器的工作，就是调用词法分析器读取，以及根据词法分析器的反馈，看输入是否和语法规则匹配。这些，到后面讲到的时候再具体说吧！

再贴一个例子，就不细说了，自己敲敲代码玩玩去体会吧！

下面的 flex 源文件最终生成一个统计输入行数、单词数以及字符个数的程序，类似 Linux 上的 wc 命令，注意要结束输入得到统计结果的时候，按 ctrl + d：

int chars = 0;

int words = 0;

int lines = 0;

[a-zA-Z]+ {words++; chars += strlen(yytext); }

\n { chars++; lines++; }

. { chars++; }

main(int argc,char **argv)

{

yylex();

printf("%8d%8d%8d\n",lines,words,chars);

}

哦，说了这半天，忘了推荐书籍了，呵呵~~我主要就看一本书《flex & bison》，这是曾经的传说《lex & yacc》的经典延续，上面这个统计的例子就是这本书里面的。手头不缺这两个钱的童鞋，需要的话建议可以留一本在案头，可随时查阅。

flex&bison 学习笔记

1. flex 和 bison 是什么东西？用来干什么的？

2. 词法和语法分析器是怎么工作的？

3. flex/bison 源文件格式

4. flex 小试牛刀

相关推荐