flex&bison 学习笔记

最近在学习开源数据库 PostgreSQL 的解析器部分,需要用到 flex 和 bison,花了一些时间学习了一下,把目前已经搞清楚的地方和大家交流交流。如果有不对的地方,欢迎指正

大笑

1. flex 和 bison 是什么东西?用来干什么的?

flex和 bison 是两个用来生成程序的工具(这两个工具的用途很广泛,这里只说它在 PostgreSQL 中的使用)。在 PostgreSQL 中,它们被用来生成 SQL 语句的词法和语法分析器。注意,flex 和 bison 本身不是词法或语法分析器,利用它们生成的程序才是。即:



2. 词法和语法分析器是怎么工作的?

任何一种语言,都是有一定的语法规则的,不管是人类的语言,还是计算机语言(如 C/C++ 编程语言等),因此,可以利用这些已知的规则,来对对应的语言进行分析。举个例子,汉语中的一个句子,基本的格式是:主(名词/代词)+ 谓(动词)+ 宾(名词/代词),当你在说一句话的时候,我们把你说的话(输入)先拆分成一个个有意义的字(或词),然后对照该语法,看词性及组合,是否符合既定的语法规范,如果符合,则可以知道你说的话是符合规范的。比如,你说“我吃饭”,输入会被依次拆成“我”“吃”“饭”,他们分别是代词、动词、名词,因此符合上面的语法规则,因此这句话是 ok 的。而如果说“我饭吃”,则会发现与上面的规范不符合(也没有其他符合的规范),因此这句话语法上是有问题的。flex 和 bison 生成的词法和语法分析器就是干的这两件事:flex 生成的词法分析器将输入拆分成一个一个的记号(token),bison 生成的语法分析器根据已有的规则,分析这些 token 的组合,是否是符合语法规范的。


3. flex/bison 源文件格式

上面已经提到,flex/bison是通过处理其源文件来生词法和语法分析器的,flex 源文件的扩展名为 .l,bison 源文件的扩展名为 .y。它们的格式比较类似,分为三个段:

         /* 定义段 */

%{

%}

%%

         /* 规则段 */

%%

         /* 用户子程序段 */

三个段用 %% 进行分离,

(1)定义段,这一部分一般是一些声明及选项设置等。C 语言的注释、头文件包含等一般就放在 %{ %} 之间,这一部分的内容会被直接复制到输出文件的开头部分,选项后面再说;

(2)规则段为一系列匹配模式和动作,模式一般使用正则表达式书写,动作部分为 C 代码:

模式1            {动作1(C 代码) }

          在输入和模式 1 匹配的时候,执行动作部分的代码;

(3)用户子程序段,这里为 C 代码,会被原样复制到输出文件中,一般这里定义一些辅助函数等,如动作代码中使用到的辅助函数。

词法分析器所做的,就是在输入中寻找字符的模式(pattern)。在词法分析器中,我们要给定我们需要识别的模式,因此需要使用一种方式来描述模式,这就是常用的正则表达式。正则表达式在这里不多讲,如果完全不了解,可以问问谷歌或者度娘,花个十几二十分钟看看最基本的部分,基本就能应付现在的需要了。来看一个简单地例子,实际地认识认识(强烈建议自己动手敲代码实践哦!)。

4. flex 小试牛刀

编写以下 flex 源文件(flex_1.l,注意后缀名是 l (字母 L)哦!):

%{

/* 这里的部分会被直接拷贝到生成的 .c 文件的开始部分,在这里可以包含需要使用的头文件,如 stdio.h

*/
#include <stdio.h>

%}

         /* 下面这个 %% 就表示定义段结束了,规则段开始了 */

%%

/* 规则段开始了,下面定义了四条规则,前面的部分就是模式,处于一行的开始位置,后面的部分就是动作,也就是,输入中匹配到了这个模式的时候,对应的进行什么动作,就像你蹲在战壕里,前面出来一个人,你通过匹配知道是敌人,你就开枪一样。第一个模式也就是匹配连续的一个到多个字符,匹配到之后就将其打印出来。注意到 yytext,在输入匹配到该模式的时候,匹配的部分就存储在这个 yytext 里面啦!这里把它作为字符串直接输出就可以了;第二条规则的模式部分,就是匹配连续的一个或者多个数字,匹配到了之后,也是以字符串的形式输出(对于输入,就是一连串的字符,什么转换之类的,就得我们自己操心了);第三条规则的模式部分,就是匹配一个换行符了,并且匹配到之后就打印一个新行的信息;第四条规则的模式部分,是一个点。正则表达式里面这个也就是匹配任何出了 \n 之外的字符。因此,下面的游戏规则就是,匹配到英语单词(当然,不一定是正确的单词,比如 niubi,暂时先不计较这个),则将该单词输出,匹配到连续数字,将其输出;匹配到换行符,打印一条信息;匹配到任何其他的字符,则直接忽略({} 也就是动作是空的,就是什么都不做了。什么都不做了那程序该干啥呢?当然是继续识别后面的输入啦!) */

[a-zA-Z]+                    { printf(“get word: %s”,yytext); }

[0-9]+                         {printf(“get number:%s”,yytext); }

\n                                {printf(“New line\n”); }

.                                   { }

%%

/* 规则段之后就是用户子程序段了。这里现在我们就空着,先重点关注一下规则段的再说。其实上面这第二个%% 也是可以去掉的哦!不妨动手试试吧! */

好了,flex 源文件写好了,你一定迫不及待想看看跑起来的样子吧?现在就开始(找个有 flex 的环境,linux 一般都自带,如果你实在不想用 Linux,那就在 windows 上装一个吧!个人建议直接在 windows 上装一个 cygwin,很多 GNU 的工具都可以使用):

tom@linux-oqq5:~/mycode/flex_bison>flex flex_1.l

tom@linux-oqq5:~/mycode/flex_bison>ll

total 48

-rw-r--r-- 1 tom users   170 May 17 21:53 flex_1.l

-rw-r--r-- 1 tom users 41617 May 1722:08 lex.yy.c

可以看到,生成了一个名字为lex.yy.c 的 C 源码文件,如果有兴趣的话,可以打开该 C 文件看看。这一步,也就是 flex 通过 flex 源码文件,生成了一个词法分析器的 C 源码文件了。那么下一步做什么呢?当然就是编译这个词法分析器的源码文件,生成词法分析器程序啦(暂且就叫它 scanner 吧,注意要带上-lfl链接flex的库,否则会报一些函数找不到)!

tom@linux-oqq5:~/mycode/flex_bison> gcc -o scanner lex.yy.c -lfl

tom@linux-oqq5:~/mycode/flex_bison> ll

total 68

-rw-r--r-- 1 tomusers   170 May 17 21:53 flex_1.l

-rw-r--r-- 1 tom users41617 May 17 22:08 lex.yy.c

-rwxr-xr-x 1 tom users17447 May 17 22:16 scanner

注意到我们在编译的时候,链接了一个库 fl,这个是 flex 提供的一个库,生成的词法分析器里面会用到这个库里面的一些东西。这个里面也包括内置的 main 函数,回头看看,上面的 flex 源文件中,是不是没有 main 函数的?最后的入口 main,就是来自这个库啦!当然,也可以自己写 main 函数,就在用户子程序段,不过得调用词法分析器的入口程序才行哦!这个入口函数就是 yylex()。一会儿再看看最后的那个例子吧!现在可以看到,生成了一个可执行程序 scanner,赶紧试试吧!

1 tom@linux-oqq5:~/mycode/flex_bison> ./scanner

2 Hello,scanner! This isa test string: hi,123

3 get word: Hello

4 get word: scanner

5 get word: This

6 get word: is

7 get word: a

8 get word: test

9 get word: string

10 get word: hi

11 get number: 123

12 New line

为了方便说明,我在上面的各行添加了行号。程序启动后,等待你的输入,我们输入第二行所示的内容,然后敲回车键,则输出如3-12 行所示。从上面的结果可以很清晰地看到,所有的英文单词都被识别了并输出了出来(3-10行),所有数字被识别了出来(11行),最后敲的换行符也被识别出来了(12行),而其他的所有符号,如,!:和空格等,都被忽略掉了,从输出结果中,我们找不到它们的一点踪迹。

通过上面这个例子,应该知道flex的大概的工作原理了吧!当然,我们这里举的例子很简单,动作部分也就是简单地打印。那么,在真实的情况下,又是怎么样的呢?其实,道理是一样的。一般词法分析器和语法分析器会一起使用,语法分析器会调用词法分析器来读取输入,词法分析器匹配到特定的模式后,就向语法分析器报告(类型和值之类的)。也就是说,词法分析器的工作,就是读取、报告、再读、再报告,而语法分析器的工作,就是调用词法分析器读取,以及根据词法分析器的反馈,看输入是否和语法规则匹配。这些,到后面讲到的时候再具体说吧!

再贴一个例子,就不细说了,自己敲敲代码玩玩去体会吧!

下面的 flex 源文件最终生成一个统计输入行数、单词数以及字符个数的程序,类似 Linux 上的 wc 命令,注意要结束输入得到统计结果的时候,按 ctrl + d:

%{

int chars = 0;

int words = 0;

int lines = 0;

%}

%%

[a-zA-Z]+ {words++; chars += strlen(yytext); }

\n              { chars++; lines++; }

.               { chars++; }

%%

main(int argc,char **argv)

{

    yylex();

   printf("%8d%8d%8d\n",lines,words,chars);

}

 

哦,说了这半天,忘了推荐书籍了,呵呵~~我主要就看一本书《flex & bison》,这是曾经的传说《lex & yacc》的经典延续,上面这个统计的例子就是这本书里面的。手头不缺这两个钱的童鞋,需要的话建议可以留一本在案头,可随时查阅。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


一:display:flex布局display:flex是一种布局方式。它即可以应用于容器中,也可以应用于行内元素。是W3C提出的一种新的方案,可以简便、完整、响应式地实现各种页面布局。目前,它已经得到了所有浏览器的支持。Flex是FlexibleBox的缩写,意为"弹性布局",用来为盒状模型提供最大的灵
1. flex设置元素垂直居中对齐在之前的一篇文章中记载过如何垂直居中对齐,方法有很多,但是在学习了flex布局之后,垂直居中更加容易实现HTML代码:1<divclass="demo">2<divclass="inner">3<p>这是一个测试这是一个测试这是一个测试这是一个测试这是一个测试</p>4</div
移动端开发知识点pc端软件和移动端apppc端软件是什么,有哪些应用。常见的例子,比如360杀毒,photoShop,VisualStudioCode等等移动端app是什么,有哪些应用。常见的例子,比如手机微信,手机qq,手机浏览器,美颜相机等等PC端与移动端的区别第一:PC考虑的是浏览器的兼容性,移动端考
最近挺忙的,准备考试,还有其他的事,没时间研究东西,快周末了,难得学点东西,grid是之前看到的,很好奇,讲的二维的布局,看起来很方便,应该很适合移动端布局,所以今天抽时间学一学,这个当是笔记了。参考的是阮老师的博客。阮一峰:CSSGrid网格布局教程http://www.ruanyifeng.com/blog/2019/03/g
display:flex;把容器设置为弹性盒模型(设置为弹性盒模型之后,浮动,定位将不会有效果)给父元素设置的属性:(1)display:flex---把容器设置为弹性盒模型。(2)flex-direction---设置弹性盒模型主轴方向默认情况下主
我在网页上运行了一个Flex应用程序,我想使用Command←组合键在应用程序中触发某些操作.这在大多数浏览器上都很好,但在Safari上,浏览器拦截此键盘事件并导致浏览器“返回”事件.有没有办法,通过Flex或通过页面上的其他地方的JavaScript,我可以告诉Safari不要这样做?解决方法:简短的
flex布局,flex-item1<template>2<viewclass="container">3<viewclass="greentxt">4A5</view>6<viewclass="redtxt">7B8<
我应该设计一个大型多点触控屏幕的应用程序.从大到大,我的意思是新闻广播员(大约55英寸及以上).该应用程序是一个交互式地图.我的问题是:开发应用程序的技术.我的第一个想法是在AdobeFlex中制作,但是HTML5也是如此……必须有一些非常棒的Java库用于触摸交互,但是在Windows平台上
<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-scale=1.0"><metahttp-equiv="X-UA-Compatible&quo
【1】需求:  【2】解决方案:最近遇到布局上要求item两端对齐,且最后一行在列不满的情况下要求左对齐,使用flex的justify-content:space-between;实现时发现最后一行不能左对齐,而是两端对齐方式。 不是项目上想要的效果#网上查了一些资料,有两种方法可以实现效果:**1.
我有一个java套接字服务器,它在连接时将Animal对象发送到Flash客户端.对象发送方式如下:Amf3Outputamf3Output=newAmf3Output(SerializationContext.getSerializationContext());amf3Output.setOutputStream(userSocket.getOutputStream());amf3Output.writeObject(animal)
我正在开发一个Flex3.4应用程序,它通过最新版本的BlazeDS与JBoss-4.2.2服务器上运行的JavaEE后端进行交互.当我在Tomcat上从FlashBuilder4beta2运行Flex应用程序时,一切都很好,Flex应用程序能够进行所需的远程调用.但我的生产环境是在JBoss上,当我将应用程序移动到JBoss时(更
我有一个非常大的问题.我使用Flex3/Tomcat/BlazeDS/Spring编写了一个大型应用程序,在本地开发时运行良好,当我部署到公共开发环境时很好,但是当部署到我们的测试环境时经常失败.当远程处理请求花费大量时间(超过20秒)时,故障似乎最常发生.在我的开发服务器上,错误发生,但仅
弹性和布局display:flex在ie6,ie7不兼容状态,一般在pc用的比较少,在手机端所有的浏览器都是支持的控制子元素在父元素里面的位置关系display:flex是给父元素加的文档流是按照主轴排列,只要父元素加了flex,那么里面的子元素全部可以直接添加宽高主轴的方向
FLEX2.0源码分析(一)https://www.jianshu.com/p/8bc4c5f4b19fFLEX源码分析二(网络监测swizzle)https://www.jianshu.com/p/ffb95f2cbda6FLEX源码分析三(网络监测记录FLEXNetworkRecorder)https://www.jianshu.com/p/66267dc922c5FLEX源码分析四(Systemlog)https://www.jianshu.
1<!DOCTYPEhtml>2<htmllang="en">3<head>4<metacharset="UTF-8">5<title><itle>6<style>7*{8margin:0;9padding:0;10
<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,initial-scale=1.0"><metahttp-equiv="X-UA-Compatible&qu
flex:将对象作为弹性伸缩盒显示inline-flex:将对象作为内联块级弹性伸缩盒显示两者都是使子元素们弹性布局,但是如果是flex,父元素的尺寸不由子元素尺寸动态调整,不设置时默认是100%,而inline-flex则会使父元素尺寸跟随子元素们的尺寸动态调整。
<html><head><metacharset="utf-8"><metaname="viewport"content="width=device-width"><title>test<itle><stylemedia="screen">.tab-head{list-style-type:no
有没有办法使用邮政编码找到径向距离?我的任务是搜索居住在指定距离内的所有用户.我知道用户的zipcodes.例如,距离当前位置25英里的用户.我有其他搜索类别,我正在使用mysql查询.我无法解决距离问题.我的后端是在PHP中Flex的前端和前端.对我来说最好的选择就是www.zip-codes.com