如何解析语法`a | b* a`

如何解决如何解析语法`a | b* a`

让我们考虑以下Backus-Naur形式描述的语法:

a ::= 'a'
b ::= 'b'
grammar ::= (a | b)* a

我正在尝试使用pyparsing解析它,并执行以下实现

a = Literal('a')
b = Literal('b')
grammar = (a | b)[...] + 'a'

但是,它无法解析语法描述的任何字符串,例如grammar.parseString('aba')引发

ParseException: Expected "a",found end of text  (at char 3),(line:1,col:4)

这似乎是由于[...]表达式是通过使用令牌来解析的,直到不再可能为止为止。这样,最后一个文字就不再需要解析令牌了。

一种方法是使用FollowedBy类:

grammar = ((a | b) + FollowedBy(a | b))[...] + a

有效。但是,它非常不雅观,似乎效率不高,而且用途不多。

是否有更好的方法通过pyparsing解析此语法?

解决方法

不,您说得很对,pyparsing不会像使用"[ab]*a"这样的正则表达式进行回溯。除非您明确实现,否则Pyparsing不会进行任何前瞻。

这是原始解析器的扩展版本,其中添加了setNamesetDebug调用:

a = Literal('a').setName("A").setDebug()
b = Literal('b').setName("B").setDebug()
grammar = (a | b)[...] + a().setName("trailing_a").setDebug()

grammar.runTests("""\
    aba
    """)

解析“ aba”时,调试输出如下:

Match A at loc 0(1,1)
Matched A -> ['a']
Match A at loc 1(1,2)
Exception raised:Expected A,found 'b'  (at char 1),(line:1,col:2)
Match B at loc 1(1,2)
Matched B -> ['b']
Match A at loc 2(1,3)
Matched A -> ['a']
Match A at loc 3(1,4)
Exception raised:Expected A,found end of text  (at char 3),col:4)
Match B at loc 3(1,4)
Exception raised:Expected B,col:4)
Match trailing_a at loc 3(1,4)
Exception raised:Expected trailing_a,col:4)

aba
   ^
FAIL: Expected trailing_a,col:4

,您会看到trailing_a匹配是初始重复的一部分,而不是trailing_a。由于现在没有实际的尾部“ a”,因此解析失败。

您可以为前导重复定义特殊的a形式(就像您在一行中所做的那样),如下两行所示:

leading_a = a + FollowedBy(a | b)
grammar = (leading_a | b)[...] + 'a'

使用调试输出,我们可以遵循解析器逻辑:

Match leading_a at loc 0(1,1)
Match A at loc 0(1,2)
Matched B -> ['b']
Matched leading_a -> ['a']
Match leading_a at loc 1(1,2)
Match A at loc 1(1,col:2)
Exception raised:Expected A,2)
Matched B -> ['b']
Match leading_a at loc 2(1,3)
Match A at loc 2(1,col:4)
Exception raised:Expected {A | B},col:4)
Match B at loc 2(1,3)
Exception raised:Expected B,found 'a'  (at char 2),col:3)

aba
['a','b','a']

或定义特殊的trailing_a,并在stopOn中使用ZeroOrMore参数:

trailing_a = a + ~FollowedBy(a | b)
grammar = OneOrMore(a | b,stopOn=trailing_a) + 'a'

获得相似的结果。

编辑 将语法更改为(a | b)[...]会显示以下调试输出:

Match A at loc 0(1,col:4)

aba
['a','a']

所以,是的,超前确实会导致性能下降。

pyparsing包含内部缓存功能,也称为“ packrat解析”。这是调试输出,其中缓存的值标记为“ *”:
  Match trailing_a at loc 0(1,1)
  Match A at loc 0(1,1)
  Matched A -> ['a']
  Match A at loc 1(1,2)
  Exception raised:Expected A,col:2)
  Match B at loc 1(1,2)
  Matched B -> ['b']
  Exception raised:Found unwanted token,FollowedBy:({A | B}),col:2)
* Match A at loc 0(1,1)
* Matched A -> ['a']
  Match trailing_a at loc 1(1,2)
* Match A at loc 1(1,2)
* Exception raised:Expected A,col:2)
* Exception raised:Expected A,col:2)
* Match A at loc 1(1,col:2)
* Match B at loc 1(1,2)
* Matched B -> ['b']
  Match trailing_a at loc 2(1,3)
  Match A at loc 2(1,3)
* Matched A -> ['a']
  Match A at loc 3(1,4)
  Exception raised:Expected A,col:4)
  Match B at loc 3(1,4)
  Exception raised:Expected B,col:4)
  Matched trailing_a -> ['a']
* Match trailing_a at loc 2(1,3)
* Match A at loc 2(1,3)
* Matched A -> ['a']
* Matched trailing_a -> ['a']

“匹配”操作摘要:

  • 不带提前查询:6
  • 提前预定:12
  • 提前预订+ packrat:9

最后,可以使用解析动作在解析时注入其他逻辑。解析动作可以编写为方法(可以返回一组修改的标记或引发异常)或谓词函数(可以返回True或False,而pyparsing将在返回False的情况下引发异常)。

因此,您可以使用最快的先行形式编写语法,然后添加验证条件以供以后运行:

grammar = (a | b)[...]
grammar.addCondition(lambda t: t[-1] == 'a',message="string does not end with 'a'")

很有可能节省的解析时间足以抵消进行单独条件评估的额外费用。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 <select id="xxx"> SELECT di.id, di.name, di.work_type, di.updated... <where> <if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 <property name="dynamic.classpath" value="tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams['font.sans-serif'] = ['SimHei'] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -> systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping("/hires") public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate<String
使用vite构建项目报错 C:\Users\ychen\work>npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-