如何解决如何解析语法`a | b* a`
让我们考虑以下Backus-Naur形式描述的语法:
a ::= 'a'
b ::= 'b'
grammar ::= (a | b)* a
我正在尝试使用pyparsing解析它,并执行以下实现
a = Literal('a')
b = Literal('b')
grammar = (a | b)[...] + 'a'
但是,它无法解析语法描述的任何字符串,例如grammar.parseString('aba')
引发
ParseException: Expected "a",found end of text (at char 3),(line:1,col:4)
这似乎是由于[...]
表达式是通过使用令牌来解析的,直到不再可能为止为止。这样,最后一个文字就不再需要解析令牌了。
一种方法是使用FollowedBy
类:
grammar = ((a | b) + FollowedBy(a | b))[...] + a
有效。但是,它非常不雅观,似乎效率不高,而且用途不多。
是否有更好的方法通过pyparsing解析此语法?
解决方法
不,您说得很对,pyparsing不会像使用"[ab]*a"
这样的正则表达式进行回溯。除非您明确实现,否则Pyparsing不会进行任何前瞻。
这是原始解析器的扩展版本,其中添加了setName
和setDebug
调用:
a = Literal('a').setName("A").setDebug()
b = Literal('b').setName("B").setDebug()
grammar = (a | b)[...] + a().setName("trailing_a").setDebug()
grammar.runTests("""\
aba
""")
解析“ aba”时,调试输出如下:
Match A at loc 0(1,1)
Matched A -> ['a']
Match A at loc 1(1,2)
Exception raised:Expected A,found 'b' (at char 1),(line:1,col:2)
Match B at loc 1(1,2)
Matched B -> ['b']
Match A at loc 2(1,3)
Matched A -> ['a']
Match A at loc 3(1,4)
Exception raised:Expected A,found end of text (at char 3),col:4)
Match B at loc 3(1,4)
Exception raised:Expected B,col:4)
Match trailing_a at loc 3(1,4)
Exception raised:Expected trailing_a,col:4)
aba
^
FAIL: Expected trailing_a,col:4
,您会看到trailing_a
匹配是初始重复的一部分,而不是trailing_a
。由于现在没有实际的尾部“ a”,因此解析失败。
您可以为前导重复定义特殊的a
形式(就像您在一行中所做的那样),如下两行所示:
leading_a = a + FollowedBy(a | b)
grammar = (leading_a | b)[...] + 'a'
使用调试输出,我们可以遵循解析器逻辑:
Match leading_a at loc 0(1,1)
Match A at loc 0(1,2)
Matched B -> ['b']
Matched leading_a -> ['a']
Match leading_a at loc 1(1,2)
Match A at loc 1(1,col:2)
Exception raised:Expected A,2)
Matched B -> ['b']
Match leading_a at loc 2(1,3)
Match A at loc 2(1,col:4)
Exception raised:Expected {A | B},col:4)
Match B at loc 2(1,3)
Exception raised:Expected B,found 'a' (at char 2),col:3)
aba
['a','b','a']
或定义特殊的trailing_a
,并在stopOn
中使用ZeroOrMore
参数:
trailing_a = a + ~FollowedBy(a | b)
grammar = OneOrMore(a | b,stopOn=trailing_a) + 'a'
获得相似的结果。
编辑
将语法更改为(a | b)[...]
会显示以下调试输出:
Match A at loc 0(1,col:4)
aba
['a','a']
所以,是的,超前确实会导致性能下降。
pyparsing包含内部缓存功能,也称为“ packrat解析”。这是调试输出,其中缓存的值标记为“ *”: Match trailing_a at loc 0(1,1)
Match A at loc 0(1,1)
Matched A -> ['a']
Match A at loc 1(1,2)
Exception raised:Expected A,col:2)
Match B at loc 1(1,2)
Matched B -> ['b']
Exception raised:Found unwanted token,FollowedBy:({A | B}),col:2)
* Match A at loc 0(1,1)
* Matched A -> ['a']
Match trailing_a at loc 1(1,2)
* Match A at loc 1(1,2)
* Exception raised:Expected A,col:2)
* Exception raised:Expected A,col:2)
* Match A at loc 1(1,col:2)
* Match B at loc 1(1,2)
* Matched B -> ['b']
Match trailing_a at loc 2(1,3)
Match A at loc 2(1,3)
* Matched A -> ['a']
Match A at loc 3(1,4)
Exception raised:Expected A,col:4)
Match B at loc 3(1,4)
Exception raised:Expected B,col:4)
Matched trailing_a -> ['a']
* Match trailing_a at loc 2(1,3)
* Match A at loc 2(1,3)
* Matched A -> ['a']
* Matched trailing_a -> ['a']
“匹配”操作摘要:
- 不带提前查询:6
- 提前预定:12
- 提前预订+ packrat:9
最后,可以使用解析动作在解析时注入其他逻辑。解析动作可以编写为方法(可以返回一组修改的标记或引发异常)或谓词函数(可以返回True或False,而pyparsing将在返回False的情况下引发异常)。
因此,您可以使用最快的先行形式编写语法,然后添加验证条件以供以后运行:
grammar = (a | b)[...]
grammar.addCondition(lambda t: t[-1] == 'a',message="string does not end with 'a'")
很有可能节省的解析时间足以抵消进行单独条件评估的额外费用。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。