如何解决解析数字和字符串是Lexer的工作吗?
| 解析数字和字符串是lexer的工作吗? 鉴于我正在询问词法分析器是否应解析输入的事实,这听起来可能有些愚蠢。但是,我不确定这实际上是词法分析器的工作还是解析器的工作,因为为了正确地进行词法分析,词法分析器首先需要解析字符串/数字,因此,如果解析器执行此操作,似乎代码将被复制。 确实是词法学家的工作吗?还是词法分析器应该简单地将字符串ѭ0分解为字符串123
,.
,456
并让解析器找出其余部分?使用字符串并不是那么简单...
解决方法
简单的答案是“是”。
在摘要中,您根本不需要词法分析器。您可以简单地编写一个将单个字符用作标记的语法器(实际上,这正是SGLR解析器所做的,但这又是另一回事了)。
您需要词法分析器,因为使用字符作为基本元素构建的解析器不如将输入流分解为\“ tokens \”的解析器那样高效,在解析器中,令牌是您要解析的语言的原始元素(空格,关键字,标识符,数字,运算符,字符串,注释等)。 [如果您不关心效率,则可以跳过此答案的其余部分,然后阅读有关SGLR解析器的信息]。
好的词法分析器通常会使用代表语言元素的正则表达式集,并将它们编译成有效的有限状态机,该状态机可以将输入流快速分割成此类语言元素。 (如果您不想使用词法分析器生成器,则对于简单的语言,您可以自己编写FSA的代码)。这样的编译后的FSA每个输入字符仅执行几十条机器指令(从输入缓冲区获取字符,将字符打开到新状态,确定令牌是否完整,如果不能再执行一次),因此可以非常快。
此类词法分析器的输出通常是代表langauge元素的代码(如果解析器仍然忽略它,则表示空白,否则为空白)和一些位置信息(从文件foo,第17行第3栏第3列开始)以启用错误报告。
一个人可以停在那里,拥有有用的词法分析器。进行转换步骤通常很有用,可以将字符串转换为该令牌的等效本机值,无论是在收集字符时还是在令牌完成时,因为人们仍然了解其中涉及的特定字符令牌。这用于将目标语言中的数字(不同的基数)转换为它们的本机二进制等价形式,将包含转义序列的文字字符串转换为组成字符串的实际字符,甚至获取标识符名称并在哈希表中查找它们这样就可以轻松确定相同的标识符。解析器通常对这些转换后的值不感兴趣,但是解析之外的其他步骤(语义分析,优化检查,代码生成)仍然需要转换后的值,因此您最好在发现它们后也进行转换。 (您可以将此转换延迟到需要它们的二进制值之前,但实际上,您几乎总是需要该值,因此延迟转换并不会带来太多收益)。
, 我假设您想将\“ 123.456 \”视为一个整体值,在这种情况下,您将把它整体传递给解析器,除非您需要以某种方式对其进行编码,例如
struct DecimalRep{
double mantissa,double exponent
}
但是我想这完全取决于解析器的期望。
, 词法分析器从输入中实质上识别出令牌。在这种情况下,词法分析器可能会将数字“匹配”为浮点数字令牌。解析器本质上处理令牌并进行语法分析
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。