如何解决Scala,树结构化数据的解析器组合器
| 解析器如何用于解析跨越多行的记录?我需要解析树数据(并最终将其转换为树数据结构)。我在下面的代码中遇到了难以跟踪的解析错误,但尚不清楚这是否是使用Scala解析器的最佳方法。问题实际上更多是关于解决问题的方法,而不是调试现有代码。 EBNF-ish语法为:SP = \" \"
CRLF = \"\\r\\n\"
level = \"0\" | \"1\" | \"2\" | \"3\"
varName = {alphanum}
varValue = {alphnum}
recordBegin = \"0\",varName
recordItem = level,varName,[varValue]
record = recordBegin,{recordItem}
file = {record}
尝试实现和测试语法:
import util.parsing.combinator._
val input = \"\"\"0 fruit
1 id 2
1 name apple
2 type red
3 size large
3 origin Texas,US
2 date 2 aug 2011
0 fruit
1 id 3
1 name apple
2 type green
3 size small
3 origin Florida,US
2 date 3 Aug 2011\"\"\"
object TreeParser extends JavaTokenParsers {
override val skipwhitespace = false
def CRLF = \"\\r\\n\" | \"\\n\"
def BOF = \"\\\\A\".r
def EOF = \"\\\\Z\".r
def TXT = \"[^\\r\\n]*\".r
def TXTNOSP = \"[^ \\r\\n]*\".r
def SP = \"\\\\s\".r
def level: Parser[Int] = \"[0-3]{1}\".r ^^ {v => v.toInt}
def varName: Parser[String] = SP ~> TXTNOSP
def varValue: Parser[String] = SP ~> TXT
def recordBegin: Parser[Any] = \"0\" ~ SP ~ varName ~ CRLF
def recordItem: Parser[(Int,String,String)] = level ~ varValue ~ opt(varValue) <~ CRLF ^^
{case l ~ f ~ v => (l,f,v.map(_+\"\").getorElse(\"\"))}
def record: Parser[List[(Int,String)]] = recordBegin ~> rep(recordItem)
def file: Parser[List[List[(Int,String)]]] = rep(record) <~ EOF
def parse(input: String) = parseAll(file,input)
}
val result = TreeParser.parse(input).get
result.foreach(println)
解决方法
正如Daniel所说,您最好让解析器处理空白跳过,以最大程度地减少代码。但是,您可能需要调整
whitespace
值,以便可以明确匹配行尾。如果没有为记录定义值,我将在下面执行此操作以防止解析器移至下一行。
如果要匹配字母单词,请尽可能尝试使用像ident
这样的在JavaTokenParsers
中定义的解析器。
为了简化错误跟踪,对parseAll
执行NoSuccess
匹配,以便您可以看到解析器在什么时候失败。
import util.parsing.combinator._
val input = \"\"\"0 fruit
1 id 2
1 name apple
2 type red
3 size large
3 origin Texas,US
2 var_without_value
2 date 2 aug 2011
0 fruit
1 id 3
1 name apple
2 type green
3 size small
3 origin Florida,US
2 date 3 Aug 2011\"\"\"
object TreeParser extends JavaTokenParsers {
override val whiteSpace = \"\"\"[ \\t]+\"\"\".r
val level = \"\"\"[1-3]{1}\"\"\".r
val value = \"\"\"[a-zA-Z0-9_,]*\"\"\".r
val eol = \"\"\"[\\r?\\n]+\"\"\".r
def recordBegin = \"0\" ~ ident <~ eol
def recordItem = level ~ ident ~ opt(value) <~ opt(eol) ^^ {
case l ~ n ~ v => (l.toInt,n,v.getOrElse(\"\"))
}
def record = recordBegin ~> rep1(recordItem)
def file = rep1(record)
def parse(input: String) = parseAll(file,input) match {
case Success(result,_) => result
case NoSuccess(msg,_) => throw new RuntimeException(\"Parsing Failed:\" + msg)
}
}
val result = TreeParser.parse(input)
result.foreach(println)
, 显式处理空格并不是一个特别好的主意。而且,当然,使用get
意味着您会丢失错误消息。在此特定示例中:
[1.3] failure: string matching regex `\\s\' expected but `f\' found
0 fruit
^
这实际上很清楚,尽管问题是为什么它期望有空间。现在,这显然是在处理“ 10”规则,该规则由此定义:
\"0\" ~ SP ~ varName ~ CRLF
因此,它先解析零,然后解析空格,然后再对varName
解析fruit
。现在,varName
的定义如下:
SP ~> TXTNOSP
另一个空间!因此,fruit
应该以空格开头。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。