Scala,树结构化数据的解析器组合器

如何解决Scala,树结构化数据的解析器组合器

| 解析器如何用于解析跨越多行的记录?我需要解析树数据(并最终将其转换为树数据结构)。我在下面的代码中遇到了难以跟踪的解析错误,但尚不清楚这是否是使用Scala解析器的最佳方法。问题实际上更多是关于解决问题的方法,而不是调试现有代码。 EBNF-ish语法为:
SP          = \" \"
CRLF        = \"\\r\\n\"
level       = \"0\" | \"1\" | \"2\" | \"3\"
varName     = {alphanum}
varValue    = {alphnum}
recordBegin = \"0\",varName
recordItem  = level,varName,[varValue]
record      = recordBegin,{recordItem}
file        = {record}
尝试实现和测试语法:
import util.parsing.combinator._
val input = \"\"\"0 fruit
1 id 2
1 name apple
2 type red
3 size large
3 origin Texas,US
2 date 2 aug 2011
0 fruit
1 id 3
1 name apple
2 type green
3 size small
3 origin Florida,US
2 date 3 Aug 2011\"\"\"

object TreeParser extends JavaTokenParsers {
  override val skipwhitespace = false
  def CRLF = \"\\r\\n\" | \"\\n\"
  def BOF = \"\\\\A\".r
  def EOF = \"\\\\Z\".r
  def TXT = \"[^\\r\\n]*\".r
  def TXTNOSP = \"[^ \\r\\n]*\".r
  def SP = \"\\\\s\".r
  def level: Parser[Int] = \"[0-3]{1}\".r ^^ {v => v.toInt}
  def varName: Parser[String] = SP ~> TXTNOSP
  def varValue: Parser[String] = SP ~> TXT
  def recordBegin: Parser[Any] =  \"0\" ~ SP ~ varName ~ CRLF
  def recordItem: Parser[(Int,String,String)] = level ~ varValue ~ opt(varValue) <~ CRLF ^^
    {case l ~ f ~ v => (l,f,v.map(_+\"\").getorElse(\"\"))}
  def record: Parser[List[(Int,String)]] = recordBegin ~> rep(recordItem)
  def file: Parser[List[List[(Int,String)]]] = rep(record) <~ EOF
  def parse(input: String) = parseAll(file,input)
}

val result = TreeParser.parse(input).get
result.foreach(println)
    

解决方法

        正如Daniel所说,您最好让解析器处理空白跳过,以最大程度地减少代码。但是,您可能需要调整
whitespace
值,以便可以明确匹配行尾。如果没有为记录定义值,我将在下面执行此操作以防止解析器移至下一行。 如果要匹配字母单词,请尽可能尝试使用像
ident
这样的在
JavaTokenParsers
中定义的解析器。 为了简化错误跟踪,对
parseAll
执行
NoSuccess
匹配,以便您可以看到解析器在什么时候失败。
import util.parsing.combinator._

val input = \"\"\"0 fruit
1 id 2
1 name apple
2 type red
3 size large
3 origin Texas,US
2 var_without_value
2 date 2 aug 2011
0 fruit
1 id 3
1 name apple
2 type green
3 size small
3 origin Florida,US
2 date 3 Aug 2011\"\"\"

object TreeParser extends JavaTokenParsers {
  override val whiteSpace = \"\"\"[ \\t]+\"\"\".r

  val level = \"\"\"[1-3]{1}\"\"\".r

  val value = \"\"\"[a-zA-Z0-9_,]*\"\"\".r
  val eol = \"\"\"[\\r?\\n]+\"\"\".r

  def recordBegin = \"0\" ~ ident <~ eol

  def recordItem = level ~ ident ~ opt(value) <~ opt(eol) ^^ {
    case l ~ n ~ v => (l.toInt,n,v.getOrElse(\"\"))
  }

  def record = recordBegin ~> rep1(recordItem)

  def file = rep1(record)

  def parse(input: String) = parseAll(file,input) match {
    case Success(result,_) => result
    case NoSuccess(msg,_) => throw new RuntimeException(\"Parsing Failed:\" + msg)
  }
}

val result = TreeParser.parse(input)
result.foreach(println)
    ,        显式处理空格并不是一个特别好的主意。而且,当然,使用
get
意味着您会丢失错误消息。在此特定示例中:
[1.3] failure: string matching regex `\\s\' expected but `f\' found

0 fruit

  ^
这实际上很清楚,尽管问题是为什么它期望有空间。现在,这显然是在处理“ 10”规则,该规则由此定义:
\"0\" ~ SP ~ varName ~ CRLF
因此,它先解析零,然后解析空格,然后再对
varName
解析
fruit
。现在,
varName
的定义如下:
SP ~> TXTNOSP
另一个空间!因此,
fruit
应该以空格开头。     

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其他元素将获得点击?
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。)
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbcDriver发生异常。为什么?
这是用Java进行XML解析的最佳库。
Java的PriorityQueue的内置迭代器不会以任何特定顺序遍历数据结构。为什么?
如何在Java中聆听按键时移动图像。
Java“Program to an interface”。这是什么意思?
Java在半透明框架/面板/组件上重新绘画。
Java“ Class.forName()”和“ Class.forName()。newInstance()”之间有什么区别?
在此环境中不提供编译器。也许是在JRE而不是JDK上运行?
Java用相同的方法在一个类中实现两个接口。哪种接口方法被覆盖?
Java 什么是Runtime.getRuntime()。totalMemory()和freeMemory()?
java.library.path中的java.lang.UnsatisfiedLinkError否*****。dll
JavaFX“位置是必需的。” 即使在同一包装中
Java 导入两个具有相同名称的类。怎么处理?
Java 是否应该在HttpServletResponse.getOutputStream()/。getWriter()上调用.close()?
Java RegEx元字符(。)和普通点?