xml – 如何从R中的一个已刮取的网页中隔离单个元素

我想用R来刮擦这个页面:( http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html)等人来得到目标得分手和时间.

到目前为止,这是我所得到的:

require(RCurl)
require(XML)

theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
webpage <- getURL(theURL,header=FALSE,verbose=TRUE) 
webpagecont <- readLines(tc <- textConnection(webpage)); close(tc)  

pagetree <- htmlTreeParse(webpagecont,error=function(...){},useInternalNodes = TRUE)

而pagetree对象现在包含一个指向我解析的html的指针(我认为).我想要的是:

<div class="cont")<ul>
<div class="bold medium">Goals scored</div>
        <li>Philipp LAHM (GER) 6',</li>
        <li>Paulo WANCHOPE (CRC) 12',</li>
        <li>Miroslav KLOSE (GER) 17',</li>
        <li>Miroslav KLOSE (GER) 61',</li>
        <li>Paulo WANCHOPE (CRC) 73',</li>
        <li>Torsten FRINGS (GER) 87'</li>
</ul></div>

但是我现在失去了如何隔离他们,坦率地说,xpathSApply和xpathApply将beejeebies混淆了我!

所以,有没有人知道如何制定一个命令来吸取包含在< div class =“cont”>中的元素.标签?

这些问题在处理R中的Web抓取和XML时非常有用:

> Scraping html tables into R data frames using the XML package
> How to transform XML data into a data.frame?

关于你的具体例子,虽然我不知道你想要的输出是什么样的,但是这样就得到了一个字符向量的“进球得分”:

theURL <-"http://www.fifa.com/worldcup/archive/germany2006/results/matches/match=97410001/report.html"
fifa.doc <- htmlParse(theURL)
fifa <- xpathSApply(fifa.doc,"//*/div[@class='cont']",xmlValue)
goals.scored <- grep("Goals scored",fifa,value=TRUE)

xpathSApply函数获取与给定条件匹配的所有值,并将其作为向量返回.注意我正在寻找一个div与class =’cont’.使用类值通常是解析HTML文档的好方法,因为它们是很好的标记.

你可以清理它,但是你想要的:

> gsub("Goals scored","",strsplit(goals.scored,",")[[1]])
[1] "Philipp LAHM (GER) 6'"    "Paulo WANCHOPE (CRC) 12'" "Miroslav KLOSE (GER) 17'" "Miroslav KLOSE (GER) 61'" "Paulo WANCHOPE (CRC) 73'"
[6] "Torsten FRINGS (GER) 87'"

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


php输出xml格式字符串
J2ME Mobile 3D入门教程系列文章之一
XML轻松学习手册
XML入门的常见问题(一)
XML入门的常见问题(三)
XML轻松学习手册(2)XML概念
xml文件介绍及使用
xml编程(一)-xml语法
XML文件结构和基本语法
第2章 包装类
XML入门的常见问题(二)
Java对象的强、软、弱和虚引用
JS解析XML文件和XML字符串详解
java中枚举的详细使用介绍
了解Xml格式
XML入门的常见问题(四)
深入SQLite多线程的使用总结详解
PlayFramework完整实现一个APP(一)
XML和YAML的使用方法
XML轻松学习总节篇