如何解决Web在R中抓取HTML表需要花费大量时间
伙计们, 我正在尝试取消一个链接,该链接大约有1000多个记录,但是要花很长时间才能获取它们。.想知道我做错了什么还是将其加载到表中的方法。
urlString = "https://www.valueresearchonline.com/funds/selector-data/primary-category/1/equity/?tab=snapshot&output=html-data"
urlString <- URLencode(paste0(urlString,""))
#Reading the HTML code from the website and process the text
getHTML <- xml2::read_html(urlString,options = "HUGE")
#This one keeps running endlessly and doesn't load the table
mytable <- data.frame(getHTML %>% html_table(fill = T,trim = T))
任何帮助将不胜感激。 谢谢
解决方法
链接是一个JSON文件。您需要先通过jsonlite
阅读。 HTML数据位于html_data
节点,您通过read_html
读取了该节点:
json <- jsonlite::fromJSON("https://www.valueresearchonline.com/funds/selector-data/primary-category/1/equity/?tab=snapshot&output=html-data")
getHTML <- xml2::read_html(json$html_data)
mytable <- data.frame(getHTML %>% html_table(fill = T,trim = T))
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。