asp.net – 使用R从RSS提要中提取更多帖子到CSV

时间：2020-09-22分类：asp.Net作者：编程之家用户

我试图从以下网址 http://live.reuters.com/Event/rss.aspx?id=70335的RSS提要中提取数据.基本上我想使用此帖中列出的代码提取每个帖子的标题和日期： Parse RSS feed using XML packagin R

代码本身就是

library(XML)
library(RCurl)

###Extracting Data from Reuters
xml.url <- "http://live.reuters.com/Event/rss.aspx?id=70335"
script  <- getURL(xml.url)
doc     <- xmlParse(script)
titles    <- xpathSApply(doc,'//item/title',xmlValue)
pubdates <- xpathSApply(doc,'//item/pubDate',xmlValue)
reuters<-cbind(titles,pubdates)
reuters_data<-data.frame(reuters)

 #Exporting as a csv
write.csv(reuters_data,file = "reuters_post.csv")

代码几乎完全符合我的要求.但是,我遇到的问题是它只提取前45个帖子.我知道有近1000个帖子.这与rss.aspx格式有关吗？是否有一个解决方法,以便我可以获得RSS提要中的所有帖子,而不仅仅是前45个？任何帮助都将非常感谢,因为我是数据抓取的新手.

谢谢,
托马斯

解决方法

它解决了RSS / Atom提要的问题,它不允许检索历史信息,请参阅 How Do I Fetch All Old Items on an RSS Feed?

但是,我们可以使用非官方的Google Reader API GoogleReaderAPI Wiki.

library(RCurl)
library(RJSONIO)

N <- 100 # Number of items to fetch
url <- paste("http://www.google.com/reader/api/0/stream/contents/feed/http://live.reuters.com/Event/rss.aspx%3Fid=70335?n=",N,sep="")

json <- getURL(url)                               # Fetches data
list <- fromJSON(json)                            # JSON to list
df   <- as.data.frame(do.call(rbind,list$items)) # list to data.frame

title    <- unlist(df$title)                                                # Title
datetime <- as.POSIXlt(unlist(df$published),origin="1970-01-01",tz="GMT") # Publication date

reuters <- data.frame(title,datetime)        # Output data.frame
write.csv(reuters,file = "reuters_post.csv") # Writes CSV

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

ASP.NET Core在CentOS上的最小化部署实践

引言本文从Linux小白的视角，在CentOS 7.x服务器上搭建一个Nginx-Powered AspNet Core Web准生产应用。在开始之前，我们还是重温一下部署原理，正如你所常见的.Net Core 部署图：在Linux上部署.Net Core App最好的方式是在Linux机器

【异步编程】Part2：掌控SynchronizationContext避免deadlock

引言：多线程编程/异步编程非常复杂，有很多概念和工具需要去学习，贴心的.NET提供Task线程包装类和await/async异步编程语法糖简化了异步编程方式。相信很多开发者都看到如下异步编程实践原则：遵守以上冷冰冰的②③条的原则，可保证异步程序按照预期状态正常运作；我们在各大编程论坛常看到违背

ASP.NET Core Middleware 抽丝剥茧

一. 宏观概念 ASP.NET Core Middleware是在应用程序处理管道pipeline中用于处理请求和操作响应的组件。每个组件是pipeline 中的一环。自行决定是否将请求传递给下一个组件在处理管道的下个组件执行之前和之后执行业务逻辑二. 特性和行为 ASP.NET Core处

【异步编程】Part3:取消异步操作

背景在.Net和C#中运行异步代码相当简单，因为我们有时候需要取消正在进行的异步操作，通过本文，可以掌握通过CancellationToken取消任务（包括non-cancellable任务）。 Task 表示无返回值的异步操作，泛型版本Task<TResult>表示有返

ASP.NET Core 实现基本认证

HTTP基本认证在HTTP中，HTTP基本认证（Basic Authentication）是一种允许网页浏览器或其他客户端程序以(用户名：口令) 请求资源的身份验证方式，不要求cookie,session identifier、login page等标记或载体。 - 所有浏览器据支持HTTP基本认

LINQ 常规实践总结

1.Linq 执行多列排序 OrderBy的意义是按照指定顺序排序，连续两次OrderBy，后面一个有可能会打乱前面一个的排序顺序，可能与预期不符。要实现sql中的order by word,name类似效果; LINQ 有ThenBy可以紧接使用， ThenBy记住原本排序的值，然后再排其他值，

ASP.NET Core跨平台技术内幕

ASP.NET Core 核心特性：开源、跨平台、高性能是其决战JAVA的必胜法宝，最引人关注的跨平台特性到底是怎么实现？ 
 本文分Unix、Windows剖析跨平台内幕，读完让你大呼过瘾。

【异步编程】Part1：await&async语法糖让异步编程如鱼得水

前导 Asynchronous programming Model（APM）异步编程模型以BeginMethod(...) 和 EndMethod(...)结对出现。 IAsyncResult BeginGetResponse(AsyncCallback callback, object state

ASP.NET Core 实现带认证功能的Web代理服务器

引言最近在公司开发了一个项目，项目部署架构图如下：思路如图中文本所述，公司大数据集群不允许直接访问外网，需要一个网关服务器代理请求，本处服务器A就是边缘代理服务器的作用。通常技术人员最快捷的思路是在服务器A上部署IISʺpplication Request Routing Module组件

ASP.NET Core+Quartz.Net 实现web定时任务

作为一枚后端程序狗，项目实践常遇到定时任务的工作，最容易想到的的思路就是利用Windows计划任务/wndows service程序/Crontab程序等主机方法在主机上部署定时任务程序/脚本。但是很多时候，若使用的是共享主机或者受控主机，这些主机不允许你私自安装exe程序、Windows服务程序

ASPNET.Core结合Redis实践消息队列，从此放心安全迭代

引言熟悉TPL Dataflow博文的朋友可能记得这是个单体程序，使用TPL Dataflow 处理工作流任务，在使用Docker部署的过程中，有一个问题一直无法回避：在单体程序部署的瞬间（服务不可用）会有少量流量无法处理；更糟糕的情况下，迭代部署的这个版本有问题，上线后无法运作，更多的流

白话文解读HTTPS原理，结合.NET Core聊一聊HTTPS应用方式

合格的web后端程序员，除搬砖技能，还必须会给各种web服务器配置Https，本文结合ASP.NET Core部署模型聊一聊启用Https的方式。温故知新目前常见的Http请求明文传输，请求可能被篡改，访问的站点可能被伪造。 HTTPS是HTTP加上TLS/SSL协议构建的可进行加密传输、身份认

【小作业】为NLog自定义LayoutRenderer

长话短说前文《解剖HttpClientFactory，自由扩展HttpMessageHandler》主要讲如何为HttpClientFactory自定义HttpMessageHandler组件, 现在来完成课后的小作业：将重点日志字段显示到Nlog的LayoutRenderer上。本文实现一个

面试必谈的哈希，.Net 程序员温故而知新

引言问题作为资深老鸟，有事没事，出去面试；找准差距、定位价值。面试必谈哈希， Q1：什么是哈希? Q2：哈希为什么快? Q3：你是怎么理解哈希算法利用空间换取时间的？ Q4：你是怎么解决哈希冲突的？ Q5：你有实际用写过哈希算法吗？知识储备哈希（也叫散列）是一种查找算法（可用于插入），哈希算

生产环境(基于docker)故障排除？有感于博客园三番五次翻车

前言如题，有感于博客园最近多次翻车，感觉像胡子眉毛一把抓，定位不了生产环境的问题。抛开流程问题，思考在生产环境中如何做故障排除， 发现博客园里面这方面的文章比较少。 .Net 本身是提供了sos.dll工具帮助我们在生产中故障排除，通过提供有关内部公共语言运行时（CLR）环境的信息，

.NET架构开发应知应会

.NET程序是基于.NET Framework、.NET Core、Mono、【.NET实现】开发和运行的，定义以上【.NET实现】的标准规范称为.NET Standard .NET Standard .NET标准是一组API集合，由上层三种【.NET实现】的Basic Class Library

EF2.0新特性DbContext Pooling

长话短说上个月公司上线了一个物联网数据科学项目，我主要负责前端接受物联网事件，并提供参数下载。 webapp 部署在Azure云上，参数使用Azure SQL Server存储。最近从灰度测试转向全量部署之后，日志时常收到： SQL Session超限报错。排查我在Azure上使用的是 S

修复搜狗、360等浏览器不识别SameSite=None 引起的单点登录故障

临近年关，搜狗，360浏览器出现页面无法成功跳转，同域Cookie丢失？也许是服务端 SameSite惹的祸。
本文揭示由于Chrome低版本内核不识别 SameSite= None，引发的单点登录故障。

被忽略的TraceId，可以用起来了

本文聊一聊TraceID的作用和一般组成，衍生出ASP. NETCore 单体和分布式程序中 TraceId 的使用方式

解剖HttpClientFactory，自由扩展HttpMessageHandler

通过给 HttpClint请求的日志增加 TraceId，解锁自定义扩展 HttpClientFacroty 的姿势

热门文章

最新文章