如何解决Python Newsaggregator-停止重复的rss条目
简而言之,我创建了一个新闻聚合器,该新闻聚合器从给定的Feed中获取最新的三个上载内容。该脚本可以正常工作,但是我一直在尝试对其进行编辑,以使它不会输出与上次运行脚本时输出的相同的文章。
import feedparser
class News:
def __init__(self,url):
self.url = url
self.newsfeed = feedparser.parse(self.url)
def get_news(self):
print("##########################################")
try:
print("Publication: ",self.newsfeed.feed.title)
except:
print("Publication has no title")
print("##########################################")
for i in range(3):
print("-------------------------------------------------------------",end="")
print("-------------------------------------------------------------------")
entry = self.newsfeed.entries[i]
with open("/home/ramel/Projects/news_aggregator/read.txt","a+") as done:
if entry.link in done.read():
continue
else:
done.write(entry.link + "\n")
print("Title: ",entry.title)
try:
print(entry.published)
except:
print("Date Unknown")
print(entry.link)
如您所见,我已经尝试制作另一个txt文件,其中包含每个链接的网址。然后,我将在输出之前检查文件,以查看链接是否已在文件中。如果是这样,那么我们可以继续进行下一个迭代/文章。任何帮助将不胜感激。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。