如何解决可以在指定日期获得Wikipedia页面的版本吗?
我正在尝试使用数据而不是“ oldid”访问Wiki页面的旧版本。通常要访问Wiki页面的版本和版本,我必须使用https://en.wikipedia.org/w/index.php?title=Main_Page&oldid=969106986这样的页面ID,有没有一种方法可以在不知道ID的情况下使用日期访问同一页面?例如,如果我知道某个页面的版本发布于“ 2020年7月23日12:44”
解决方法
您可以使用 MediaWiki API进行修订;请参阅位于https://www.mediawiki.org/wiki/API:Revisions的文档。
您需要将修订ID映射到日期。这将很简单:)。
,除了“主要” API(由MediaWiki开发人员称为动作API)之外,您还可以使用REST API。可能会或可能不会在所有Wiki上启用它,但是如果您要查询Wikipedia内容。
\ action API的revision module(在@amirouche的答案中链接到)允许您获取页面的Wikitext格式。那是MediaWiki所使用的源格式,从中获取HTML并不容易,而HTML则更易于分析(例如,特别是如果您进行“量子分析”)。
如果HTML更适合您的用例,则可以使用REST API,请参见https://en.wikipedia.org/api/rest_v1/#/。例如,如果您对截至2008年7月的英文维基百科主页感兴趣,则可以使用https://en.wikipedia.org/api/rest_v1/page/html/Main_Page/223883415。
数字(223883415)是修订版本ID,您可以通过action API来获取该版本ID。
但是,请记住将修订的Wiki文本重新解析为HTML。这意味着它不需要是保存修订日期时显示的内容。例如,维基文本可以包含当前日期的条件(用于自动更新主页)。如果您对此感兴趣,则需要使用archive.org。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。