xml-parsing – 从Wikipedia XML转储中获取静态HTML文件

时间：2020-06-29分类：XML作者：编程之家用户

我希望能够从 WikiMedia dump page下载的巨大的(甚至是压缩的)英文维基百科XML转储文件 enwiki-latest-pages-articles.xml.bz2中获取相对最新的静态HTML文件.虽然文档似乎有相当多的工具可用在他们身上相当不足,所以我不知道他们大多数人做了什么,或者他们是否与最新的转储最新. (我非常擅长构建可以抓取相对较小的HTML页面/文件的网页抓取工具,虽然我对SQL和XML很糟糕,而且至少在一年之内,我不希望它们非常好.)我希望能够从脱机转储中获取HTML文件,而无需在线访问Wikipedia.

有没有人知道从最近的Wikipedia XML转储中获取静态HTML文件的好工具？

首先,import the data.然后使用 DumpHTML创建HTML文件.虽然理论上很简单,但由于涉及的数据量和DumpHTML有点被忽略,这个过程在实践中可能很复杂,因此请不要犹豫 ask for help.

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

php输出xml格式字符串

php输出xml格式字符串

J2ME Mobile 3D入门教程系列文章之一

J2ME Mobile 3D入门教程系列文章之一

XML轻松学习手册

XML轻松学习手册

XML入门的常见问题(一)

XML入门的常见问题(一)

XML入门的常见问题(三)

XML入门的常见问题(三)

XML轻松学习手册（2）XML概念

XML轻松学习手册（2）XML概念

xml文件介绍及使用

xml文件介绍及使用

xml编程(一)-xml语法

xml编程(一)-xml语法

XML文件结构和基本语法

XML文件结构和基本语法

第2章　包装类

第2章　包装类

XML入门的常见问题(二)

XML入门的常见问题(二)

Java对象的强、软、弱和虚引用

Java对象的强、软、弱和虚引用

JS解析XML文件和XML字符串详解

JS解析XML文件和XML字符串详解

java中枚举的详细使用介绍

java中枚举的详细使用介绍

了解Xml格式

了解Xml格式

XML入门的常见问题(四)

XML入门的常见问题(四)

深入SQLite多线程的使用总结详解

深入SQLite多线程的使用总结详解

PlayFramework完整实现一个APP（一）

PlayFramework完整实现一个APP（一）

XML和YAML的使用方法

XML和YAML的使用方法

XML轻松学习总节篇

XML轻松学习总节篇

热门文章

最新文章