如何解决如何每月自动用一个较新的文件替换网站中的大.xml数据库文件?
我现在正在一个项目上,该项目使用来自网站的大型xml数据库文件(通常类似于8gb)中的数据。该网站每月都会更新此数据库文件,因此每个月都有一个更新,更准确的数据库文件。
大约一年前,我开始了我的项目,所以它使用的是自2019年2月起的数据库文件。为了使人们使用我的程序,我希望在以下情况下每月用新文件替换该数据库文件:推出了。
我该如何在我的项目中实现此目的,所以不必每月手动用一个新的文件替换该文件?我应该在程序中写些东西吗?但是,如果是这样,它只会在程序运行时更新。还是有办法让脚本每月自动检查一次?
注意:该项目尚未被人们使用,还有很长的路要走,但是我试图在可以发布它之前就弄清楚如何实现这些功能。
解决方法
我首先要确定是否在您可以利用的XML数据之上构建了一个API,而不是将XML下载到您自己的网站中。这样,您始终可以获取最新版本的数据,因为您可以按需提取数据。
但是,如果您要以任何高频率访问API,或者要从所述API提取大型数据集,按需集成都不是一个好主意。在这种情况下,您需要ETL集成。研究开源ETL工具(仅Google),以自动方式移动数据;我建议将XML导入MongoDB或其他数据库,然后从那里提取数据,而不是从平面文件中读取数据。
如果您绝对必须将其作为平面文件使用,请考虑使用Gatsby;这是静态网站的框架,需要每隔一段时间重新构建一次。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。