如何解决如何使用 Pentaho 的 MongoDB 输入步骤加载增量数据?
我正在使用 Pentaho DI (Spoon) 将大约 7 亿条现有数据记录从 MongoDB 到 MySQL 仓库进行 ETL,之后我需要用每天添加的大约 100,000 条新记录更新仓库。
问题是每次我在初始加载 700m 记录后运行作业时,Pentaho 中的“MongoDB Input”步骤尝试读取所有 mongo 源数据(即之前的 700m 加上几十万条新记录)每天添加)这需要很长时间。我只希望它读入它以前从未见过的数据,类似于 AWS Glue 书签,但似乎无法弄清楚如何做到这一点。换句话说,我想做一些类似从 MongoDB 源读取增量数据的事情。以前有人解决过这个问题吗?
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。