如何解决将ETL作业从IBM Datastage转换为Apache Spark
大约10年以来,我们所有的ETL工作负载均基于IBM Datastage和Oracle作为数据库进行设计,但是现在,企业正在开源平台中寻求可提供分布式并行计算,可以在更短的时间内完成相同的任务,并节省一些技术成本。 我一直以来都不是Java人士,但是我拥有Python知识,并且还接受过Apache Spark的正规培训,我想利用这些知识将现有的Datastage设计转换为Spark。 下面给出的是我们目前在所有Datastage作业中正在执行的一些常见操作
- 从平面文件(txt / csv)中读取数据
- 在其他小型数据表上执行查找(正常/范围/稀疏)
- 执行与其他大表的联接
- 将数据写入表
- 调用Siebel企业集成管理器以将数据从一个表加载到Siebel表
- 从多个表中提取数据并创建单个平面文件(txt / csv)
- 将文件ftp到目标服务器
可以通过Spark完成所有这些操作吗? 至少我正在尝试重新创建Spark中的步骤#1,#2,#3,#4和#6,(据我所知,这是可以实现的。)
请帮助/将我重定向到在这方面有帮助的资源。
解决方法
DataStage可以在Spark上运行。与您的IBM客户代表联系。 https://www.ibm.com/support/knowledgecenter/SSZJPZ_11.7.0/com.ibm.swg.im.iis.ds.fd.doc/topics/t_config_spark.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。