如何解决使用Spark和Spark Streaming构建服务
我已经阅读了一些有关火花流的知识,我想知道是否有可能从以Rabbitmq作为代理的自定义源中流数据,并通过Spark流将其提供给Spark机器学习和图形处理算法对它们执行操作,然后将其发送到其他文件系统/数据库/仪表板或客户接收器。
P.S我用python编写代码,我没有使用spark的经验,可以调用我尝试实现的微服务吗?
谢谢。
解决方法
我觉得火花结构化的流媒体比火花流媒体更合适,更容易实现。 Spark结构化流遵循以下概念
来源(从RabbitMQ读取)-转换(应用ML算法)-接收器 (写入数据库)
您可以参考this github项目以获取有关Spark结构化流的示例。
我认为没有内置的Spark连接器可以从RabbitMq中使用。我知道Kafka有一个,但是您可以编写自己的自定义源和接收器(在没有任何火花知识的情况下编写此源可能很棘手)。
您可以将其作为火花作业启动,并且必须创建一个包装器服务层,将其触发为火花作业(spark job launcher)或使用spark rest api
https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。