1. Spark Streaming 是什么 ?
Spark Streaming 是 Spark Core 的扩展API 用来支持 高吞吐、高容错的 处理 流式数据 数据源可以是 : Kafka、TCP sockets、Flume、Twitter等流式数据源 处理数据: 可以用 Spark Core的算子 map、reduce、join、window 来处理数据 数据输出: 可以将处理后的数据 输出到 文件系统(HDFS)、数据库、live dashboards(实时仪表盘) Spark Streaming是Spark的上一代 流式引擎 Spark Streaming 不在更新,它是一个传统项目 Spark 现在又提供了一个 更新、更容易使用的流式引擎,Spark Structured Streaming
2. Spark Streaming 工作流程 ?
Spark Streaming接收实时的输入数据流 将数据进行批量处理,再由Spark引擎进行处理,最终批量生成结果流 (本质还是将数据 封装成RDD 进行处理)
Receiver 接收数据流 -> 生成 DStream(一系列RDD) -> SparkConext 处理 RDD -> 输出处理结果
原文地址:https://www.cnblogs.com/bajiaotai/p/16563203.html
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。