如何进行Spark数据分析

本篇文章给大家分享的是有关如何进行Spark数据分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

一、Spark数据分析导论

1.Spark是一个用来实现快速而通用的集群计算的平台,扩展了MapReduce计算模型,支持更多计算模式,包括交互式查询和流处理

2.包括Spark Core、Spark SQL、Spark Streaming(内存流式计算)、MLlib(机器学习)、GraphX(图计算)

3.适用于数据科学应用和数据处理应用

二、Spark下载与入门

1.Spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动程序通过一个SparkContext对象来访问Spark,这个对象代表对计算集群的一个连接

三、RDD编程

1.RDD(Resilient Distributed Dataset,弹性分布式数据集),就是分布式的元素集合,在Spark中,对数据的所有操作就是创建RDD、转化RDD以及调用RDD操作进行求值

2.工作方式:

  • 从外部数据创建出输入RDD

  • 使用诸如filter()这样的转化操作对RDD进行转化,以定义新的RDD

  • 告诉Spark对需要被征用的中间结果RDD执行persist()操作

  • 使用行动操作(例如count()和first()等)来触发一次并行计算,Spark会对计算进行优化后再执行

3.RDD的转化操作都是惰性求值 的,在调用行动操作之前Spark不会开始计算

4.常用转化操作:map()和filter()

四、键值对操作

1.pair RDD(键值对RDD),Spark提供了一些专有操作

2.Spark程序可以通过控制RDD分区方式来减少通信开销,只有当数据集多次在诸如连接这种基于键的操作中使用时,分区才会有帮助

3.在Java中使用partitioner()方法获取RDD的分区方式

4.Spark的许多操作都引入了将数据根据键跨节点进行混洗的过程,这些操作都在分区中获益

五、数据读取与保存

1.将一个文本文件读取为RDD时,输入的每一行都会成为RDD的一个元素,也可以将多个完整文件一次性读取为一个pair RDD

2.JSON数据是将数据作为 文本文件读取,然后使用JSON解析器对RDD中的值进行映射操作,在Java和Scala中也可以使用一个自定义Hadoop格式来操作JSON数据

3.SequenceFile是由没有相对关系结构的键值对文件组成的常用Hadoop格式,有同步标记,Spark可以用它来定位到文件中的某个点,然后再与记录的边界对齐

六、Spark编程进阶

1.累加器:提供了将工作节点中的值聚合到驱动器程序中的简单语法,常用于调试时对作业执行过程中的事件进行计数

2.广播变量:让程序高效地向所有工作节点发送一个较大的只读值,以供一个或多个Spark操作使用

3.Spark的pipe()方法可以让我们使用任意一种语言实现Spark作业中的部分逻辑,只要能读写Unix标准流就行

4.Spark的数值操作是通过流式算法实现的,允许以每次一个元素的方式构建出模型

七、在集群上运行Spark

1.在分布式环境下,Spark集群采用的是主/从结构,中央协调节点称为驱动器(Driver)节点,工作节点称为执行器(executor)节点,能过集群管理器(Cluster Manager)的外部服务在集群中的机器上启动Spark应用

2.驱动器程序:把用户程序转为任务;为执行器节点调度任务

3.使用bin/spark-submit部署

4.可以使用其他集群管理器:Hadoop YARN和Apache Mesos等

八、Spark调优与调试

1.修改Spark应用的运行时配置选项,使用SparkConf类

2.关键性性能考量:并行度、序列化格式、内存管理、硬件供给

九、Spark SQL

1.三大功能:

  • 可能从各种结构化数据源中读取数据

  • 不仅支持在Spark程序内使用SQL语句进行数据查询,也支持外部工具中通过标准数据库连接器(JDBC/ODBC)连接Spark SQL进行查询

  • 支持与常规的Python/Java/Scala代码高度整合,包括RDD与SQL表、公开的自定义SQL函数接口等

2.提供了SchemaRDD,是存放Row对象的RDD,每个Row对象代表一行记录,可以利用结构信息更加高效地存储数据

十、Spark Streaming

1.Spark Streaming:允许用户使用一套和批处理非常接近的API来编写流式计算应用,这样就可以大量重用批处理应用的技术甚至代码

2.Spark Streaming使用离散化流(discretized stream)作为抽象表示,叫做DStream,是随时间推移而收到的数据的序列

十一、基于MLlib的机器学习

1.MLlib:Spark中提供机器学习函数的库,专为在集群上并行运行的情况而设计,包含许多机器学习算法,把数据以RDD的形式表示,然后在分布式数据集上调用各种算法

2.机器学习算法根据训练数据(training data)使得表示算法行为的数学目标最大化,并以此来进行预测或作出决定,解决问题包括分类、回归、聚类等

以上就是如何进行Spark数据分析,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程之家行业资讯频道。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


1.SparkStreaming是什么?SparkStreaming是SparkCore的扩展API用来支持高吞吐、高容错的处理流式数据数据源可以是:Kafka、TCPsockets、Flume、Twitter等流式数据源处理数据:可以用SparkCore的算子map、reduce、join、window
本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这...
本篇文章给大家分享的是有关如何进行Spark数据分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说...
本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“S...
这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数据分析”,在日常操作中,相信很多人在TSDB的数据怎么利用Hadoop/spark集群做数据分析问题上存在疑惑...
本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这
小编给大家分享一下Hadoop和Spark有什么不同,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们
这篇文章主要讲解了“Hadoop和Spark的Shuffle过程有什么不同”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习...
本篇文章给大家分享的是有关基于CDP7.1.1的Spark3.0技术预览版本分析是怎样的,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获...
这篇文章主要介绍“Spark中foreachRDD、foreachPartition和foreach的区别是什么”,在日常操作中,相信很多人在Spark中foreachRDD、foreachPartition和foreach的...
本篇内容主要讲解“spark的动态分区裁剪怎么实现”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“spark的动态分...
本篇内容介绍了“spark的动态分区裁剪下物理计划怎么实现”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下
这篇文章给大家介绍基于Spark和TensorFlow 的机器学习实践是怎么样的,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。EMR E-Learning平台...
这篇文章将为大家详细讲解有关如何进行EMR Spark-SQL性能极致优化的分析,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识...
如何进行SparkSQL与Hive metastore Parquet转换的分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决...
如何浅析Hive和Spark SQL读文件时的输入任务划分,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个...
这篇文章将为大家详细讲解有关Hive on Spark参数如何调优,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。前言Hive on Spa...
这篇文章将为大家详细讲解有关fs.defaultFS变更使spark-sql查询hive失败是怎么回事,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以...
这篇文章将为大家详细讲解有关怎么解析SparkCore和SparkSQL,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解...
怎么快速搭建Spark开发环境,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。一,搭建本...