spark考试(练习题)

点击下载练习题word文档!
点击下载RDD编程笔记!
编程题:

rddobj=sc. textFile("d: /words. txt"). flatMap(_ .split("")) . map((_ _,1)). reduceByKey(_+_ .)
rddobj . foreach(println)

1.(1.5分)单选题
1.5
下列选项中,哪个不属于消息系统()。

A Kafka
B RabbitMQ
C ActiveMQ
D Zookeeper
参考答案: D
解析:

2.(1.5分)单选题
1.5
下列选项中,说法正确的是()

A 批处理时间间隔必须是窗口滑动时间间隔的整数倍
B Kafka是SparkStreaming的基础数据源
C reduce(func)是DStream的输出操作
D DStream不可以通过外部数据源获取
参考答案: B
解析:

3.(1.5分)单选题
1.5
下列选项中,哪个不属于消息系统()。

A Kafka
B RabbitMQ
C ActiveMQ
D Zookeeper
参考答案: D
解析:

4.(1.5分)单选题
1.5
DStream的转换操作方法中,哪个方法可以直接调用RDD上的操作方法()。

A countByKey()
B updateStateByKey(func)
C cogroup(otherStream,[numTasks])
D transform(func)
参考答案: D
解析:

5.(1.5分)单选题
1.5
DStream的输出操作,不包括()。

A foreachRDD(func)
B print()
C flatMap(func)
D saveAsTextFiles(prefix)
参考答案: C
解析:

6.(1.5分)单选题
1.5
以下不属于实时计算框架的是()。

A Spark Streaming
B Flink
C Storm
D Spark SQL
参考答案: D
解析:

7.(1.5分)单选题
1.5
Spark Streaming中对DStream的转换操作会转变成对()的操作。

A sql
B dataset
C rdd
D dataframe
参考答案: C
解析:

8.(1.5分)单选题
1.5
关于DStream窗口操作函数,以下说法错误的是()。

A window()返回基于源DStream的窗口进行批计算后的一个新的DStream
B countByWindow()返回基于滑动窗口的DStream中的元素数
C reduceByWindow()做聚合操作并返回一个新的DStream
D 以上说法都不对
参考答案: D
解析:

9.(1.5分)单选题
1.5
关于Spark Streaming的优点,不包括哪个()

A 易用性
B 容错性
C 易整合性
D 低吞吐量
参考答案: D
解析:

10.(1.5分)单选题
1.5
HBase官方版本不可以安装在什么操作系统上?()

A Ubuntu
B RedHat
C CentOS
D Windows
参考答案: D
解析:

11.(1.5分)单选题
1.5
下列选项中,HBase是将哪个作为其文件存储系统的?()

A HDFS
B GFS
C MySQL
D MongoDB
参考答案: A
解析:

12.(1.5分)单选题
1.5
关于HBase的数据模型,以下说法错误的是()

A 每个HBase表中只能有一个行键
B HBase表的列是由列族名、限定符以及列名组成的。
C 列族中只能包括一个列
D Timestamp时间戳通常作为数据的版本号
参考答案: C
解析:

13.(1.5分)单选题
1.5
当MemStore存储的数据达到一个阈值()时,MemStore里面的数据就被flush到StoreFile文件。

A 128MB
B 256MB
C 512MB
D 64MB
参考答案: A
解析:

14.(1.5分)单选题
1.5
kafka集群中消息的消费模式有两种,分别是()

A 异步模式和同步模式
B 推送模式和拉取模式
C 并发模式和串行模式
D 独立模式和集群模式
参考答案: B
解析:

15.(1.5分)单选题
1.5
kafka集群中消息的传递模式有两种,分别是()

A 点对点模式和发布订阅模式
B 点对点模式和点对面模式
C 异步模式和同步模式
D 独立模式和集群模式
参考答案: A
解析:

16.(1.5分)单选题
1.5
关于kafka,以下描述错误的是()

A kafka使用scala和java语言编写的
B kafka是一个开源的流处理平台
C kafka只能在离线的大数据框架中处理数据
D kafka是分布式消息系统
参考答案: C
解析:

17.(1.5分)单选题
1.5
关于kafka的优点,不包括以下哪项()。

A 解耦
B 高吞吐量
C 高延迟
D 扩展性
参考答案: C
解析:

18.(1.5分)单选题
1.5
kafka的重要组件,不包括以下哪项()。

A Topic主题
B Partition分区
C Leader领导者
D MySQL组件
参考答案: D
解析:

19.(1.5分)单选题
1.5
以下哪项中,哪个选项是每个分区消息的唯一序列标识?()。

A Topic
B Broker
C Offset
D Partition
参考答案: C
解析:

20.(1.5分)单选题
1.5
关于SparkSQL,以下描述错误的是()

A SparkSQL使用的数据抽象并非是DataFrame,而是RDD
B 在Spark的早期版本中,DataFrame被称为SchemaRDD
C DataFrame是一种以RDD为基础的分布式数据集
D DataFrame可以完成RDD的绝大多数功能
参考答案: A
解析:

21.(1.5分)单选题
1.5
关于DataFrame与RDD在结构上的区别,以下描述错误的是()

A DataFrame可以看作是分布式的Row对象的集合,在二维表数据集的每一列都带有名称和类型。
B RDD是分布式的Java对象的集合
C RDD在转换数据形式时效率相对较高
D DataFrame提供了比RDD更丰富的算子
参考答案: C
解析:

22.(1.5分)单选题
1.5
关于DataFrame的优势,以下描述错误的是()

A DataFrame提升了Spark框架的执行效率
B DataFrame减少了数据读取时间
C DataFrame可以优化执行计划
D DataFrame可以完全替换RDD
参考答案: D
解析:

23.(1.5分)单选题
1.5
将一个RDD转换为DataFrame的方法是()

A dataFrame()
B toDataFrame()
C DF()
D toDF()
参考答案: D
解析:

24.(1.5分)单选题
1.5
SparkSQL可以处理的数据源包括()

A Hive表
B Hive表、数据文件
C Hive表、数据文件、RDD
D Hive表、数据文件、RDD、外部数据库
参考答案: D
解析:

25.(1.5分)单选题
1.5
SparkSQL中,model函数可以接收的参数有哪些()

A Override、Ignore
B Override、Ignore、Append
C Ignore、Append、ErrorIfExists
D Override、Ignore、Append、ErrorIfExists
参考答案: D
解析:

26.(1.5分)单选题
1.5
关于SparkSQL,以下说法正确的是()

A HiveContext继承了SqlContext
B DataFrame其实就是RDD
C HiveContext只支持SQL语法解析器
D SparkSQL的前身是Hive
参考答案: A
解析:

27.(1.5分)单选题
1.5
Dataset最终在()版本中被定义成Spark新特性

A Spark1.6
B Spark1.8
C Spark2.0
D Spark2.2
参考答案: C
解析:

28.(1.5分)单选题
1.5
关于Dataset,下列说法错误的是()

A Dataset能从RDD中构建
B Dataset提供了特定域对象中的弱类型集合
C Dataset结合了RDD和DataFrame的优点
D Dataset可以通过SparkSession中的createDataset来创建。
参考答案: B
解析:

29.(1.5分)单选题
1.5
下列选项中,()不属于HBase的特点

A 面向列
B 扩展性
C 多版本
D 容量小
参考答案: D
解析:

30.(1.5分)单选题
1.5
下列方法或属性中,哪个可以正确获取数组arr的长度?

A count()
B take()
C tail()
D length
参考答案: D
解析:

31.(1.5分)单选题
1.5
下列关于List的定义,哪个是错误的(  )

A val list=List(1,22,3)
B val list=List(“Hello”,”Scala”)
C val list:String=List(“A”,”B”)
D val list=ListInt
参考答案: C
解析:

32.(1.5分)单选题
1.5
在Scala中,获取元组的值是通过(  )

A 下划线加脚标
B 下标
C 索引
D 键名称
参考答案: A
解析:

33.(1.5分)单选题
1.5
在Scala中,模式匹配是由关键字(  )组成的

A switch case
B switch default
C match switch
D match case
参考答案: D
解析:

34.(1.5分)单选题
1.5
下列选项中,哪个不是Spark生态系统中的组件(  )

A Spark Streaming
B Mlib
C Graphx
D Spark R
参考答案: D
解析:

35.(1.5分)单选题
1.5
下面哪个端口不是Spark自带服务的端口(  )

A 8080
B 4040
C 8090
D 18080
参考答案: C
解析:

36.(1.5分)单选题
1.5
下列选项中,针对Spark运行的基本流程哪个说法是错误的(  )

A Driver端提交任务,向Master申请资源
B Master与Worker进行TCP通信,使得Worker启动Executor
C Executor启动会主动连接Driver,通过Driver-> Master->WorkExecutor,从而得到Driver在哪
D Driver 会产生Task,提交给Executor中启动Task去做真正的计算
参考答案: B
解析:

37.(1.5分)单选题
0
下列方法中,不能创建RDD的方法是?(  )

A makeRDD
B parallelize
C textFile
D testFile
参考答案: D
解析:

38.(1.5分)单选题
1.5
下列选项中,哪个不属于转换算子操作?(  )

A filter(func)
B map(func)
C reduce(func)
D reduceByKey(func)
参考答案: C
解析:

39.(1.5分)单选题
1.5
下列选项中,能使RDD产生宽依赖的是?(  )

A map(func)
B filter(func)
C union
D groupByKey()
参考答案: D
解析:

40.(1.5分)单选题
1.5
下列选项中,哪个是Scala编译后文件的扩展名?

A .class
B .bash
C .pyc
D .sc
参考答案: A
解析:

41.(1.5分)多选题
1.5
Spark集群的部署模式有( )。

A Standalone模式
B Yarn模式
C Local模式
D mesos模式
参考答案: A B D
解析:

42.(1.5分)多选题
0
Spark集群的运行框架由( )、Cluster Manage和( ) 组成。

A Task
B SparkContext
C Worker
D Executor
参考答案: B C
解析:

43.(1.5分)多选题
1.5
RDD的操作主要是哪2种操作()。

A 转换算子操作
B 分组操作
C 读写操作
D 行动算子操作
参考答案: A D
解析:

44.(1.5分)多选题
1.5
下列属于RDD的转换算子的是()。

A groupByKey()
B reduce()
C reduceByKey()
D map()
参考答案: A C D
解析:

45.(1.5分)多选题
1.5
下列属于RDD的行动算子的是()。

A count()
B first()
C take()
D filter()
参考答案: A B C
解析:

46.(1.5分)多选题
1.5
Spark要想很好的支持SQL,需要完成三大过程。这三大过程包括()

A 加载load
B 解析parser
C 优化optimizer
D 执行execution
参考答案: B C D
解析:

47.(1.5分)多选题
1.5
Spark生态系统包含(  )、Spark Sql、( )、MLib、( ) 以及独立调度器组件。

A Spark Core
B Spark Streaming
C GraphX
D Spark R
参考答案: A B C
解析:

48.(1.5分)多选题
1.5
Scala语言的特性包含( )、函数式编程、( )、可扩展的、( )

A 面向过程
B 面向对象
C 静态类型
D 可以交互操作
参考答案: B C D
解析:

49.(1.5分)多选题
1.5
在Scala数据类型层级结构的底部有两个数据类型,分别是( )

A Nothing
B Null
C AnyVal
D AnyRef
参考答案: A B
解析:

50.(1.5分)多选题
1.5
在Scala中,声明变量的关键字有( )

A val
B int
C var
D String
参考答案: A C
解析:

51.(1分)判断题
1
宽依赖是指每一个父RDD的分区最多被子RDD的一个分区使用

A) 正确
B) 错误
参考答案: B
解析:

52.(1分)判断题
1
窄依赖是划分Stage的依据

A) 正确
B) 错误
参考答案: B
解析:

53.(1分)判断题
1
安装Scala之前必须配置JDK

A) 正确
B) 错误
参考答案: A
解析:

54.(1分)判断题
1
Scala语言是一种面向过程编程语言

A) 正确
B) 错误
参考答案: B
解析:

55.(1分)判断题
1
在Scala中定义变长数组时,需要导入可变数组包

A) 正确
B) 错误
参考答案: A
解析:

56.(1分)判断题
1
Scala语言和Java语言一样,都有静态方法或静态字段

A) 正确
B) 错误
参考答案: B
解析:

57.(1分)判断题
1
Spark比Hadoop计算的速度快

A) 正确
B) 错误
参考答案: A
解析:

58.(1分)判断题
1
部署Spark高可用集群不需要用到 Zookeeper服务

A) 正确
B) 错误
参考答案: B
解析:

59.(1分)判断题
1
Spark Master HA 主从切换过程不会影响集群已有的作业运行

A) 正确
B) 错误
参考答案: A
解析:

60.(1分)判断题
1
RDD采用了惰性调用,即在RDD的处理过程中,真正的计算发生在RDD的“行动”操作

A) 正确
B) 错误
参考答案: A
解析:

61.(15分)问答题
简述如何在Spark中划分Stage

spark任务会根据rdd之间的依赖关系,形成一个DAG有向无环图,DAG会提交给DAGScheduler,DAGScheduler会把DAG划分互相依赖的多个stage,划分依据就是宽窄依赖,遇到宽依赖就划分stage,每个stage包含一个或多个stage,每个stage包含一个或多个task,然后将这些task以taskSet的形成提交给TaskScheduler运行,stage是由一组并行的task组成。
参考答案:
会根据RDD之间的依赖关系将DAG图划分为不同的阶段,对于窄依赖,由于partition依赖关系的确定性,partition的转 处理就可以在同一个线程里完成,窄依赖就被spark划分到同一个stage中,而对于宽依赖,只能等父RDD shuffle处理完成后,下一个stage才能开始接下来的计算。之所以称之为ShuffleMapTask是因为它需要将自己的计算结果通过shuffle到下一个stage中。spark划分stage的整体思路是:从后往前推,遇到宽依赖就断开,划分为一个stage;遇到窄依赖就将这个RDD加入该stage中
解析:

原文地址:https://blog.csdn.net/qq_52754254/article/details/125257076

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读301次。你可以使用Thrift客户端来测试HBase Thrift服务。例如,在Python中,你可以使用。请确保你的HBase伪集群已正确配置并且Thrift服务已经启动。这将在你的伪集群中启动HBase Thrift服务。库或者直接使用Thrift接口。进入HBase的安装目录,找到。请根据需要进行相应的配置。这将停止Thrift服务。_hbase 单机 thrift 配置
文章浏览阅读565次。hive和hbase数据迁移_hive转hbase
文章浏览阅读707次。基于单机版安装HBase,前置条件为Hadoop安装完成,安装Hadoop可以参考链接,Hadoop单机安装。地址:https://dlcdn.apache.org/hbase/2.4.13/hbase-2.4.13-src.tar.gz2.解压缩文件3.进入到conf目录下4.修改配置文件 hbase-env.sh示例:示例:6.修改配置文件 hbase-site.xml示例:8.访问页面访问你所以在服务器的16010端口,查看页面以上就是单机版安装HBase的内容,后续_hbase 2.4.13下载
文章浏览阅读301次。linux集群搭建-HBase_linux中在/home目录下创建目录hbase
文章浏览阅读933次。中没有库的概念,说一个数据说的是哪一个名称空间下的那一张表下的哪一个行键的哪一个列族下面的哪一个列对应的是这个数据。注意:put数据需要指定往哪个命名空间的哪个表的哪个rowKey的哪个列族的哪个列中put数据,put的值是什么。注意:put数据需要指定往哪个命名空间的哪个表的哪个rowKey的哪个列族的哪个列中put数据,put的值是什么。注意:put数据需要指定往哪个命名空间的哪个表的哪个rowKey的哪个列族的哪个列中put数据,put的值是什么。操作Hbase系统DDL,对名称空间等进行操作。_hbase中报错undefined method for main:object
文章浏览阅读1k次,点赞16次,收藏21次。整理和梳理日常hbase的监控核心指标,作为经验沉淀_hbase 对应promethus指标名
文章浏览阅读1.5k次,点赞45次,收藏20次。今天把之前学习Hbase的入门基础知识笔记翻出来了,为了不忘记也是帮助身边的小伙伴,我把他又整理了下放了出来给大家,希望对HBASE一知半解的小伙伴,能够对Hbase有一个清晰的认识,好了废话不多说,进入正题。以上内容就是初的识HBase 入门知识,包含了hbase的由来,特性,物理存储,逻辑存储模型,以及优缺点,应用场景这些内容,相信后面在使用或更深入的研究Hbase打下了良好的基础,后面的更深入的学习内容,看计划安排在后面的文章中进行更新。
文章浏览阅读655次。HDFS,适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。Hbase,是一个分布式的、面向列的开源数据库,适合于非结构化数据存储。MapReduce,一种编程模型,方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。Chukwa,是一个开源的用于监控大型分布式系统的数据收集系统。_开源非结构化数据存储
文章浏览阅读1.9k次。mongodb和hbase的区别和应用场景_hbase和mongodb的区别
文章浏览阅读1.2k次。Hbase入门篇01---基本概念和部署教程_hbase教程
文章浏览阅读1.6k次,点赞19次,收藏25次。hbase相关内容
文章浏览阅读942次,点赞16次,收藏20次。在hbase1.x中transition是令广大大数据运维人员头疼的一个话题,因为,region 的状态转移涉及到了三个核心组件,分别为:hbase master,zookeeper和hbase 的regionserver,这三个组件中的某一个region的状态都是一致的情况下,这个region 才算是正常,状态转移过程及其复杂,hbase 集群很容易出现RIT。好消息是,hbase2.x中有个工具HBCK2,这个工具可不是简单的hbase1.x中hbck 的升级,变化有点大,详细变化请参考帮助文档(
文章浏览阅读1k次。在HBase中,Region分裂是一种自动的机制,用于在Region大小达到一定阈值时将其分裂成两个Region,以便更好地管理数据。HBase中的Region大小是可以配置的,通过设置HBase表的最小和最大Region大小来控制。需要注意的是,禁止Region分裂后,当表的大小达到一定阈值时,数据将不再分裂成新的Region,因此需要根据实际需求进行调整。需要注意的是,禁止Region分裂后,当表的大小达到一定阈值时,数据将不再分裂成新的Region,因此需要根据实际需求进行调整。_hbase region大小
文章浏览阅读737次。可以看出,HBase作为数据仓库的一种补充,可以用于存储和管理大量数据,以便快速地分析和查询。是一种基于数据库的形式,用于存储和管理大量数据,以便快速地分析和查询。例如,可以使用HBase存储一些用户行为数据,然后进行分析,以便更好地了解用户行为和需求。其次,需要配置HBase相关的环境变量,例如JAVA_HOME、HBASE_HOME等。HBase可以用于存储结构化和非结构化数据,包括文本、图像、视频等。例如,可以使用HBase存储一些传感器数据,然后进行实时分析和处理。一、HBase集群环境搭建。_用hbase 搭建数仓
文章浏览阅读1.9k次。Data。_springboot整合hbase
文章浏览阅读880次,点赞23次,收藏20次。etc/abrt下的两个文件,分别是:abrt-action-save-package-data.conf 和 abrt.conf,修改内容如下。我们后面排查的时候去查看/run/cloudera-scm-agent/process/2325-hbase-REGIONSERVER下是否有。发现有个hs_err_pid15967.log JVM生成的错误日志,那么把这个日志下载查看,返现日志这么写的。接下来就等下一次hbase的节点挂了之后查看转储文件,转储文件在/var/sqool/abrt下。_regionserver 退出 没有错误日志
文章浏览阅读1.7k次。以下命令都需要在Hbase Shell中运行:Hbase信息status:服务器状态version:版本表操作查看所有表:list表基本信息:describe "表名称"查看表是否存在:exists '表名称'创建表:create '表名称', '列族1', '列族2', '列族3'删除表:首先禁用表:disable '表名称'然后删除表:drop '表名称'修改表:表数据操作查看所有数据:scan "表名称"..._hbase sehll怎么看登录的是哪个hbase
文章浏览阅读885次,点赞18次,收藏21次。在HBase中执行查询操作通常使用HBase Shell或编程语言API(如Java或Python)来执行。使用编程语言API,您可以使用相应的HBase客户端库来执行查询操作。这是一个简单的Java代码示例,演示了如何使用HBase Java API进行单行查询。这些示例仅为基本查询操作,HBase Shell还提供其他高级查询功能,如按时间戳过滤,使用正则表达式进行查询等。请注意,这只是HBase查询的基本示例,您可以根据实际需求和HBase的数据模型进行更复杂的查询操作。
文章浏览阅读7.3k次,点赞7次,收藏28次。找到hbase的bin目录并进入,执行启动hbase hmaster命令。问题原因 hmaster挂了 ,需要重新启动hmaster才行。hbase shell输入命令出现如下问题。_keepererrorcode = nonode for /hbase/master
文章浏览阅读1.3k次。三次信息化浪潮。_大数据应用开发技术笔记