大数据技术原理与应用最后三天备考了!!!

大数据原理与应用期末备考 三天速成不挂科

简答题直达 → 简答部分

正确答案已标出

第一章 大数据概述

单选

  1. 被誉为全球未来的三大高科技产业除了塑料电子学和仿生人体器官外,还有()
    A、物联网
    B、数学
    C、经典力学
    D、社会学

  2. 云计算的基础层是()
    A、IaaS 层
    B、PaaS层
    C、SaaS层
    D、BaaS层

  3. 云计算是对( )技术的发展与运用。
    A、并行计算
    B、网格计算
    C、分布式计算
    D、三个选项都是

  4. 云计算的中间层是()
    A、IaaS 层
    B、PaaS层
    C、SaaS层
    D、BaaS层

  5. 云计算里面面临的一个很大的问题,就是( )
    A、服务器
    B、存储
    C、计算
    D、节能

  6. 与开源云计算系统HadoopHDFS相对应的商用云计算软件系统是( )
    A、GoogleGFS
    B、GoogleMapReduce
    C、GoogleBigtable
    D、GoogleChubby

  7. 云计算体系结构的( )负责资源管理、任务管理用户管理和安全管理等工作。
    A、物理资源层
    B、资源池层
    C、管理中间件层
    D、SOA构建层

  8. 云计算就是把计算资源都放到( )上。
    A、对等网
    B、因特网
    C、广域网
    D、无线网

多选

  1. 工业4.0 通过自主控制、联网和计算,使人、机器和信息相互连接,融为一体,包括:( )
    A、智能工厂
    B、智能生产
    C、智能物流

    D、智能金融

  2. “ 互联网+ ” 行动计划重点是促进以( )为代表的新一代信息技术与现代制造业、生产性服务等的融合创新。
    A、云计算
    B、物联网
    C、大数据

    D、云存储

  3. 大数据具有哪些特征( )
    A、数据类型繁多
    B、价值密度低
    C、数据量大
    D、处理速度快

  4. 下列系统中,属于开源系统的是()
    A、GFS 文件系统
    B、HDFS 文件系统
    C、HBase 数据管理模块

    D、BigTable 数据管理模块

  5. 云架构包含以下哪些?
    A、基础设施层
    B、服务层
    C、应用层
    D、平台层

  6. 云解决方案包括()
    A、云平台开发
    B、云咨询
    C、云迁移
    D、云测试

  7. 大数据催生的三元空间世界包括( )
    A、物理空间
    B、社会空间
    C、数据空间

    D、网络空间

  8. 从研究现状上看,下面属于云计算特点的是( )
    A、超大规模
    B、虚拟化

    C、私有化
    D、高可靠性

第二章 大数据处理架构 Hadoop

单选

  1. 在 Hadoop 项目结构中,MapReduce 指的是什么?
    A、流计算框架
    B、分布式并行编程模型
    C、Hadoop上的工作流管理系统
    D、提供分布式协调一致性服务

  2. 假设设置的副本数(即参宿 dfs.replication )是 3,现在系统中有 5 个副本,那么系统会删除几个副本。
    A、4
    B、5
    C、1
    D、2

  3. 哪个是第三次信息化浪潮的标志。
    A、个人计算机
    B、互联网
    C、信息处理
    D、云计算,物联网和大数据

  4. 二维码目前不能表示的数据类型是()。
    A、文字
    B、数字
    C、二进制
    D、视频

  5. Hadoop 框架中最核心的设计是什么?
    A、为海量数据提供存储的 HDFS 和对数据进行计算的 MapReduce
    B、提供整个 HDFS 文件系统的 NameSpace (命名空间)管理、块管理等所有服务
    C、Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计算环境中
    D、Hadoop被视为事实上的大数据处理标准

  6. ( )是负责对物联网收集到的信息进行处理、管理、决策的后台计算处理平台。
    A、感知层
    B、网络层
    C、云计算平台
    D、物理层

  7. 权威的物联网的概念是()年发布的《物联网报告》中所提出的定义。
    A、1998
    B、1999
    C、2000
    D、2005

  8. 下列那个不是常见的关系数据库?()
    A、Oracle
    B、SQL Server
    C、MySQL
    D、Qcreator

  9. 为数据中心选取地址时,一般不会优先考虑下面哪个因素
    A、是否有廉价的电能
    B、是否靠近大型水源
    C、是否有较大面积的空地
    D、是否有良好的空气质量

  10. 下列哪个不属于 Hadoop 的特性
    A、成本高
    B、高可靠性
    C、高容错性
    D、运行在Linux平台上

  11. 物联网的概念,最早是由美国的麻省理工学院在()年提出来的。
    A、1998
    B、1999
    C、2000
    D、2002

  12. 当前大数据技术的基础是由( )首先提出的。
    A、微软
    B、百度
    C、谷歌
    D、阿里巴巴

  13. 配置Hadoop时,JAVA_HOME 包含在哪一个配置文件中。
    A. hadoop-default.xml
    B. hadoop-env.sh
    C. hadoop-site.xml
    D. configuration.xsl

  14. 世界上第一个原始的搜索引擎为()。
    A、W3Catalog
    B、Aliweb
    C、Google
    D、Baidu

  15. 利用 RFID、传感器、二维码等随时随地获取物体的信息,指的是()。
    A、可靠传递
    B、全面感知
    C、智能处理
    D、互联网

  16. 在云计算平台中,()软件即服务。
    A、IaaS
    B、PaaS
    C、SaaS
    D、QaaS

  17. 关于Hadoop单机模式和伪分布式模式的说法,正确的是
    A. 两者都起守护进程,且守护进程运行在一台机器上
    B. 单机模式不使用 HDFS,但加载守护进程
    C. 两者都不与守护进程交互,避免复杂性
    D. 后者比前者增加了 HDFS 输入输出以及可检查内存使用情况

  18. 运用云计算、数据挖掘以及模糊识别等人工智能技术,对海量的数据和信息进行分析和处理,对物体实施智能化的控制,指的是()。
    A、可靠传递
    B、全面感知
    C、智能处理
    D、互联网

第三章 分布式文件系统 HDFS

单选

  1. 分布式文件系统指的是什么?
    A、把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
    B、用于在 Hadoop 与传统数据库之间进行数据传递
    C、一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
    D、一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据

  2. 下面哪一项不属于计算机集群中的节点?
    A、主节点(Master Node)
    B、源节点(SourceNode)
    C、名称结点(NameNode)
    D、从节点(Slave Node)

  3. 在HDFS2.X中,默认一个块多大?
    A、64MB
    B、32MB
    C、128MB
    D、16MB

  4. 下列哪一项不属于 HDFS 采用抽象的块概念带来的好处?
    A、简化系统设计
    B、支持大规模文件存储
    C、强大的跨平台兼容性
    D、适合数据备份

  5. 在 HDFS 中,NameNode 的主要功能是什么?
    A、维护了 block id 到 datanode 本地文件的映射关系
    B、存储文件内容
    C、文件内存保存在磁盘中
    D、存储元数据

  6. 下面对 FsImage 的描述,哪个是错误的?
    A、FsImage 文件没有记录每个块存储在哪个数据节点
    B、FsImage 文件包含文件系统中所有目录和文件 inode 的序列化形式
    C、FsImage 用于维护文件系统树以及文件树中所有的文件和文件夹的元数据
    D、FsImage 文件记录了每个块具体被存储在哪个数据节点

  7. 下面对 SecondaryNameNode 第二名称节点的描述,哪个是错误的?
    A、SecondaryNameNode 一般是并行运行在多台机器上
    B、它是用来保存名称节点中对 HDFS 元数据信息的备份,并减少名称节点重启的时间
    C、SecondaryNameNode 通过 HTTPGET 方式从 NameNode 上获取到 FsImage 和 EditLog 文件,并下载到本地的相应目录下
    D、SecondaryNameNode 是 HDFS 架构中的一个组成部分

  8. HDFS采用了什么模型?
    A、分层模型
    B、主从结构模型
    C、管道-过滤器模型
    D、点对点模型

  9. 在 Hadoop 项目结构中,HDFS 指的是什么?
    A、分布式文件系统
    B、流数据读写
    C、资源管理和调度器
    D、Hadoop上的数据仓库

  10. 下列关于HDFS的描述,哪个不正确?
    A、HDFS还采用了相应的数据存放、数据读取和数据复制策略,来提升系统整体读写响应性能
    B、HDFS采用了主从(Master/Slave)结构模型
    C、HDFS采用了冗余数据存储,增强了数据可靠性
    D、HDFS采用块的概念,使得系统的设计变得更加复杂

多选

  1. HDFS 要实现以下哪几个目标?
    A、兼容廉价的硬件设备
    B、流数据读写
    C、大数据集

    D、复杂的文件模型

  2. HDFS 特殊的设计,在实现优良特性的同时,也使得自身具有一些应用局限性,主要包括以下哪几个方面?
    A、较差的跨平台兼容性
    B、无法高效存储大量小文件
    C、不支持多用户写入及任意修改文件
    D、不适合低延迟数据访问

  3. HDFS 采用抽象的块概念可以带来以下哪几个明显的好处?
    A、支持大规模文件存储
    B、支持小规模文件存储
    C、适合数据备份
    D、简化系统设计

  4. 在 HDFS 中,名称节点主要保存了哪些核心的数据结构?
    A、FsImage
    B、DN8
    C、Block
    D、EditLog

  5. 数据节点的主要功能包括哪些?
    A、负责数据的存储和读取
    B、根据客户端或者是名称节点的调度来进行数据的存储和检索
    C、向名称节点定期发送自己所存储的块的列表

    D、用来保存名称节点中对 HDFS 元数据信息的备份,并减少名称节点重启的时间

  6. HDFS 的命名空间包含什么?
    A、磁盘
    B、文件
    C、块
    D、目录

  7. 下列对于客服端的描述,哪些是正确的?
    A、客户端是用户操作 HDFS 最常用的方式,HDFS 在部署时都提供了客户端
    B、HDFS 客户端是一个库,暴露了 HDFS 文件系统接口
    C、严格来说,客户端并不算是 HDFS 的一部分
    D、客户端可以支持打开、读取、写入等常见的操作

  8. HDFS 只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但也带来了哪些明显的局限性?
    A、命名空间的限制
    B、性能的瓶颈
    C、隔离问题
    D、集群的可用性

  9. HDFS 数据块多副本存储具备以下哪些优点?
    A、加快数据传输速度
    B、容易检查数据错误
    C、保证数据可靠性

    D、适合多平台上运行

  10. HDFS 具有较高的容错性,设计了哪些相应的机制检测数据错误和进行自动恢复?
    A、数据源太大
    B、数据节点出错
    C、数据出错
    D、名称节点出错

第四章 MapReduce

单选

  1. 下列传统并行计算框架,说法错误的是哪一项?
    A、刀片服务器、高速网、SAN,价格贵,扩展性差上
    B、共享式(共享内存/共享存储),容错性好
    C、编程难度高
    D、实时、细粒度计算、计算密集型

  2. 下列关于 MapReduce 模型的描述,错误的是哪一项?
    A、MapReduce 采用 “ 分而治之 ” 策略
    B、MapReduce 设计的一个理念就是 “ 计算向数据靠拢 ”
    C、MapReduce 框架采用了 Master/Slave 架构
    D、MapReduce应用程序只能用Java来写

  3. MapReduce1.0 的体系结构中,JobTracker 是主要任务是什么?
    A、负责资源监控和作业调度,监控所有 TaskTracker 与 Job 的健康状况
    B、使用 “ slot ” 等量划分本节点上的资源量(CPU、内存等)
    C、会周期性地通过 “ 心跳 ” 将本节点上资源的使用情况和任务的运行进度汇报给 TaskTracker
    D、会跟踪任务的执行进度、资源使用量等信息,并将这些信息告诉任务(Task)

  4. 下列关于 MapReduce 工作流程,哪个描述是正确的?
    A、所有的数据交换都是通过 MapReduce 框架自身去实现的
    B、不同的Map任务之间会进行通信
    C、不同的Reduce任务之间可以发生信息交换
    D、用户可以显式地从一台机器向另一台机器发送消息

  5. 下列关于 MapReduce 的说法,哪个描述是错误的?
    A、MapReduce具有广泛的应用,比如关系代数运算、分组与聚合运算等
    B、MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数
    C、编程人员在不会分布式并行编程的情况下,也可以很容易将自己的程序运行在分布式系统上,完成海量数据集的计算
    D、不同的 Map 任务之间可以进行通信

  6. 下列关于 Map 和 Reduce 函数的描述,哪个是错误的?
    A、Map将小数据集进一步解析成一批<key,value>对,输入Map函数中进行处理
    B、Map每一个输入的<k 1,v 1 >会输出一批<k 2,v 2 >。<k 2,v 2 >是计算的中间结果
    C、Reduce输入的中间结果<k 2,List(v 2 )>中的List(v 2 )表示是一批属于不同k 2 的value
    D、Reduce输入的中间结果<k 2,List(v 2 )>中的List(v 2 )表示是一批属于同一个k 2 的value

  7. 下面哪一项不是 MapReduce 体系结构主要部分?
    A、Client
    B、JobTracker
    C、TaskTracker以及Task
    D、Job

  8. 关于 MapReduce1.0 的体系结构的描述,下列说法错误的是?
    A、Task 分为 Map Task 和Reduce Task 两种,分别由JobTracker 和TaskTracker 启动
    B、slot 分为Map slot 和Reduce slot 两种,分别供MapTask 和Reduce Task 使用
    C、TaskTracker 使用“slot”等量划分本节点上的资源量(CPU、内存等)
    D、TaskTracker 会周期性接收JobTracker 发送过来的命令并执行相应的操作(如启动新任务、杀死任务等)

  9. 下列说法错误的是?
    A、Hadoop MapReduce 是 MapReduce 的开源实现,后者比前者使用门槛高很多
    B、MapReduce 采用非共享式架构,容错性好
    C、MapReduce主要用于批处理、实时、计算密集型应用
    D、MapReduce 采用 “ 分而治之 ” 策略

多选

  1. MapReduce 相较于传统的并行计算框架有什么优势?
    A、非共享式,容错性好
    B、普通PC机,便宜,扩展性好
    C、编程简单,只要告诉 MapReduce 做什么即可
    D、批处理、非实时、数据密集型

  2. MapReduce体系结构主要由以下那几个部分构成?
    A、Client
    B、JobTracker
    C、TaskTracker
    D、Task

  3. 下列关于 MapReduce 的体系结构的描述,说法正确的有?
    A、用户编写的 MapReduce 程序通过 Client 提交到 JobTracker 端
    B、JobTracker 负责资源监控和作业调度

    C、TaskTracker 监控所有 TaskTracker 与Job 的健康状况
    D、TaskTracker 使用 “ slot ” 等量划分本节点上的资源量(CPU、内存等)

  4. MapReduce 的作业主要包括什么?
    A、从磁盘或从网络读取数据,即 I/O 密集工作
    B、计算数据,即 CPU 密集工作

    C、针对不同的工作节点选择合适硬件类型
    D、负责协调集群中的数据存储

  5. 对于MapReduce 而言,其处理单位是 split。split 是一个逻辑概念,它包含哪些元数据信息?
    A、数据起始位置
    B、数据长度
    C、数据所在节点

    D、数据大小

  6. 下列关于 Map 端的 Shuffle 的描述,哪些是正确的?
    A、MapReduce 默认为每个 Map 任务分配 1000MB 缓存
    B、多个溢写文件归并成一个或多个大文件,文件中的键值对是排序的
    C、当数据很少时,不需要溢写到磁盘,直接在缓存中归并,然后输出给Reduce

    D、每个 Map 任务分配多个缓存,使得任务运行更有效率

  7. MapReduce 的具体应用包括哪些?
    A、关系代数运算(选择、投影、并、交、差、连接)
    B、分组与聚合运算
    C、矩阵-向量乘法
    D、矩阵乘法

  8. MapReduce 执行的全过程包括以下哪几个主要阶段?
    A、从分布式文件系统读入数据
    B、执行 Map 任务输出中间结果
    C、通过 Shuffle 阶段把中间结果分区排序整理后发送给 Reduce 任务
    D、执行 Reduce 任务得到最终结果并写入分布式文件系统

  9. 下列说法正确的是?
    A、MapReduce 体系结构主要由四个部分组成,分别是:Client、JobTracker、TaskTracker以及Task
    B、Task 分为 Map Task 和 Reduce Task 两种,均由 TaskTracker 启动
    C、在 MapReduce 工作流程中,所有的数据交换都是通过 MapReduce 框架自身去实现的
    D、在 MapReduce 工作流程中,用户不能显式地从一台机器向另一台机器发送消息

原文地址:https://blog.csdn.net/weixin_48033173

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读301次。你可以使用Thrift客户端来测试HBase Thrift服务。例如,在Python中,你可以使用。请确保你的HBase伪集群已正确配置并且Thrift服务已经启动。这将在你的伪集群中启动HBase Thrift服务。库或者直接使用Thrift接口。进入HBase的安装目录,找到。请根据需要进行相应的配置。这将停止Thrift服务。_hbase 单机 thrift 配置
文章浏览阅读565次。hive和hbase数据迁移_hive转hbase
文章浏览阅读707次。基于单机版安装HBase,前置条件为Hadoop安装完成,安装Hadoop可以参考链接,Hadoop单机安装。地址:https://dlcdn.apache.org/hbase/2.4.13/hbase-2.4.13-src.tar.gz2.解压缩文件3.进入到conf目录下4.修改配置文件 hbase-env.sh示例:示例:6.修改配置文件 hbase-site.xml示例:8.访问页面访问你所以在服务器的16010端口,查看页面以上就是单机版安装HBase的内容,后续_hbase 2.4.13下载
文章浏览阅读301次。linux集群搭建-HBase_linux中在/home目录下创建目录hbase
文章浏览阅读933次。中没有库的概念,说一个数据说的是哪一个名称空间下的那一张表下的哪一个行键的哪一个列族下面的哪一个列对应的是这个数据。注意:put数据需要指定往哪个命名空间的哪个表的哪个rowKey的哪个列族的哪个列中put数据,put的值是什么。注意:put数据需要指定往哪个命名空间的哪个表的哪个rowKey的哪个列族的哪个列中put数据,put的值是什么。注意:put数据需要指定往哪个命名空间的哪个表的哪个rowKey的哪个列族的哪个列中put数据,put的值是什么。操作Hbase系统DDL,对名称空间等进行操作。_hbase中报错undefined method for main:object
文章浏览阅读1k次,点赞16次,收藏21次。整理和梳理日常hbase的监控核心指标,作为经验沉淀_hbase 对应promethus指标名
文章浏览阅读1.5k次,点赞45次,收藏20次。今天把之前学习Hbase的入门基础知识笔记翻出来了,为了不忘记也是帮助身边的小伙伴,我把他又整理了下放了出来给大家,希望对HBASE一知半解的小伙伴,能够对Hbase有一个清晰的认识,好了废话不多说,进入正题。以上内容就是初的识HBase 入门知识,包含了hbase的由来,特性,物理存储,逻辑存储模型,以及优缺点,应用场景这些内容,相信后面在使用或更深入的研究Hbase打下了良好的基础,后面的更深入的学习内容,看计划安排在后面的文章中进行更新。
文章浏览阅读655次。HDFS,适合运行在通用硬件上的分布式文件系统,是一个高度容错性的系统,适合部署在廉价的机器上。Hbase,是一个分布式的、面向列的开源数据库,适合于非结构化数据存储。MapReduce,一种编程模型,方便编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。Chukwa,是一个开源的用于监控大型分布式系统的数据收集系统。_开源非结构化数据存储
文章浏览阅读1.9k次。mongodb和hbase的区别和应用场景_hbase和mongodb的区别
文章浏览阅读1.2k次。Hbase入门篇01---基本概念和部署教程_hbase教程
文章浏览阅读1.6k次,点赞19次,收藏25次。hbase相关内容
文章浏览阅读942次,点赞16次,收藏20次。在hbase1.x中transition是令广大大数据运维人员头疼的一个话题,因为,region 的状态转移涉及到了三个核心组件,分别为:hbase master,zookeeper和hbase 的regionserver,这三个组件中的某一个region的状态都是一致的情况下,这个region 才算是正常,状态转移过程及其复杂,hbase 集群很容易出现RIT。好消息是,hbase2.x中有个工具HBCK2,这个工具可不是简单的hbase1.x中hbck 的升级,变化有点大,详细变化请参考帮助文档(
文章浏览阅读1k次。在HBase中,Region分裂是一种自动的机制,用于在Region大小达到一定阈值时将其分裂成两个Region,以便更好地管理数据。HBase中的Region大小是可以配置的,通过设置HBase表的最小和最大Region大小来控制。需要注意的是,禁止Region分裂后,当表的大小达到一定阈值时,数据将不再分裂成新的Region,因此需要根据实际需求进行调整。需要注意的是,禁止Region分裂后,当表的大小达到一定阈值时,数据将不再分裂成新的Region,因此需要根据实际需求进行调整。_hbase region大小
文章浏览阅读737次。可以看出,HBase作为数据仓库的一种补充,可以用于存储和管理大量数据,以便快速地分析和查询。是一种基于数据库的形式,用于存储和管理大量数据,以便快速地分析和查询。例如,可以使用HBase存储一些用户行为数据,然后进行分析,以便更好地了解用户行为和需求。其次,需要配置HBase相关的环境变量,例如JAVA_HOME、HBASE_HOME等。HBase可以用于存储结构化和非结构化数据,包括文本、图像、视频等。例如,可以使用HBase存储一些传感器数据,然后进行实时分析和处理。一、HBase集群环境搭建。_用hbase 搭建数仓
文章浏览阅读1.9k次。Data。_springboot整合hbase
文章浏览阅读880次,点赞23次,收藏20次。etc/abrt下的两个文件,分别是:abrt-action-save-package-data.conf 和 abrt.conf,修改内容如下。我们后面排查的时候去查看/run/cloudera-scm-agent/process/2325-hbase-REGIONSERVER下是否有。发现有个hs_err_pid15967.log JVM生成的错误日志,那么把这个日志下载查看,返现日志这么写的。接下来就等下一次hbase的节点挂了之后查看转储文件,转储文件在/var/sqool/abrt下。_regionserver 退出 没有错误日志
文章浏览阅读1.7k次。以下命令都需要在Hbase Shell中运行:Hbase信息status:服务器状态version:版本表操作查看所有表:list表基本信息:describe "表名称"查看表是否存在:exists '表名称'创建表:create '表名称', '列族1', '列族2', '列族3'删除表:首先禁用表:disable '表名称'然后删除表:drop '表名称'修改表:表数据操作查看所有数据:scan "表名称"..._hbase sehll怎么看登录的是哪个hbase
文章浏览阅读885次,点赞18次,收藏21次。在HBase中执行查询操作通常使用HBase Shell或编程语言API(如Java或Python)来执行。使用编程语言API,您可以使用相应的HBase客户端库来执行查询操作。这是一个简单的Java代码示例,演示了如何使用HBase Java API进行单行查询。这些示例仅为基本查询操作,HBase Shell还提供其他高级查询功能,如按时间戳过滤,使用正则表达式进行查询等。请注意,这只是HBase查询的基本示例,您可以根据实际需求和HBase的数据模型进行更复杂的查询操作。
文章浏览阅读7.3k次,点赞7次,收藏28次。找到hbase的bin目录并进入,执行启动hbase hmaster命令。问题原因 hmaster挂了 ,需要重新启动hmaster才行。hbase shell输入命令出现如下问题。_keepererrorcode = nonode for /hbase/master
文章浏览阅读1.3k次。三次信息化浪潮。_大数据应用开发技术笔记