看完这一篇，别说你不会Hive

Hadoop 中的 Hive 是什么？

Hive主要由三个核心部分组成

Hadoop是最流行的软件框架之一，能够处理和存储大数据信息，而Hive 则是用于帮助Hadoop 提高效率而设计的工具。

Hadoop 中的 Hive 是什么？

hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据：可以将结构化的数据文件映射为一张数据库表，并提供完整的SQL查询功能；可以将SQL语句转换为MapReduce任务运行，通过自己的SQL查询分析需要的内容，这套SQL简称Hive SQL，使不熟悉mapreduce的用户可以很方便地利用SQL语言查询、汇总和分析数据。

Hive主要由三个核心部分组成

1、Hive 客户端：Hive 提供了多种驱动程序，旨在与不同的应用程序联动工作。例如，Hive 为基于 Thrift 的应用程序提供 Thrift 客户端。

2、Hive 服务：Hive 服务与 Hive 执行客户端交互。例如，如果客户端想要执行查询，它必须与 Hive 服务对话。

3、Hive 存储和计算： 数据存储依赖于HDFS，数据计算依赖于MapReduce。

Hive 的主要特征

● 支持创建索引，优化数据查询。

● 不同的存储类型，例如，纯文本文件、HBase 中的文件。

● 将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。

● 可以直接使用存储在Hadoop 文件系统中的数据。

● 内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。

● 类SQL 的查询方式，将SQL 查询转换为MapReduce 的job 在Hadoop集群上执行。

Hive的优点

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。

避免了去写MapReduce，减少开发人员的学习成本。

Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。

Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。

Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

Hive的缺点

1．Hive的HQL表达能力有限

（1）迭代式算法无法表达

（2）数据挖掘方面不擅长

2．Hive的效率比较低

（1）Hive自动生成的MapReduce作业，通常情况下不够智能化

（2）Hive调优比较困难，粒度较粗

Hive的架构原理

Hive 模式

根据 Hadoop 数据节点的大小，Hive 可以在两种不同的模式下运行：本地模式和Map-reduce 模式。

用户本地模式

Hadoop安装在伪模式下，只有一个数据节点

数据量更小，仅限于单台本地机器

数据处理更加快速，因为本地机器包含更小的数据集

Map Reduce 模式：

Hadoop有多个数据节点，数据分布在这些不同的节点上

用户必须处理更多海量的数据集

MapReduce 是 Hive 的默认模式。

Hive 与关系数据库的关系

Hive和Pig有什么不同

用户不同

数据分析师青睐 Apache Hive
程序员和研究人员更喜欢 Apache Pig

使用的语言不同

Hive 使用 SQL 的声明性语言变体，称为 HQL
Pig 使用一种独特的程序语言，称为 Pig Latin

数据处理不同

Hive 适用于结构化数据
Pig 适用于结构化和半结构化数据

集群操作

Hive 在集群的服务器端运行
Pig 在集群的客户端运行

分区

Hive 支持分区
Pig 不支持分区

加载速度

Hive 加载速度不快，但执行速度更快
Pig加载速度更快

Hive 和 Hbase的区别

HBase 是一个开源的、面向列的数据库管理系统，运行在 Hadoop 分布式文件系统 ( HDFS )之上
Hive 是一个查询引擎，而 Hbase 是一个面向非结构化数据的数据存储系统。
Hive 主要用于批处理；Hbase 广泛用于事务处理
Hbase实时处理，实时查询；Hive仅用于分析查询
Hive 运行在 Hadoop 之上，而 Hbase 运行在 HDFS 之上
Hive 不是数据库，但 Hbase 支持 NoSQL 数据库
Hive 有模式模型，Hbase 没有
最后，Hive 是高延迟操作的理想选择，而 Hbase 主要用于低延迟操作

Hadoop是大数据开发人员的必备技能

未来如果你想从事数据开发工作，那么Hadoop是你的基础能力，必须学会，而且最好能够获得认证，让企业看到你的实力。

Simplilearn大数据Hadoop认证培训提供数据处理、功能性编程、Apache Spark、平行处理、Spark RDD优化技术、Spark SQL等大数据知识与技能，课程内容与Cloudera CCA175认证保持一致，为你的职业生涯奠定坚实基础。

原文地址：https://blog.csdn.net/simplilearnCN/article/details/124256402

看完这一篇，别说你不会Hive

Hadoop 中的 Hive 是什么？

Hive主要由三个核心部分组成

Hive 的主要特征

Hive的优点

Hive的缺点

Hive的架构原理

Hive 模式

Map Reduce 模式：

Hive 与关系数据库的关系

Hive和Pig有什么不同

Hive 和 Hbase的区别

Hadoop是大数据开发人员的必备技能

相关推荐