Hadoop - 编程之家

重温MR整体流程工作流程开始执行输入（InputFormat），先对文件进行分片，然后读取数据输入到Map中。Mapper读取输入内容，解析成键值对，1行内容解析成1个键值对，每个键值对调用一次map方法。每个键值对执行map重写的方法，把输入的键值对转换成新的键值对。多个Mapper的输

作者：编程之家时间：2022-09-05

趣头条百PB规模 Hadoop实践(HDFS篇)

HDFS实践文章背景NameNode负载和扩展性问题拆RPC端口以及拆NameSpace组成FederationBalancer负载转移和搬迁优化拆分日志相关的NameSpace降低负载NameNode用户的拥塞控制异步化各种操作提高NameNode的吞吐量块汇报的优化NameNode锁时间追踪Decommission的改进Qos保障，业务控

作者：编程之家时间：2022-09-05

presto "TextInputFormat" error when select table from external tables in Hive

问题：presto查询hiveTextInputFormat格式表错误：解决：复制hadoopshare/hadoop下的相关jar包（lzo）到prestoplugins/hive-hadoop2（配置文件指定）下；机器安装lzop；重启presto参考：https://github.com/prestodb/presto/issues/8840

作者：编程之家时间：2022-09-05

【HIve】记几个HIve错误

很开心，今天在搭建Hive的时候，遇到一个错误，如下

作者：编程之家时间：2022-09-05

【Hadoop】YARN 完全分布式配置

承接https://www.cnblogs.com/jzsg/p/12622214.htmlmvmapred-site.xml.templatemapred-site.xml//基于YARN的资源调度配置vietc/hadoop/mapred-site.xml:<configuration><property><name>mapreduce.framework.name<ame>&

作者：编程之家时间：2022-09-05

idea hadoop插件注意事项

ideahadoop插件注意事项hadoop2.0成功的点击测试反应不对，应该点击确认，然后再点击连接配置的core-site应该是真实ip地址不应该是localhostenterdescriptionhere

作者：编程之家时间：2022-09-05

Hadoop全分布式

1.安装jdk Linux下安装jdk-7u67-linux-x64.rpm2.免密登录 ssl免密登录（centos6）3.同步时间：date-s"2020-04-0512:00:00"4.配置Hadoop在Hadoop伪分布式安装的基础上修改配置4.1.在Hadoop伪分布式安装里面已经修改了Hadoop的环境变量，现在修改node1的core-

作者：编程之家时间：2022-09-05

在Centos7.6上搭建Hadoop环境时安装jdk1.8，java：未找到命令

首先卸载Centos本身自带的openjdk，我参考的这位博主的安装教程https://www.cnblogs.com/happyflyingpig/p/8068020.html我参考的是这位博主的安装教程https://blog.csdn.net/frank409167848/article/details/80968531注意：如果是以root用户安装环境时，这里的JAVA_HOM

作者：编程之家时间：2022-09-05

Hadoop介绍

Hadoop是什么Hadoop是一个开源软件框架，用于在商用硬件集群上存储数据和运行应用程序。它为任何类型的数据提供海量存储，巨大的处理能力以及处理几乎无限的并发任务或作业的能力。Hadoop是一个由Apache基金会所开发的分布式系统基础架构主要解决海量数据的存储和海量数据的分

作者：编程之家时间：2022-09-05

大数据之hadoop深入学习

一、简介Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。解决的问题：（1）海量数据的存储[HDFS]（2）海量数据的分析[MapReduce]（3）资源管理调度[YARN]二、hadoop架构在其核心，Hadoop主要有两个层次，即：加工/计算层(MapReduce)

作者：编程之家时间：2022-09-05

Hadoop_MapReduce压缩案例

Hadoop_MapReduce压缩案例在map输出端压缩修改Hadoop_WordCount单词统计工程只需要修改MyWordCount的main方法即可：packagecom.blu.mywordcount;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.

作者：编程之家时间：2022-09-05

hadoop 随笔1

sed-i's/#auth\t\trequired\tpam_wheel.so/auth\t\trequired\tpam_wheel.so/g''/etc/pam.d/su'cp/etc/login.defs/etc/login.defs_bakecho"SU_WHEEL_ONLYyes">>/etc/login.defsgpasswd-ahadoopwheelcat/etc/hosts192.

作者：编程之家时间：2022-09-05

Hadoop之MapReduce

MAP：映射、变换、过滤1进N出Reduce：分解、缩小、归纳一组进N出（KEY,VALUE）：键值对的键划分数据分组MapReduce流程图MapTask1.切片会格式化，然后调用map方法2.map的输出要映射成KV，KV会参与分区计算，算出分区号P，最终输出（K,V,P）到buffer区（buffer默认是100M，阈值为80%）3.buf

作者：编程之家时间：2022-09-05

hadoop hive

1.Hive底层执行引擎支持:MR/Tez/Spark2.统一元数据管理:Hive数据是存放在HDFS元数据信息(记录数据的数据)是存放在MySQL中SQLonHadoop:Hive、SparkSQL、impala....3.Hive体系架构client:shell、thrift/jdbc(server/jdbc)、WebUI(HUE/Zeppelin)metastore:==>MyS

作者：编程之家时间：2022-09-05

AI时代，还不了解大数据？

如果要问最近几年，IT行业哪个技术方向最火?一定属于ABC，即AI+BigData+Cloud，也就是人工智能、大数据和云计算。这几年，随着互联网大潮走向低谷，同时传统企业纷纷进行数字化转型，基本各个公司都在考虑如何进一步挖掘数据价值，提高企业的运营效率。在这种趋势下，大数据技术越来越重要

作者：编程之家时间：2022-09-05

hdfs shell的基本操作以及hdfsWeb查看文件

在安装好hadoop集群并成功的启动了hdfs之后，我们就可以利用hdfs对文件进行操作了，一下是对文件的一些基本操作hdfs基本操作1、查询命令hadoopdfs-ls/ 查询/目录下的所有文件和文件夹hadoopdfs-ls-R以递归的方式查询/目录下的所有文件2、创建文件夹hado

作者：编程之家时间：2022-09-05

hadoop高可用-培训视频版

作者：编程之家时间：2022-09-05

Hadoop学习之安装伪分布式

伪分布式安装：启动HDFS和YARN 参考Apache官网伪分布式的配置和启动一、启动HDFS1、配置etc/hadoop/core-site.xml查看hadoop目录命令：[root@hadoop01hadoop2.7.3]#cd./etc/hadoop/命令：[root@hadoop01hadoop]#ll 配置hadoop默认服务访问名，localhost代表

作者：编程之家时间：2022-09-05

hadoop yarn

1YARN产生背景MapReduce1.x==>MapReduce2.xmaster/slave:JobTracker/TaskTrackerJobTracker：单点、压力大仅仅只能够支持mapreduce作业资源利用率所有的计算框架运行在一个集群中，共享一个集群的资源，按需分配！2YARN关键字解释ResourceManager-->R

作者：编程之家时间：2022-09-05

Hadoop-wordCount实例代码编写笔记-第四天Hadoop 单词统计deom

1.新建一个maven项目2.pom文件中引入以下jar包<dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>2.7.3</version></dependency><dependency>

作者：编程之家时间：2022-09-05

Java API操作上传文件

JavaAPI操作上传文件packagecom.hdfs;importjava.net.URI;importjava.util.List;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.junit.Before;publicclassHdfsTest2{

作者：编程之家时间：2022-09-05

Hadoop_MapReduce_Shuffle工作原理

Hadoop_MapReduce_Shuffle工作原理Shuffle是连接Mapper和Reducer之间的桥梁，Mapper的输出结果必须经过Shuffle环节才能传递给ReducerShuffle分为Map阶段的数据准备和Reducer阶段的数据拷贝。Shuffle核心机制：数据分区、排序、合并。在mapTask阶段，通过代码：context.w

作者：编程之家时间：2022-09-05

详解JPS工具

#前言jps(JavaVirtualMachineProcessStatusTool)是JDK1.5提供的一个显示当前所有java进程pid的命令，简单实用，非常适合在linux/unix平台上简单察看当前java进程的一些简单情况。#unix的ps命令-用过unix系统里的ps命令，这个命令主要是用来显示当前系统的进程情况，有哪些进程，

作者：编程之家时间：2022-09-05

Hadoop之yarn

HDFS是存储模型，把数据进行切块，散列到各个节点，提供物理支持。MapReduce写好的程序怎么向文件移动，即计算向数据移动。需要HDFS暴露数据的位置，然后进行资源管理和任务调度。框架角色client1.会根据每次的计算数据，咨询NameNode元数据（block的相关信息）算split，得到一个切片的清单，一个

作者：编程之家时间：2022-09-05

HDFS数据写入流程详解

HDFS数据写入流程详解HDFS数据写入流程是hdfs理论框架的基础，完全理解HDFS的数据写入流程是每一个大数据从业人员的必备技能。下面以300m文件写入hadoop2.x为例，详细讲解HDFS数据写入的详细过程。主要包括：1.数据写入流程图2.数据写入相关组件3.数据写入组件通信协议4.h

作者：编程之家时间：2022-09-05

01_VMware Workstation虚拟机下的Ubuntu安装教程

01_VMwareWorkstation虚拟机下的Ubuntu安装教程从本篇博文开始，我们将开始介绍如何在现有条件下（只有一台Windows系统电脑）展开基于Hadoop的大数据基础实践学习。VMwareWorkstation虚拟机的安装1、为什么要安装VMwareWorkstation虚拟机众所周知，目前处理大数据主要的软件

作者：编程之家时间：2022-09-05

hadoop 随笔2

参考：https://www.cnblogs.com/qingyunzong/p/8634335.htmlhttps://my.oschina.net/finchxu/blog/3077481规划：zookeeper*3+namenode*2+datanode*2ip:192.168.80.166 nn1.hadoop zookeeper+namenode192.168.80.167 nn2.hadoop zookeeper+namenode192.168.80.168 s

作者：编程之家时间：2022-09-05

HDFS文件操作(命令行)

haddopfs-ls/(查询目录)hadoopfs-mkdirest（在根目录下创建一个目录test）hadoopfs-put.est.txtest（将本地的test.txt文件上传到HDFS根目录下的test文件夹中去）hadoopfs-copyFromLocal.est.txtest（同上）hadoopfs-getestest.txt（从

作者：编程之家时间：2022-09-05

【Kettle】Kettle入门解析二

（图片来源于网络，侵删）Kettle实战1（将Hive表的数据输出到Hdfs）【1】环境准备1）进入Kettle的plugins\pentaho-big-data-plugin目录，编辑plugin.properties文件根据自己的hadoop版本添加不同的类型，我的是cdh的，所以添加cdh514有哪些版本可以在该目录下查看plugins\pentaho-bi

作者：编程之家时间：2022-09-05