Hadoop day01 HADOOP集群搭建

集群简介

HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起
HDFS集群:
负责海量数据的存储,集群中的角色主要有 NameNode / DataNode
YARN集群:
负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManager
(那mapreduce是什么呢?它其实是一个应用程序开发包)

服务器系统设置

[root@hdp01 hadoop]# vi /etc/hosts

在这里插入图片描述


配置ssh免密登陆

[root@hdp01 hadoop]# ssh-keygen 

在这里插入图片描述

yum安装ssh服务 在三个节点都要安装
[root@hdp01 hadoop]# yum -y install openssh-clients.x86_64
[root@hdp02 hadoop]# yum -y install openssh-clients.x86_64
[root@hdp03 hadoop]# yum -y install openssh-clients.x86_64

在这里插入图片描述

将生成的秘钥发到hdp01、hdp02、hdp03上
[root@hdp01 hadoop]# ssh-copy-id hdp01
[root@hdp01 hadoop]# ssh-copy-id hdp02
[root@hdp01 hadoop]# ssh-copy-id hdp03
在hdp01上测试一下,看一看能不能不输入密码,就能登录到hdp02、hdp03上
    
[root@hdp01 hadoop]# ssh hdp02
[root@hdp01 hadoop]# ssh hdp03

Jdk环境安装

 解压jdk
[root@hdp01apps]#tar -zxvf jdk-8u181-linux-x64.tar.gz
配置环境变量
[root@hdp01 jdk1.8.0_181]# vi /etc/profile
export JAVA_HOME=/home/hadoop/apps/jdk1.8.0_181
export PATH=$JAVA_HOME/bin:$PATH
保存退出。Shift+zz
[root@hdp01 jdk1.8.0_181]# vi /etc/profile
查看java是否存在
[root@hdp01 jdk1.8.0_181]# java -version

HADOOP安装部署

解压安装包
 [root@hdp01 apps]# tar -zxvf hadoop-2.8.0.tar.gz
 修改配置文件
[root@hdp01 hadoop]# vi /etc/profile
添加一下内容:
export HADOOP_HOME=/home/hadoop/apps/hadoop-2.8.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

[root@hdp01 hadoop]# source /etc/profile
[root@hdp01 hadoop]# hadoop version

修改配置文件

修改配置文件  /home/hadoop/apps/hadoop-2.8.0/etc/hadoop/
最简化配置如下:
[root@hdp01 hadoop]# cd /home/hadoop/apps/hadoop-2.8.0/etc/hadoop
vi  hadoop-env.sh
# The java implementation to use.
export JAVA_HOME=/home/hadoop/apps/jdk1.8.0_181
vi  core-site.xml
<configuration>
<!--  该配置是指定hadoop所用的分布式文件系统为hdfs,并且指定hdfs的namenode所在的地址  -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hdp01:9000</value>
</property>
ZZ
<!--  该配置是指定hadoop集群的各个程序组件在运行时,产生的临时数据所存放的本地目录  -->
<property>
<name>hadoop.tmp.dir</name>
<value>/root/hdptmp</value>
</property>


</configuration>
vi  hdfs-site.xml
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>/root/hdp-meta</value>
</property>
<!---namenode配置多个目录和datanode配置多个目录,有什么区别?---->
<property>
<name>dfs.datanode.data.dir</name>
<value>/root/hdp-blocks</value>
</property>

<property>
<name>dfs.replication</name>
<value>3</value>
</property>

<property>
<name>dfs.blocksize</name>
<value>128m</value>
</property>

<property>
<name>dfs.secondary.http.address</name>
<value>hdp01:50090</value>
</property>
</configuration>
[root@hdp01 hadoop]# cp mapred-site.xml.template mapred-site.xml
vi  mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
vi  yarn-site.xml
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hdp01</value>
</property>

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
vi  slaves
hdp01
hdp02
hdp03
在hdp02和hdp03是分别创建
[root@hdp02 home]# mkdir -p /home/hadoop/apps

[root@hdp03 home]# mkdir -p /home/hadoop/apps

在hdp01上,经之前安装好jdk、/etc/profile 、 /etc/hosts
文件分别发送到hsp02和hdp03上
[root@hdp01 hadoop]# scp -r /home/hadoop/apps/jdk1.8.0_181/ hdp02:/home/hadoop/apps/
[root@hdp01 hadoop]# scp -r /home/hadoop/apps/jdk1.8.0_181/ hdp03:/home/hadoop/apps/
[root@hdp01 hadoop]# scp -r /home/hadoop/apps/hadoop-2.8.0 hdp02:/home/hadoop/apps/
[root@hdp01 hadoop]# scp -r /home/hadoop/apps/hadoop-2.8.0 hdp03:/home/hadoop/apps/
[root@hdp01 hadoop]# scp -r /etc/hosts hdp02:/etc
[root@hdp01 hadoop]# scp -r /etc/hosts hdp03:/etc
[root@hdp01 hadoop]# scp -r /etc/profile hdp02:/etc/profile
[root@hdp01 hadoop]# scp -r /etc/profile hdp03:/etc/profile

在这里插入图片描述

分别在hdp02、hdp03上执行以下命令
[root@hdp02 hadoop]# source /etc/profile
[root@hdp03 hadoop]# source /etc/profile

在这里插入图片描述


在这里插入图片描述

启动集群

在hdp01上执行
初始化HDFS
[root@hdp01 hadoop]# hadoop namenode -format

在这里插入图片描述

自动化脚本启动:
[root@hdp01 hadoop-2.8.0]# start-all.sh 
查看hadoop启动的线程:
在hdp01
[root@hdp01 hadoop-2.8.0]# jps

在这里插入图片描述

在hdp02
[root@hdp02 hadoop-2.8.0]# jps

在这里插入图片描述

在hdp03
[root@hdp03 hadoop-2.8.0]# jps

在这里插入图片描述


namenode在浏览器的界面

在这里插入图片描述

原文地址:https://blog.csdn.net/qq_43798391/article/details/100106777

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


hadoop搭建准备工作三台虚拟机:master、node1、node2检查时间是否同步:date检查java的jdk是否被安装好:java-version修改主机名三台分别执行vim/etc/hostname并将内容指定为对应的主机名 关闭防火墙:systemctlstopfirewalld   a.查看防火墙状态:systemctlstatu
文件的更名和移动:    获取文件详细信息       遇到的问题:不能直接在web上上传文件。   权限问题:修改后即可正常创建  参考:https://blog.csdn.net/weixin_44575660/article/details/118687993
目录一、背景1)小文件是如何产生的?2)文件块大小设置3)HDFS分块目的二、HDFS小文件问题处理方案1)HadoopArchive(HAR)2)Sequencefile3)CombineFileInputFormat4)开启JVM重用5)合并本地的小文件,上传到HDFS(appendToFile)6)合并HDFS的小文件,下载到本地(getmerge)三、HDFS小文件问题处理实战操
目录一、概述二、HadoopDataNode多目录磁盘配置1)配置hdfs-site.xml2)配置详解1、dfs.datanode.data.dir2、dfs.datanode.fsdataset.volume.choosing.policy3、dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction4、dfs.datanode.available
平台搭建(伪分布式)伪分布式搭建在VM中搭建std-master修改配置文件centos7-cl1.vmdkstd-master.vmx-将配置文件中vm的版本号改成自己电脑对应的vm版本修改客户端的操作系统为centos764位打开虚拟机修改虚拟机网络cd/etc/sysconfigetwork-scripts
 一、HDFS概述 1.1、HDFS产出背景及定义 1.1.1、HDFS产生背景   随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式
配置workers进入hadoop/etc/hadoop  编辑workers文件  然后分发给另外两个服务器     准备启动集群第一次需要初始化.  初始化完成后增加了data文件,  进入上面那个路径,就能看到当前服务器的版本号  启动HDFS  启动完毕102  
这周我对ssm框架进行了更深一步的开发,加入了多用户,并对除登录外的请求进行了拦截,这样用户在未登录的时候是访问不到资源的。并且对hadoop进行了初步的学习,包括虚拟机的安装等等。下周会对hadoop进行更深一步的学习,加油! 
前言通过在Hadoop1安装Hadoop,然后配置相应的配置文件,最后将Hadoop所有文件同步到其他Hadoop节点。一、集群规划#主机名‘master/hadoop1’‘slave01/hadoop2’‘slave02/hadoop3’#启动节点NamenodeNodemanagerNodemanager
1.先杀死进程(先进入到hadoop版本文件里,我的是/opt/module/hadoop-3.1.3/)sbin/stop-dfs.sh2.删除每个集群上的data以及logsrm-rfdata/logs/3.格式化hdfsnamenode-format4.再启动sbin/sart-dfs.sh
查看文件目录的健康信息执行如下的命令:hdfsfsck/user/hadoop-twq/cmd可以查看/user/hadoop-twq/cmd目录的健康信息:其中有一个比较重要的信息,就是Corruptblocks,表示损坏的数据块的数量查看文件中损坏的块(-list-corruptfileblocks)[hadoop-twq@master~]
titlecopyrightdatetagscategoriesHadoop2.8.0的环境搭建true2019-08-0912:12:44-0700LiunxHadoopLiunxHadoop此文为在centos7下安装Hadoop集群前期准备Hadoop下载Hadoop的下载本文下载的是2.8.0版本的Hadoop安装3个虚拟机并实现ssh免密码的登录
这是我的地图publicstaticclassMapClassextendsMapper<LongWritable,Text,Text,Text>{publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{String[]fields=value.toString().s
组件:Hadoop三大核心组件:HDFS(HadoopDistributedFileSystem):分布式文件系统,数据存放在这里,提供对应用程序数据的高吞吐量访问。YARN(YetAnotherResourceNegotiator):资源管理调度系统,分配比如硬盘内存等资源。用这些资源来运行程序的计算MapReduce:分布式运算框架
查看Hadoop安全模式hadoopdfsadmin-safemodegetSafemodeisOFF进入Hadoop安全模式root@centos:/$hadoopdfsadmin-safemodeenter SafemodeisON推出安全模式nange@ubuntu:/$hadoopdfsadmin-safemodeleave SafemodeisOFF
当我尝试运行sqoop命令时,我收到错误,说没有连接字符串的管理器我尝试运行的内容:sqoopexport--connect"jdbc:vertica://xxxxxxxx.com:5433/PPS_GIIA"--usernamexxxxx--passwordxxxxx--tableCountry-m1--export-dir/Eservices/SIPOC/SQLimport/part-m-0000--
好程序员大数据学习路线Hadoop学习干货分享,ApacheHadoop为可靠的,可扩展的分布式计算开发开源软件。ApacheHadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据)。包括这些模块:HadoopCommon:支持其他Hadoop模块的常用工具。Hadoop
我正在使用java,我正在尝试编写一个mapreduce,它将接收一个包含多个gz文件的文件夹.我一直在寻找,但我发现的所有教程都放弃了如何处理简单的文本文件,但没有找到解决我问题的任何东西.我在我的工作场所问过,但只提到scala,我并不熟悉.任何帮助,将不胜感激.解决方法:Hadoop检查
linux下开机自启:在/etc/init.d目录下新建文件elasticsearch并敲入shell脚本:#!/bin/sh#chkconfig:23458005#description:elasticsearchexportJAVA_HOME=/home/hadoop/jdk/jdk1.8.0_172exportJAVA_BIN=/home/hadoop/jdk/jdk1.8.0_172/binexportPATH=$PATH:$JAVA_HOME/bi
离线数据处理的主要工具Hive是必须极其熟练地掌握和精通的,但Hive背后是Hadoop的HDFS和M叩Reduce,需要会MapReduce编程么?从笔者的工作实践以及了解来看,这不是必须掌握的,但是数据开发人员必须掌握其概念、架构和工作原理,也就是说,不但要知其然,而且要知其所以然。1.起源