大数据——集群搭建

目录

本地源yum

基础配置-防火墙等

远程登陆-ssh

语言环境-java

协调系统-ZK

集群安装-Hadoop

 

1本地源

Centos自带的YUM源更新太慢,可以使用更改本地源的方法来安装软件。我们通常使用 yum install 命令来在线安装 linux系统的软件, 这种方式可以自动处理依赖性关系,并且一次安装所有依赖的软体包。

yum 的配置文件在 /etc/yum.repos.d 目录下, 其中有多个配置文件,每一个配置文件中都可以配置一个或多个repository。yum仓库就是使用yum命令下载软件的镜像地址。

国内的仓库可以使用阿里源、163、清华大学等。(进入到 /etc/yum.repos.d,然后把源文件下载到该目录)

2基础环境配置

2.1防火墙

关闭防火墙:systemctl stop firewalld

查看状态:systemctl status firewalld

centos7中防火墙命令用firewalld取代了iptables,当其状态是dead时,即防火墙关闭。

2.2主机名与映射

修改主机名:hostnamectl set-hostname <hostsname>

立即生效:bash

添加映射:vim /etc/hosts

ip地址 主机名

192.168.43.1 master

192.168.43.2 slaver1

192.168.43.3 slaver2

2.3时区

tzselect命令用于选择时区。tzselect只是帮我们把选择的时区显示出来,并不会实际生效,也就是说它仅仅告诉我们怎么样去设置环境变量TZ。

 

如果要永久更改时区,按照tzselect命令提示的信息,在.profile或者/etc/profile中设置正确的TZ环境变量并生效。

设置TZ环境变量:TZ='Asia/Shanghai'; export TZ

 

 2.4时间同步

NTP(Network Time Protocol,网络时间协议)是用来使网络中的各个计算机时间同步的一种协议。NTP服务器就是利用NTP协议提供时间同步服务的。

ntp软件(支持ntp协议) CentOS6自带CentOS7需要安装的。

安装ntp:yum install -y ntp

master修改文件/etc/ntp.conf,默认的一个内部时钟数据,用在没有外部 NTP 服务器时,使用它为局域网用户提供服务:

#文件/etc/ntp.conf
#server 210.72.145.44      #中国国家授时中心的IP 
server 127.127.1.0         # local clock 
fudge 127.127.1.0 stratum 1

slaves手动同步时间

ntpdate master   # 同步master上的时间

 2.5定时任务

crontab是用来定期执行程序的命令:

星号(*):代表所有可能的值,例如month字段如果是星号,则表示在满足其它字段的制约条件后每月都执行该命令操作。

逗号(,):可以用逗号隔开的值指定一个列表范围,例如,“1,2,5,7,8,9”
中杠(-):可以用整数之间的中杠表示一个整数范围,例如“2-6”表示“2,3,4,5,6”
正斜线(/):可以用正斜线指定时间的间隔频率,例如“0-23/2”表示每两小时执行一次。同时正斜线可以和星号一起使用,例如*/10,如果用在minute字段,表示每十分钟执行一次。

写一个定时任务:crontab -e

键入 i ,进入编辑模式

输入内容:*/10 * * * * usr/sbin/ntpdate master

查看定时任务列表:crontab -l

2.6远程登陆-ssh

 

 

 

 注意:如果是非root用户,需要修改文件权限
chmod 600 ~/.ssh/authorized_keys

语言环境-java

创建工作目录:mkdir -p /usr/java

解压:tar -zxvf jdk-8u221-linux-x64.tar.gz -C /usr/java/

环境变量:/etc/profile

 

 source /etc/profile(生效)

2.7协调服务zookeeper

网站架构逐渐从集中式转变成分布式,提供更强的计算、存储能力,避免单点故障等问题。

举例说明:当有一项任务分配到某个团队之后,团队内部的成员开始各司其职,然后把工作结果统一汇总给团队主管,由团队主管再整理团队的工作成果汇报给公司。

人遇到问题可以沟通,机器如何沟通?如何保证分布式系统中保证数据的一致性和可用性?

zookeeper就是各个服务或节点之间进行协调的服务或中间人,同步数据,同步信息;

 

 下载解压zoo安装包,工作路径:/usr/zookeeper,注意修改环境变量/etc/profile。

 

 配置文件zoo.cfg

tickTime=2000   #心跳间隔
​
initLimit=10        #最大初始时间限制10倍心跳
​
syncLimit=5       #请求应答时长5倍心跳
​
dataDir=/usr/zookeeper/zookeeper-3.4.14/zkdata   # 数据目录
clientPort=2181  #客户端、服务端连接端口
dataLogDir=/usr/zookeeper/zookeeper-3.4.14/zkdatalog   #日志目录
​
server.1=master:2888:3888   #集群列表
server.2=slave1:2888:3888
server.3=slave2:2888:3888

dataDir指定的目录下面,创建一个myid文件,里面内容为一个数字,用来标识当前主机。

注意:mkdir zkdata zkdatalog

 

 

 2.8Hadoop安装

下载解压Hadoop安装包,工作路径:/usr/hadoop,注意修改环境变量/etc/profile。

 

 

  • hadoop-env.sh 用来定义Hadoop运行环境相关的配置信息;
  • core-site.xml 定义系统级别的参数,包括HDFS URL、Hadoop临时目录等;
  •  

     

  • hdfs-site.xml 定义名称节点、数据节点的存放位置、文本副本的个数、文件读取权限等;
  •  

     

  • mapred-site.xml MapReduce参数
  •  

     

  • yarn-site.xml 集群资源管理系统参数配置
  •  

     

  • master文件,slaves文件
  • 格式化并启动Hadoop
  •  

    • 2.9添加删除节点
  • 添加节点
  •  

     

  • 修改所有的slaves文件:添加slave3
  • 启动DataNode进程:hadoop-daemon.sh start datanode
  • 启动nodemanage:yarn-deamon.sh start nodemanager

  •  

     

  • 删除节点
  •  

     

  • master主机中hdfs-site.xml配置---dfs.hosts.exclude

  •  

     

     

     

  •  

    主节点刷新所有DataNode:hdfs dfsadmin -refreshNodes

    关闭DataNode进程:hadoop-daemon.sh stop datanode

    关闭nodemanage:yarn-daemon.sh stop nodemanager

 

原文地址:https://www.cnblogs.com/yangyuxia/p/15129271.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


#一、什么是ZooKeeper**ZooKeeper是一个分布式服务协调框架**,提供了分布式数据一致性的解决方案,基于ZooKeeper的**数据结构,Watcher,选举机制**等特点,可以**实现数据的发布/订阅,软负载均衡,命名服务,统一配置管理,分布式锁,集群管理**等等。#二、为什么使用ZooKeeperZooKeeper能保证:*
2.ZooKeeper介绍2.1.ZooKeeper由来正式介绍ZooKeeper之前,我们先来看看ZooKeeper的由来,还挺有意思的。下面这段内容摘自《从Paxos到ZooKeeper》第四章第一节,推荐大家阅读一下:ZooKeeper最早起源于雅虎研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很
Zookeeper概述1.ZooKeeper最为主要的使⽤场景,是作为分布式系统的分布式协同服务。2.分布式系统中每台服务器的算力和资源都是有限的,但是我们通过分布式系统组成集群就可以对算力和资源进行无限扩张,但是分布式节点间的协调就成了问题。3.就像我们的开发团队之间的协作一
环境:1.VMware®Workstation12Pro 2.CentOS7 3.zookeeper-3.4.6安装步骤1.下载zookeeper本文使用的zookeeper下载地址如下(大家也可以下载其它版本)链接:https://pan.baidu.com/s/1Ab9F53jNy7upsrYHCacWrw 提取码:jqyn 
###1\.面试官:工作中使用过Zookeeper嘛?你知道它是什么,有什么用途呢?**小菜鸡的我:***有使用过的,使用ZooKeeper作为**dubbo的注册中心**,使用ZooKeeper实现**分布式锁**。*ZooKeeper,它是一个开放源码的**分布式协调服务**,它是一个集群的管理者,它将简单易用的接口提供给用户。*
##2\.ZooKeeper介绍###2.1\.ZooKeeper由来正式介绍ZooKeeper之前,我们先来看看ZooKeeper的由来,还挺有意思的。下面这段内容摘自《从Paxos到ZooKeeper》第四章第一节,推荐大家阅读一下:>ZooKeeper最早起源于雅虎研究院的一个研究小组。在当时,研究人员发现,在雅虎内部很
环境准备:windows:jdk8+nginx+ab压测centos7:redis+zookeeper3.3.6ab下载链接:https://www.apachelounge.com/download/测试思路:windows下使用springboot编写秒杀接口,商品数据存在redis,运行三个服务,利用nginx做代理,使用ab分别测试单机锁,自实现zookeeper分布式锁和Curator
由于只有一台电脑,所以搭建一个伪集群(伪集群就是在一台电脑上模拟搭建集群,走不同端口启动,真实的情况在每台机器上搭建一个zookeeper或者每台机器两个zookeeper等),道理是一样的,只不过要注意别被防火墙或者安全组规则挡住了zookeeper节点间的通信,每个节点直接的网络要是通的。集群数
常用命令总结(linux运行.sh结尾的脚本,window运行.cmd结尾的脚本,一下均为linux运行的,直接将.sh改为.cmd即可):linux环境:1.启动ZK服务:bin/zkServer.shstart2.查看ZK服务状态:bin/zkServer.shstatus3.停止ZK服务:bin/zkServer.shstop4.重启ZK服务:bin/zkServer.shrest
Kubernetes简介Kubernetes(简称K8S,K和S之间有8个字母)是用于自动部署,扩展和管理容器化应用程序的开源系统。它将组成应用程序的容器组合成逻辑单元,以便于管理和服务发现。Kubernetes源自Google15年生产环境的运维经验,同时凝聚了社区的最佳创意和实践。Kubernetes具有如下特性:
###正文ZooKeeper很流行,有个基本的疑问:*ZooKeeper是用来做什么的?*之前没有ZK,为什么会诞生ZK?OK,解答一下上面的疑问:(下面是凭直觉说的)*ZooKeeper是用于简化分布式应用开发的,对开发者屏蔽一些分布式应用开发过程中的底层细节*ZooKeeper对外暴露简单的API,用于支持分
#一、什么是ZooKeeper**ZooKeeper是一个分布式服务协调框架**,提供了分布式数据一致性的解决方案,基于ZooKeeper的**数据结构,Watcher,选举机制**等特点,可以**实现数据的发布/订阅,软负载均衡,命名服务,统一配置管理,分布式锁,集群管理**等等。#二、为什么使用ZooKeeperZooKeeper能保证:*
点赞再看,养成习惯,微信搜索「小大白日志」关注这个搬砖人。文章不定期同步公众号,还有各种一线大厂面试原题、我的学习系列笔记。zoo.cfg即/usr/local/java/zookeeper/conf下的zoo_sample.cfgzoo.cfg内含参数:tickTime、initLimit、syncLimit、dataDir、dataLogDir、clientPort
正文ZooKeeper很流行,有个基本的疑问:ZooKeeper是用来做什么的?之前没有ZK,为什么会诞生ZK?OK,解答一下上面的疑问:(下面是凭直觉说的)ZooKeeper是用于简化分布式应用开发的,对开发者屏蔽一些分布式应用开发过程中的底层细节ZooKeeper对外暴露简单的API,用于支持分布式应用开
#**NO1:说说zookeeper是什么?**ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现(Chubby是不开源的),它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供
正文ZooKeeper很流行,有个基本的疑问:ZooKeeper是用来做什么的?之前没有ZK,为什么会诞生ZK?OK,解答一下上面的疑问:(下面是凭直觉说的)ZooKeeper是用于简化分布式应用开发的,对开发者屏蔽一些分布式应用开发过程中的底层细节ZooKeeper对外暴露简单的API,用于支持分布式应用开
NO1:说说zookeeper是什么?ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现(Chubby是不开源的),它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供
#**NO1:说说zookeeper是什么?**ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现(Chubby是不开源的),它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供
一、什么是ZooKeeperZooKeeper是一个分布式服务协调框架,提供了分布式数据一致性的解决方案,基于ZooKeeper的数据结构,Watcher,选举机制等特点,可以实现数据的发布/订阅,软负载均衡,命名服务,统一配置管理,分布式锁,集群管理等等。二、为什么使用ZooKeeperZooKeeper能保证:更新请求
#**NO1:说说zookeeper是什么?**ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现(Chubby是不开源的),它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效、功能稳定的系统提供