HDFS Federation

时间：2020-11-20分类：Hadoop作者：编程之家用户

http://hadoop.apache.org/docs/r2.9.0/hadoop-project-dist/hadoop-hdfs/Federation.html

Background

HDFS有两个主要的层：

Namespace
- 由目录、文件和块组成
- 它支持所有的文件系统命名空间操作，比如，创建、删除、修改、查看文件或目录
Block Storage Service
- Block Management（在NameNode中执行）
  - 管理DataNode集群中的成员
  - 处理Block报告，并且维护Block的位置
  - 支持block相关操作，比如，创建、删除、修改、查看block位置
  - 管理副本的位置，block的复制
- Storage
  - 由DataNode来提供，存储block到本地文件系统，并提供读写访问

PS：就像图中画的那样，HDFS主要包括两方面：NameSpace和Block Storage。HDFS中有两种类型的节点，NameNode负责NameSpace和Block Management，而DataNode负责Storage

在先前的HDFS架构中，整个集群只允许有一个namespace，一个NameNode来管理这个namespace。HDFS Federation通过支持多个NameNodes/namespaces来突破这种限制。

Multiple Namenodes/Namespaces

为了水平的扩展name服务，federation采用多个独立的NameNodes/namespaces。NameNodes是独立的，彼此之间不需要联系和协调。DataNodes被用来作为所有NameNodes的公共存储。每一个DataNode会注册到集群中的所有NameNode。DataNode发送周期性的心跳和block报告。它们也处理来自NameNode的命令。

用户可能用ViewFs创建个性化的namespace views。ViewFs和Linux系统中挂载表很类似。

Block Pool

一个Block Pool是属于某个namespace下的一系列block。DataNode存储集群中所有block pool的块。每一个block pool被独立管理。一个namespace为一个新block生产Block ID的时候不需要管其它的namespace。一个NameNode失败不会影响这个DataNode为集群中的其它NameNode提供服务。

一个Namespace和它的block pool一起被叫做“Namespace Volume”。它是一个独立的管理单元。当一个NameNode/namespace被删除的时候，在DataNode中与之相应的block pool也会被删除。在集群升级的时候，每个namespace volume作为一个单元被升级。（PS：block pool是一系列的block，所以当namespace被删除的时候，属于这个namespace的所有block也会被删除）

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

相关推荐

hadoop day2-搭建

hadoop搭建准备工作三台虚拟机：master、node1、node2检查时间是否同步：date检查java的jdk是否被安装好：java-version修改主机名三台分别执行vim/etc/hostname并将内容指定为对应的主机名关闭防火墙：systemctlstopfirewalld a.查看防火墙状态：systemctlstatu

Hadoop 二十三

文件的更名和移动: 获取文件详细信息遇到的问题：不能直接在web上上传文件。权限问题：修改后即可正常创建参考：https://blog.csdn.net/weixin_44575660/article/details/118687993

大数据Hadoop之——HDFS小文件问题与处理实战操作

目录一、背景1）小文件是如何产生的？2）文件块大小设置3）HDFS分块目的二、HDFS小文件问题处理方案1）HadoopArchive（HAR）2）Sequencefile3）CombineFileInputFormat4）开启JVM重用5）合并本地的小文件，上传到HDFS（appendToFile）6）合并HDFS的小文件，下载到本地（getmerge）三、HDFS小文件问题处理实战操

大数据Hadoop之——Hadoop HDFS多目录磁盘扩展与数据平衡实战操作

目录一、概述二、HadoopDataNode多目录磁盘配置1）配置hdfs-site.xml2）配置详解1、dfs.datanode.data.dir2、dfs.datanode.fsdataset.volume.choosing.policy3、dfs.datanode.available-space-volume-choosing-policy.balanced-space-preference-fraction4、dfs.datanode.available

平台搭建伪分布式

平台搭建（伪分布式）伪分布式搭建在VM中搭建std-master修改配置文件centos7-cl1.vmdkstd-master.vmx-将配置文件中vm的版本号改成自己电脑对应的vm版本修改客户端的操作系统为centos764位打开虚拟机修改虚拟机网络cd/etc/sysconfigetwork-scripts

Harley浅谈HadoopHDFS

一、HDFS概述 1.1、HDFS产出背景及定义 1.1.1、HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。HDFS只是分布式

配置workers进入hadoop/etc/hadoop 编辑workers文件然后分发给另外两个服务器准备启动集群第一次需要初始化. 初始化完成后增加了data文件，进入上面那个路径，就能看到当前服务器的版本号启动HDFS 启动完毕102

第六周总结8.13

这周我对ssm框架进行了更深一步的开发，加入了多用户，并对除登录外的请求进行了拦截，这样用户在未登录的时候是访问不到资源的。并且对hadoop进行了初步的学习，包括虚拟机的安装等等。下周会对hadoop进行更深一步的学习，加油！

安装Hadoop2.10.1

前言通过在Hadoop1安装Hadoop,然后配置相应的配置文件，最后将Hadoop所有文件同步到其他Hadoop节点。一、集群规划#主机名‘master/hadoop1’‘slave01/hadoop2’‘slave02/hadoop3’#启动节点NamenodeNodemanagerNodemanager

集群崩溃处理

1.先杀死进程（先进入到hadoop版本文件里，我的是/opt/module/hadoop-3.1.3/）sbin/stop-dfs.sh2.删除每个集群上的data以及logsrm-rfdata/logs/3.格式化hdfsnamenode-format4.再启动sbin/sart-dfs.sh

hdfs fsck 命令

查看文件目录的健康信息执行如下的命令：hdfsfsck/user/hadoop-twq/cmd可以查看/user/hadoop-twq/cmd目录的健康信息：其中有一个比较重要的信息，就是Corruptblocks，表示损坏的数据块的数量查看文件中损坏的块(-list-corruptfileblocks)[hadoop-twq@master~]

Hadoop2-8-0的环境搭建

titlecopyrightdatetagscategoriesHadoop2.8.0的环境搭建true2019-08-0912:12:44-0700LiunxHadoopLiunxHadoop此文为在centos7下安装Hadoop集群前期准备Hadoop下载Hadoop的下载本文下载的是2.8.0版本的Hadoop安装3个虚拟机并实现ssh免密码的登录

java – Hadoop：Reduce不产生所需的输出,它与map输出相同

这是我的地图publicstaticclassMapClassextendsMapper<LongWritable,Text,Text,Text>{publicvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsIOException,InterruptedException{String[]fields=value.toString().s

组件：Hadoop三大核心组件：HDFS（HadoopDistributedFileSystem）：分布式文件系统，数据存放在这里，提供对应用程序数据的高吞吐量访问。YARN（YetAnotherResourceNegotiator）:资源管理调度系统，分配比如硬盘内存等资源。用这些资源来运行程序的计算MapReduce：分布式运算框架

查看Hadoop安全模式

查看Hadoop安全模式hadoopdfsadmin-safemodegetSafemodeisOFF进入Hadoop安全模式root@centos:/$hadoopdfsadmin-safemodeenter SafemodeisON推出安全模式nange@ubuntu:/$hadoopdfsadmin-safemodeleave SafemodeisOFF

sql – Hadoop：创建数据库管理器时出错

当我尝试运行sqoop命令时,我收到错误,说没有连接字符串的管理器我尝试运行的内容：sqoopexport--connect"jdbc:vertica://xxxxxxxx.com:5433/PPS_GIIA"--usernamexxxxx--passwordxxxxx--tableCountry-m1--export-dir/Eservices/SIPOC/SQLimport/part-m-0000--

好程序员大数据学习路线Hadoop学习干货分享

好程序员大数据学习路线Hadoop学习干货分享，ApacheHadoop为可靠的，可扩展的分布式计算开发开源软件。ApacheHadoop软件库是一个框架，它允许使用简单的编程模型跨计算机群集分布式处理大型数据集（海量的数据）。包括这些模块：HadoopCommon：支持其他Hadoop模块的常用工具。Hadoop

map中的mapreduce – gzip输入文件

我正在使用java,我正在尝试编写一个mapreduce,它将接收一个包含多个gz文件的文件夹.我一直在寻找,但我发现的所有教程都放弃了如何处理简单的文本文件,但没有找到解决我问题的任何东西.我在我的工作场所问过,但只提到scala,我并不熟悉.任何帮助,将不胜感激.解决方法:Hadoop检查

elasticsearch开机自启

linux下开机自启：在/etc/init.d目录下新建文件elasticsearch并敲入shell脚本：#!/bin/sh#chkconfig:23458005#description:elasticsearchexportJAVA_HOME=/home/hadoop/jdk/jdk1.8.0_172exportJAVA_BIN=/home/hadoop/jdk/jdk1.8.0_172/binexportPATH=$PATH:$JAVA_HOME/bi

大数据Hadoop原理01_简介

离线数据处理的主要工具Hive是必须极其熟练地掌握和精通的，但Hive背后是Hadoop的HDFS和M叩Reduce，需要会MapReduce编程么？从笔者的工作实践以及了解来看，这不是必须掌握的，但是数据开发人员必须掌握其概念、架构和工作原理，也就是说，不但要知其然，而且要知其所以然。1.起源

热门文章

最新文章