3.1 HDFS的设计概念
- HDFS以流式数据访问模式来存储超大的文件
- HDFS延时较高, HBASE 到可以是较好的选择.
- 大量的小文件, namenode(命名结点/空间) 将文件系统的元数据存储在内存中,每个大概占150Bytes, 上百万/千万时需要考虑物理机的内存大小
- HDFS只支持单用户在 " 文件末尾 " 的追加的方式写入数据
3.2 HDFS 的概念
- 数据块: 数倍于磁盘的数据块, 通常MapReduce中的map任务一次只处理一个HDFS块中的数据, 也不会过大(涉及到集群)
- namenode 和 datanode
- namenode为管理结点,文件系统的命名空间 ,保存整个文件系统树的所有文件信息,记录每个文件在各个结点中的存储信息(文件和数据块的互相引用关系)
- datanode为数据结点,
- 客户端Client,通过namenode和datanode交互来访问整个文件系统
- 块缓存,访问频繁的块会被显式的加载到DataNode的内存中
- 联邦HDFS,适用于超大集群,内存会成为瓶颈,联邦的HDFS的namenode允许进行扩展,每个node只管理一部分文件,如不同的目录对应不同的node
- HDFS的高可用性
- namenode存在单点故障,Hadoop2 增加了 “活动-备份” 的nameNode模式
3.3 命令行模式
- 输入hadoop fs -help 获取命令大全
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 [email protected] 举报,一经查实,本站将立刻删除。