HDFS调研报告议题Hadoop简介基本概念主要操作容错恢复弊端Hadoop简介•起源起源于ApacheNutch,后者是一个开源的网络搜索引擎,在后来从Nutch转移出来成为一个独立的Lucene子项目
核心分布式文件系统子项目(HDFS)和支持MapReduce分布式计算的软件架构
子项目议题Hadoop简介基本概念主要操作容错恢复弊端HDFS基本概念•HDFS简介HDFS基本概念•命名空间(namespace)HDFS支持传统的层次型文件组织结构
用户或者应用程序可以创建目录,然后将文件保存在这些目录里
文件系统名字空间的层次结构和大多数现有的文件系统类似:用户可以创建、删除、移动或重命名文件
当前,HDFS不支持用户磁盘配额和访问权限控制,也不支持硬链接和软链接
但是HDFS架构并不妨碍实现这些特性
HDFS基本概念•元数据节点(Namenode)Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问
Namenode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录
它也负责确定数据块到具体Datanode节点的映射
接收数据节点的心跳
所有的文件和文件夹的元数据保存在一个文件系统树中(内存中)
在硬盘上保存:命名空间镜像(namespaceimage,存储着文件系统的命名空间、文件的属性、数据块到文件的映射、数据块到数据节点的映射)及修改日志(editlog)
HDFS基本概念•元数据节点(Namenode)文件夹结构:•VERSION文件是javaproperties文件,保存了HDFS的版本号
–layoutVersion是一个负整数,保存了HDFS的持续化在硬盘上的数据结构的格式版本号
–namespaceID是文件系统的唯一标识符,是在文件系统初次格式化时生成的