云存储之HDFSOutlineHDFS简介空间结构通信协议簇及Shell关键运行机制及API41231
HDFS简介•Hadoop项目http://hadoop
apache
org/DougCutting,基于Lucene的开源项目Nutch,其目标是构建出一个包括网络蜘蛛、文件存储等模块的网页搜索系统;受到最先由GoogleLab开发的Map/Reduce和GoogleFileSystem(GFS)的启发
2006年3月份,从nutch0
0开始,将其中实现的NDFS和MapReduce剥离出来成立一个新的开源项目,这就是Hadoop
•HDFS(HadoopDistributedFileSystem)http://hadoop
apache
org/docs/stable/hadoop-project-dist/hadoop-hdfs/Federation
HDFS简介管理网络中跨多台计算机存储的文件系统称为分布式文件系统
HDFS是Hadoop中的分布式文件系统(HadoopDistributedFileSystem)
HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上
而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序
HDFS放宽了(relax)POSIX的要求(requirements),这样可以流的形式访问(streamingaccess)文件系统中的数据
HDFS是基于块存储的
HDFS中的文件是被分成64M一块的数据块存储的
如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间
HDFS简介假设前提与目标硬件故障是常态
因此,故障检测与快速自动故障恢复是HDFS设计的核心目标;流式访问
HDFS不是普通的文件系统,它