思 特 奇 分 布 式 计 算 技 术 介绍( V1
0)北京神州数码思特奇信息技术股份有限公司1/8/2010 05:10:00 PM 文档信息文 档 名称电 子 文档Microsoft WORD 2025文 件 状态□ 草 稿 □ 正式发布 □ 正在修改编 写 人日 期2009 年02月27日校 对 人日 期年 月 日审 核 人日 期年 月 日批 准 人日 期年 月 日变 更 记 录变更序号变更原因变更页码变更前版本号变更后版本号更改人批准人生效日期备 注1文档建立0
11 引言框架中最核心的设计就是:MapReduce和HDFS
MapReduce 就是“任务的分解与结果的汇总”
HDFS是分布式文件系统,为分布式计算存储提供了底层支持
MapReduce 先将一个任务分解成为多个任务,“Reduce”就是将分解后多任务处理的结果汇总起来,得出最后的分析结果
在分布式系统中, 机器集群把硬件看作资源池,将并行的任务拆分,然后交由每一个空闲机器资源去处理, 能够极大地提高计算效率,同时这种资源无关性,对于计算集群的扩展 无疑提供了最好的设计保证
分布式计算就好比蚂蚁吃大象,廉价的机器群可以匹敌任何高性能的计算机
任务分解处理以后, 那就需要将处理以后的结果再汇总起来,这就是Reduce要做的工作
2 HDFS分布式文件系统HDFS是分布式计算的存储基石,具有如下几个特点:a)对于整个集群单一的命名空间
b)数据一致性
适合一次写入多次读取的模型,客户端在文件没有被成功创建之前无法看到文件存在
c)文件会被分割成多个文件块,每个文件块被分配存储到数据节点上, 而且根据配置会由复制文件块来保证数据的安全性
HDFS采纳master/slave架构
一个HDFS集群由一个Namenode和一定数目的Datanode组成
Namenode是一个中心服务器, 负责管理文件系统