HDFS+MapReduce+Hive+HBase 十分钟快速入门 易剑 2009-8-19 1
前言 本文的目的是让一个从未接触Hadoop 的人,在很短的时间内快速上手,掌握编译、安装和简单的使用
Hadoop 家族 截止 2009-8-19 日,整个Hadoop 家族由以下几个子项目组成: 成员名 用途 Hadoop Common Hadoop 体系最底层的一个模块,为 Hadoop 各子项目提供各种工具,如:配置文件和日志操作等
Avro Avro 是doug cutting 主持的RPC 项目,有点类似 Google 的protobuf 和Facebook 的thrift
avro 用来做以后 hadoop 的RPC,使 hadoop 的RPC模块通信速度更快、数据结构更紧凑
Chukwa Chukwa 是基于 Hadoop 的大集群监控系统,由 yahoo 贡献
HBase 基于 Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库
HDFS 分布式文件系统 Hive hive 类似 CloudBase,也是基于 hadoop 分布式计算平台上的提供 data warehouse 的sql 功能的一套软件
使得存储在hadoop 里面的海量数据的汇总,即席查询简单化
hive 提供了一套 QL 的查询语言,以 sql 为基础,使用起来很方便
MapReduce 实现了 MapReduce 编程框架 Pig Pig 是SQL-like 语言,是在MapReduce 上构建的一种高级查询语言,把一些运算编译进 MapReduce 模型的Map 和 Reduce 中,并且用户可以定义自己的功能
Yahoo 网格运算部门开发的又一个克隆 Google 的项目Sawzall
ZooKeeper Zo