HDFS+MapReduce+Hive+HBase 十分钟快速入门 易剑 2009-8-19 1. 前言 本文的目的是让一个从未接触Hadoop 的人,在很短的时间内快速上手,掌握编译、安装和简单的使用。 2. Hadoop 家族 截止 2009-8-19 日,整个Hadoop 家族由以下几个子项目组成: 成员名 用途 Hadoop Common Hadoop 体系最底层的一个模块,为 Hadoop 各子项目提供各种工具,如:配置文件和日志操作等。 Avro Avro 是doug cutting 主持的RPC 项目,有点类似 Google 的protobuf 和Facebook 的thrift。avro 用来做以后 hadoop 的RPC,使 hadoop 的RPC模块通信速度更快、数据结构更紧凑。 Chukwa Chukwa 是基于 Hadoop 的大集群监控系统,由 yahoo 贡献。 HBase 基于 Hadoop Distributed File System,是一个开源的,基于列存储模型的分布式数据库。 HDFS 分布式文件系统 Hive hive 类似 CloudBase,也是基于 hadoop 分布式计算平台上的提供 data warehouse 的sql 功能的一套软件。使得存储在hadoop 里面的海量数据的汇总,即席查询简单化。hive 提供了一套 QL 的查询语言,以 sql 为基础,使用起来很方便。 MapReduce 实现了 MapReduce 编程框架 Pig Pig 是SQL-like 语言,是在MapReduce 上构建的一种高级查询语言,把一些运算编译进 MapReduce 模型的Map 和 Reduce 中,并且用户可以定义自己的功能。Yahoo 网格运算部门开发的又一个克隆 Google 的项目Sawzall。 ZooKeeper Zookeeper 是Google 的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 HDFS+Map Redu ce+Hiv e 十分钟快速入门 2 3. 演练环境 3.1. 操作系统 SuSE10,Linux2.6.16,32 位版本。 3.2. Hadoop Hive 通过 SVN 直接从网上下载原代码,其它采用 hadoop-0.20.0.tar.gz 二进制安装包,所以只需要编译 Hive。 另外,请注意不要下载 2009-8-19 号的 Hive,2009-8-19 提交的 Hive 版本在hadoop-0.20.0.tar.gz 上编译通不过,原因是: Hive 源代码根目录\ql\src\java\org\apache\hadoop\hive\ql\exec\FileSinkOperator.java文件中多了一行: import org.apache.hadoop.io.compress.LzoCodec; 而应...