目录 目录 I 初识Hadoop 1 1.1 数据!数据 1 1.2 数据的存储和分析 3 1.3 相较于其他系统 4 1.4 Hadoop 发展简史 9 1.5 Apache Hadoop 项目 12 MapRedu ce 简介 15 2.1 一个气象数据集 15 2.2 使用 Unix Tools 来分析数据 17 2.3 使用 Hadoop 进行数据分析 19 2.4 分布化 30 2.5 Hadoop 流 35 2.6 Hadoop 管道 40 Hadoop 分布式文件系统 44 3.1 HDFS 的设计 44 3.2 HDFS 的概念 45 3.3 命令行接口 48 3.4 Hadoop 文件系统 50 3.5 Jav a 接口 54 3.6 数据流 68 3.7 通过 distcp 进行并行复制 75 3.8 Hadoop 归档文件 77 Hadoop 的I/O 80 4.1 数据完整性 80 4.2 压缩 83 4.3 序列化 92 4.4 基于文件的数据结构 111 MapRedu ce 应用开发 125 5.1 API 的配置 126 5.2 配置开发环境 128 5.3 编写单元测试 134 5.4 本地运行测试数据 138 5.5 在集群上运行 144 5.6 作业调优 159 5.7 MapRedu ce 的工作流 162 MapRedu ce 的工作原理 166 6.1 运行MapRedu ce 作业 166 6.2 失败 172 6.3 作业的调度 174 6.4 shu ffle 和排序 175 6.6 任务的执行 181 MapRedu ce 的类型与格式 188 7.1 MapRedu ce 类型 188 7.3 输出格式 217 MapRedu ce 特性 227 8.1 计数器 227 8.2 排序 235 8.3 联接 252 8.4 次要数据的分布 258 8.5 MapRedu ce 的类库 263 Hadoop 集群的安装 264 9.1 集群说明 264 9.2 集群的建立和安装 268 9.3 SSH 配置 270 9.4 Hadoop 配置 271 9.5 安装之后 286 9.6 Hadoop 集群基准测试 286 9.7 云计算中的Hadoop 290 Hadoop 的管理 293 10.1 HDFS 293 10.2 监控 306 10.3 维护 313 Pig 简介 321 11.1 安装和运行Pig 322 11.2 实例 325 11.3 与数据库比较 329 11.4 Pig Latin 330 11.5 用户定义函数 343 11.6 数据处理操作符 353 11.7 Pig 实践提示与技巧 363 Hbase 简介 366 12.1 HBase 基础 366 12.2 概念 367 12.3 安装 371 12.4 客户端 374 12.5 示例 377 12.6 HBase 与 RDBMS 的比较 385 12.7 实践 390 ZooKeeper 简介 394 13.1 ZooKeeper 的安装和运行 395 13.2 范例 396 13.3 ZooKeeper 服务 405 13.4 使用 ZooKeeper 建立...