目录 目录 I 初识Hadoop 1 1
数据 1 1
2 数据的存储和分析 3 1
3 相较于其他系统 4 1
4 Hadoop 发展简史 9 1
5 Apache Hadoop 项目 12 MapRedu ce 简介 15 2
1 一个气象数据集 15 2
2 使用 Unix Tools 来分析数据 17 2
3 使用 Hadoop 进行数据分析 19 2
4 分布化 30 2
5 Hadoop 流 35 2
6 Hadoop 管道 40 Hadoop 分布式文件系统 44 3
1 HDFS 的设计 44 3
2 HDFS 的概念 45 3
3 命令行接口 48 3
4 Hadoop 文件系统 50 3
5 Jav a 接口 54 3
6 数据流 68 3
7 通过 distcp 进行并行复制 75 3
8 Hadoop 归档文件 77 Hadoop 的I/O 80 4
1 数据完整性 80 4
2 压缩 83 4
3 序列化 92 4
4 基于文件的数据结构 111 MapRedu ce 应用开发 125 5
1 API 的配置 126 5
2 配置开发环境 128 5
3 编写单元测试 134 5
4 本地运行测试数据 138 5
5 在集群上运行 144 5
6 作业调优 159 5
7 MapRedu ce 的工作流 162 MapRedu ce 的工作原理 166 6
1 运行MapRedu ce 作业 166 6
2 失败 172 6
3 作业的调度 174 6
4 shu ffle 和排序 175 6
6 任务的执行 181 MapRedu ce 的类型与格式 188 7
1 MapRedu ce 类型 188 7
3 输出格式 217 MapRedu ce 特性 227 8
1 计数器 227 8
2 排序 235 8
3 联接 252 8