Hadoop初步学习文档

下载本文档

阅读 123
下载 8
格式 docx
大小 246.94 KB
约4页
2025-02-09 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/4页

2/4页

3/4页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

精品文档---下载后可任意编辑1 Hadoop 简介Apache Hadoop 是一款支持数据密集型分布式应用并以 Apache 2.0 许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop 是根据 Google 公司发表的 MapReduce 和 Google文件系统的论文自行实现而成。1.1Hadoop 基本构成Hadoop 是一个能够对大量数据进行分布式处理的软件框架, Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称 HDFS。hadoop 的集群是基于 master/slave 模式Hadoop 基本运行结构图如下：其中 master 和 slave1、slave2、slave3、slave4 分别为五台主机，NameNode、DataNode 等为运行在主机上的进程。进程的作用如下：（一）NameNode 是 HDFS 的守护程序，负责记录文件是如何分割成数据块的，以及这些数据块分别被存到那些数据节点上，主要功能是对内存及 I/O 进行集中管理（是个单点，发生故障将使集群崩溃）（二）DataNode 这个后台程序负责把 HDFS 数据块读写到本地的文件系统，当客户端要读写某个数据时候，先由 NameNode 告诉客户端去哪个 DataNode 进行具体的读/写操作，然后客户端直接与这个 DataNode 服务器上的后台程序进行通讯，并且对相关的数据块进行读/写操作。（三）SecondaryNameNode：是一个用来监控 HDFS 状态的辅助后台程序，就像 NameNode 一样，每个集群都有一个 Secondary NameNode，不接收或记录任何实时的数据变化，但是，他会与 NameNode 进行通信，以便定期的保存 HDFS 元数据的快照，假如 Name 发生问题，SecondaryNameNode 可以及时的作为备用NameNode。（四）JobTracker：用来连接应用程序与 Hadoop，用户代码提交到集群以后，由 JobTracker 决定那个文件将被处理，并且为不同的 task 分配节点，同时，他还监控所有运行的 task 一旦某个 task 失败了 JobTacker 就会自动重新开启 task。每个集群只有唯一一个 JobTracker，位于 Master 节点（五）TaskTracker：与负责存储的 DataNode 结合，JobTracker 负责分配 Tasker，管理各自节点上的 task。每个节点只有一个 TaskTracker，但一个 TaskTracker 可以启动多个 JVM，用于并行执行 map 或 reduce 任务1.2 Hadoop 版本演进 Hadoop 经历了从 Hadoop 1.x 到 Hadoop 2.x 的演变，其中 Hadoop1.X 中的 NameNodes 只可能有一个，虽然可以通过 Secondary...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

Hadoop初步学习文档

精品文档---下载后可任意编辑1 Hadoop 简介Apache Hadoop 是一款支持数据密集型分布式应用并以 Apache 2

0 许可协议发布的开源软件框架

它支持在商品硬件构建的大型集群上运行的应用程序

Hadoop 是根据 Google 公司发表的 MapReduce 和 Google文件系统的论文自行实现而成

1Hadoop 基本构成Hadoop 是一个能够对大量数据进行分布式处理的软件框架, Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称 HDFS

hadoop 的集群是基于 master/slave 模式Hadoop 基本运行结构图如下：其中 master 和 slave1、slave2、slave3、slave4 分别为五台主机，NameNode、DataNode 等为运行在主机上的进程

进程的作用如下：（一）NameNode 是 HDFS 的守护程序，负责记录文件是如何分割成数据块的，以及这些数据块分别被存到那些数据节点上，主要功能是对内存及 I/O 进行集中管理（是个单点，发生故障将使集群崩溃）（二）DataNode 这个后台程序负责把 HDFS 数据块读写到本地的文件系统，当客户端要读写某个数据时候，先由 NameNode 告诉客户端去哪个 DataNode 进行具体的读/写操作，然后客户端直接与这个 DataNode 服务器上的后台程序进行通讯，并且对相关的数据块进行读/写操作

（三）SecondaryNameNode：是一个用来监控 HDFS 状态的辅助后台程序，就像 NameNode 一样，每个集群都有一个 Secondary NameNode，不接收或记录任何实时的数据变化，但是，他会与 NameNode 进行通信，以便定期的保存 HDFS 元数据的快照，假如 Name 发生

范哲铺 + 关注: 实名认证
内容提供者

想你所想，急你所急，你需要的都在店铺里可以找到。

收藏店铺进入空间

Hadoop初步学习文档

Hadoop初步学习文档

您可能关注的文档

相关文档

热门下载

相关标签