最美不过初相见 好程序员教你 Hadoop 的对的打开方式? 最美不过初相见,我和大数据 Hadoop 的开始始于好程序员。经历了上一阶段的学习,对 Java 的理解逐渐加深,潜移默化中树立了足够大的自信,并投入到 Hadoop 的学习。从前辈那里得知这一部分知识是整个大数据培训中的重中之重,因此,更是不敢有一点怠慢。Hadoop 的初识便带着十分的专注。近期的知识点总结,已足以验证我的努力与付出 ,如下是我的部分总结,愿和大家一同分享。方式一、 Hadoop 是什么? Hadoop 是一种由 Apache 基金会所开发的分布式系统基础架构, 重要处理,海量数据的存储和海量数据的分析计算问题。 广义上来说,HADOOP 一般是指一种更广泛的概念——HADOOP 生态圈。方式二、Hadoop 的优势1 .高可靠性: Hadoop 假设计算元素和存储会出现故障,它维护多种工作数据副本,在出现故障时可以对失败的节点重新分布处理。2.高扩展性:在集群间分派任务数据,可以便的扩展数以千计的节点。3.高效性:在 MapReduce 的思想下,Hadoop 是并行工作的,以加紧任务处理速度。4.高容错性:自动保留多份副本数据,并且可以自动将失败的任务重新分派。方式三、 Hadoop 的 构成1.Hadoop HDFS:一种高可靠、高吞吐量的分布式文献系统。2.HadoopMapReduce:一种分布式的离线并行计算框架。3.HadoopYARN:作业调度与集群资源管理的框架。4.HadoopCommon:支持其他模块的工具模块(Configuration、RPC、序列化机制、日志操作)。方式四、YARN 架构概述1. ResourceManager(rm):处理客户端祈求、启动/监控 ApplicationMaster、监控 NodeManager、资源分派与调度;2. NodeManager(nm):单个节点上的资源管理、处理来自 ResourceManager 的命令、处理来自 ApplicationMaster 的命令;3. ApplicationMaster:数据切分、为应用程序申请资源,并分派给内部任务、任务监控与容错。4. Container:对任务运行环境的抽象,封装了 CPU、内存等多维资源以及环境变量、启动命令等任务运行有关的信息。方式五、大数据技术生态体系1. Sqoop:sqoop 是一款开源的工具,重要用于在 Hadoop(Hive)与老式的数据库(mysql)间进行数据的传递,可以将一种关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。2.Flume:Flume 是 Cloudera 提供的一种高可用的,高可靠的,分布式的海量...