第二章:大数据技术基础《大数据分析及应用实践》《大数据分析及应用实践》www
labbigdata
com目录CONTENTS2
1基础架构支持2
3数据采集2
4数据存储1
基础架构支持《大数据分析及应用实践》www
labbigdata
1HadoopHadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop《大数据分析及应用实践》www
labbigdata
1Hadoop•经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示)•除了核心的HDFS和MapReduce以外,Hadoop项目还包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子项目,它们提供了互补性服务或在核心层上提供了更高层的服务Hadoop技术架构Hadoop技术架构图《大数据分析及应用实践》www
labbigdata
1Hadoop1:日志采集;2:传输日志;3:将日志写入HDFS;4:从HDFS中将日志装载入数据仓库中;5:对装载的数据进行分析;6:调用Hadoop集群的M/R执行并行计算,并返回结果;7:将结果中有价值的数据写入HBASE数据库;8:报表系统&应用程序端通过HBASE