电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

大数据技术基础VIP免费

大数据技术基础_第1页
1/28
大数据技术基础_第2页
2/28
大数据技术基础_第3页
3/28
第二章:大数据技术基础《大数据分析及应用实践》《大数据分析及应用实践》www.labbigdata.com目录CONTENTS2.1基础架构支持2.2云计算2.3数据采集2.4数据存储1.基础架构支持《大数据分析及应用实践》www.labbigdata.com2.1.1HadoopHadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中Hadoop的核心是分布式文件系统HDFS(HadoopDistributedFileSystem)和MapReduceHadoop被公认为行业大数据标准开源软件,在分布式环境下提供了海量数据的处理能力几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop《大数据分析及应用实践》www.labbigdata.com2.1.1Hadoop•经过多年的发展,Hadoop项目不断完善和成熟,目前已经包含多个子项目(如下图2-2所示)•除了核心的HDFS和MapReduce以外,Hadoop项目还包括Common、Avro、Zookeeper、HBase、Hive、Chukwa、Pig等子项目,它们提供了互补性服务或在核心层上提供了更高层的服务Hadoop技术架构Hadoop技术架构图《大数据分析及应用实践》www.labbigdata.com2.1.1Hadoop1:日志采集;2:传输日志;3:将日志写入HDFS;4:从HDFS中将日志装载入数据仓库中;5:对装载的数据进行分析;6:调用Hadoop集群的M/R执行并行计算,并返回结果;7:将结果中有价值的数据写入HBASE数据库;8:报表系统&应用程序端通过HBASE查询数据并展现;项目架构《大数据分析及应用实践》www.labbigdata.com2.1.2HBaseHBase是运行在Hadoop上的NoSQL数据库,它是一个分布式的、可扩展的大数据仓库,是一个构建在HDFS上的分布式列存储系统;从逻辑上讲,HBase将数据按照表、行和列进行存储。与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。HBase表特点:a.大b.无模式c.面向列d.稀疏e.数据多版本f.数据类型单一《大数据分析及应用实践》www.labbigdata.com2.1.3MapReduceMapReduce是一种编程模型,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。Map—映射Reduce——归纳MapReduce就是“任务的分解与结果的汇总”MapReduce处理流程《大数据分析及应用实践》www.labbigdata.com2.1.4Hive•Hive是建立在Hadoop上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。•本质是将SQL转换为MapReduce程序Hive与Hadoop关系《大数据分析及应用实践》www.labbigdata.com2.1.5PigPig是一个基于Hadoop的大规模数据分析平台,Pig包含两个部分:PigInterface,PigLatin。它提供的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。Pig简介《大数据分析及应用实践》www.labbigdata.com2.1.6R语言R是一套完整的数据处理、计算和制图软件系统。数据存储和处理系统数组运算工具(其向量、矩阵运算方面功能尤其强大)完整连贯的统计分析工具优秀的统计制图功能简便而强大的编程语言可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能功能2.云计算《大数据分析及应用实践》www.labbigdata.com2.2.1云计算的特点云计算是一种计算模型,它将计算任务分布在大量计算机构成的资源池上,使用户能够按照自己的需要获取计算、存储和信息服务。云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源1.可扩展性:实现动态的,可伸缩的扩展2.按需提供资源服务:按需求提供资源,按使用量付费3.虚拟化:基于虚拟化技术快速部署资源或获得服务4.超大规模:通过互联网提供、面向海量信息处理5.高可靠性和安全性:服务器使用数据多副本容错,计算节点同构可互换等措施,保障服务的可靠性和安全性。云...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

大数据技术基础

慧源书苑+ 关注
实名认证
内容提供者

热爱教育事业,爱好互联网行业

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部