电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

2024年典型大数据计算框架分析VIP免费

2024年典型大数据计算框架分析_第1页
2024年典型大数据计算框架分析_第2页
2024年典型大数据计算框架分析_第3页
龙源期刊网http://www.qikan.com.cn典型大数据计算框架分析ﻫ作者:赵晟姜进磊ﻫ来源:《中兴通讯技术》2016年第02期摘要:认为大数据计算技术已逐渐形成了批量计算和流计算两个技术发展方向。批量计算技术主要针对静态数据的离线计算,吞吐量好,但是不能保证实时性;流计算技术主要针对动态数据的在线实时计算,时效性好,但是难以获取数据全貌。从可扩展性、容错性、任务调度、资源利用率、时效性、输入输出(IO)等方面对现有的主流大数据计算框架进行了分析与总结,指出了未来的发展方向和研究热点。关键词:大数据分类;大数据计算;批量计算;流计算;计算框架Abstract:Bigdatacomputingtechnologieshavetwotypicalprocessingmodes:batchcomputingandstreamcomputing.Batchcomputingismainlyusedforhigh-throughputprocessingofstaticdataanddoesnotproduceresultsinrealtime.Streamcomputingisusedforprocessingdynamicdataonlineinrealtimebuthasdifficultyprovidingafullviewofdata.Inthispaper,weanalyzesometypicalbigdatacomputingframeworksfromtheperspectiveofscalability,fault-tolerance,taskscheduling,resourceutilization,realtimeguarantee,andinput/output(IO)overhead.Wethenpointsoutsomefuturetrendsandhotresearchtopics.Keywords:bigdata;bigdatacomputing;batchcomputing;streamcomputing;computingframework近年来,随着互联网进入Web2.0时代以及物联网和云计算的迅猛发展,人类社会逐渐步入了大数据时代。根据维基百科的描述,所谓的大数据,是指所涉及的数据量规模巨大,无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据在带来发展机遇的同时,也带来了新的挑战,催生了新技术的发展和旧技术的革新。例如,不断增长的数据规模和数据的动态快速产生要求必须采用分布式计算框架才能实现与之相匹配的吞吐和实时性,而数据的持久化保存也离不开分布式存储。图1展示了大数据应用的一般架构,其中的核心部分就是大数据计算框架和大数据存储。大数据存储提供可靠的数据存储服务,在此之上搭建高效、可扩展、可自动进行错误恢复的分布式大数据计算框架,计算依赖存储,两者共同构成数据处理的核心服务。由于文献[1]已经对大数据存储进行总结,详述了文件系统、数据库系统、索引技术,因此文中将重点对大数据计算框架进行分析。1大数据计算技术面临的问题与挑战大数据计算技术采用分布式计算框架来完成大数据的处理和分析任务。作为分布式计算框架,不仅要提供高效的计算模型、简单的编程接口,还要考虑可扩展性和容错能力。作为大数龙源期刊网http://www.qikan.com.cn据处理的框架,需要有高效可靠的输入输出(IO),满足数据实时处理的需求。当前大数据处理需要解决如下问题和挑战,这些问题和挑战也是对大数据计算框架进行分析的重要指标。(1)可扩展性:计算框架的可扩展性决定可计算规模,计算并发度等指标。现有计算框架通常采用主从模式的架构设计,便于集群的管理和任务调度,但主节点会成为系统的性能瓶颈,限制了可扩展性。另外,在现有弹性计算集群部署中,不断动态添加、删除计算节点,快速平衡负载等也对系统可扩展性提出挑战。(2)容错和自动恢复:大数据计算框架需要考虑底层存储系统的不可靠性,支持出现错误后自动恢复的能力。用户不需要增加额外的代码进行快照等中间结果的备份,只需要编写相应的功能函数,就可以在有输入的条件下得到预期的输出,中间运行时产生的错误对使用人员透明,由计算框架负责任务重做。(3)任务调度模型:大数据计算平台中往往存在多租户共同使用,多任务共同执行的情况。既要保证各用户之间使用计算资源的公平性,又要保证整个系统合理利用资源,保持高吞吐率,还要保证调度算法足够简单高效,额外开销小。因此调度器设计需要综合大量真实的任务运行结果,从全局的角度进行设计。(4)计算资源的利用率:计算资源的利用率代表机器能够实际创...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

山水人家+ 关注
实名认证
内容提供者

读万卷书,行万里路。

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部