电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

2024年大数据存储架构和算法研究综述VIP免费

2024年大数据存储架构和算法研究综述_第1页
2024年大数据存储架构和算法研究综述_第2页
2024年大数据存储架构和算法研究综述_第3页
龙源期刊网http://www.qikan.com.cn大数据存储架构和算法研究综述ﻫ作者:杨俊杰廖卓凡冯超超来源:《计算机应用》2016年第09期摘要:随着大数据计算需求的增长,集群的处理速度需要得到快速的提升,然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求。由于集群的存储架构是分布式存储,因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素之一。首先,对当今的分布式文件存储系统的结构进行了介绍;接着,根据不同的优化目标,例如减少网络负载、负载均衡、降低能耗和高容错性等,对近年国内外大数据存储算法的研究进行了总结,分析和对比了已有算法的优点以及存在的问题;最后,对大数据存储架构和优化算法设计的挑战和未来研究方向作了展望。关键词:大数据;数据部署;分布式文件系统;MapReduce;Hadoop中图分类号:TP393文献标志码:AAbstract:Withthegrowingdemandofbigdatacomputing,theprocessingspeedoftheclusterneedstobeimprovedrapidly.However,theprocessingperformanceoftheexistingbigdataframeworkcannotsatisfytherequirementofthecomputingdevelopmentgradually.Astheframeworkofthestorageisdistributed,theplacementofdatatobeprocessedhasbecomeoneofthekeyfactorsaffectingtheperformanceofthecluster.Firstly,thecurrentdistributedfilesystemstructurewasintroduced.Thenthepopulardataplacementalgorithmsweresummarizedandclassifiedaccordingtodifferentoptimizationgoals,suchasnetworkloadbalance,energysavingandfaulttolerance.Finally,futurechallengesandresearchdirectionsintheareaofstorageframeworkandalgorithmswerepresented.英文关键词Keywords:bigdata;dataplacement;distributedfilesystem;MapReduce;Hadoop龙源期刊网http://www.qikan.com.cn0引言随着互联网的高速发展和迅速普及,我们已经进入了一个信息爆炸型的时代,大数据处理的需求正在迅速增加,在科学、工业、商业等领域,信息处理量达到TB级甚至PB级已是正常现象。因此,寻求优秀的大数据处理模型对于处理数据密集型应用是非常重要的。相对于传统的数据,人们将大数据的特征总结为5个V,即数据量大(Volume)、速度快(Velocity)、类型多(Variety)、难辨识(Veracity)和价值密度低(Value)[1]。数据量大仍可以靠扩展储存在一定程度上缓解,然而要求及时响应、数据多样性和数据不确定性是传统数据处理方法所不能解决的。为了应对这种大数据所带来的困难和挑战,诸多大型互联网公司近几年推出了各种类型的大数据处理系统。2004年,Google公司提出的MapReduce编程模型是面向大数据处理技术的具体实现,在学术界和工业界引起了很大反响[1]。随后Apache基金会根据MapReduce模型开发出开源的大数据处理框架Hadoop在Yahoo!、IBM、百度等公司得到了大量的应用和快速的发展[2]。然而,作为一个新兴的技术,大数据处理技术在很多地方还存在着很多不足,如调用分布式的数据所造成的延迟、巨大的数据吞吐量与不相符的网络速率所造成的网络负载严重的问题等。因此,国内外诸多学者们一直在找寻较好的数据存储方法以加强大数据处理的综合能力。本文首先对目前较为流行的大数据存储结构进行了介绍,然后对近几年的大数据存储策略方面的优化进行了总结,最后对全文进行了总结并提出对未来的展望。1数据存储结构1.1传统集中式数据存储传统互联网数据的创造和使用多以企业为主,数据的种类较为单一,又多以结构化数据为主,数据的管理以数据库的形式存在;企业根据自身对数据需求的不同,制定适用于自身的数据库模式(schema),而后才产生数据;数据仅作为一种处理对象,并不能用来辅助解决其他问题;数据多是由企业自身来访问,因此集中式存储是比较合适的存储方式[3]。在互联网快速发展的过程中,随着网络应用的数据量的加大,企业已感觉到存储...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

山水人家+ 关注
实名认证
内容提供者

读万卷书,行万里路。

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部