龙源期刊网http://www
cn大数据存储架构和算法研究综述ﻫ作者:杨俊杰廖卓凡冯超超来源:《计算机应用》2016年第09期摘要:随着大数据计算需求的增长,集群的处理速度需要得到快速的提升,然而目前大数据处理框架的处理性能已逐渐满足不了这种快速增长的需求
由于集群的存储架构是分布式存储,因此数据的存放在大数据处理过程中成为影响集群的处理性能的因素之一
首先,对当今的分布式文件存储系统的结构进行了介绍;接着,根据不同的优化目标,例如减少网络负载、负载均衡、降低能耗和高容错性等,对近年国内外大数据存储算法的研究进行了总结,分析和对比了已有算法的优点以及存在的问题;最后,对大数据存储架构和优化算法设计的挑战和未来研究方向作了展望
关键词:大数据;数据部署;分布式文件系统;MapReduce;Hadoop中图分类号:TP393文献标志码:AAbstract:Withthegrowingdemandofbigdatacomputing,theprocessingspeedoftheclusterneedstobeimprovedrapidly
However,theprocessingperformanceoftheexistingbigdataframeworkcannotsatisfytherequirementofthecomputingdevelopmentgradually
Astheframeworkofthestorageisdistributed,theplacementofdatatobeprocessedhasbecomeoneofthekeyfactorsaffectingtheperformanceofthecluster
Firstly,thecurrentdistributedfilesystemstructurewasintrod