分布式计算技术 分布式计算是一门计算机科学,它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分给许多计算机进行处理,最好把这些计算结果综合起来得到最终的结果
其中,共享稀有资源和平衡负载是计算机分布式计算的核心思想之一
云计算是分布式计算技术的一种,其最基本的概念是透过网络将庞大的计算机处理程序自动分拆成无数个较小的子程序,再交由多部服务器组成的庞大系统经搜寻、计算分析后将处理结果回传给用户
透过这项技术,网络提供者可以在数秒内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务
传统的数据中心的解决方案中,一般都是在前期考虑到方案实施后的一段时间内的业务量和数据量,加入多余的计算单元和存储,以备不时之需
这样的方式直接导致了前期一次性投资的巨大,并且这样也无法保证计算需求和存储超出设计量时的系统性能
一旦扩容,问题将接踵而来
同时,传统的数据采集来源单一,且存储、管理和分析数据量也相对较小,大多采用关系型数据库和并行数据仓库即可处理
以 Google 为首的技术型互联网公司提出了 Map/Reduce 的技术框架,利用廉价的 PC服务器集群,大规模并发处理批量事务
利用文件系统存储非结构化数据、加上完美的备份和容灾策略,这套经济实惠的大数据分析解决方案与之前昂贵的企业小型机集群+商业数据库方案相比,不仅没有丢失性能、而且赢得了可扩展性;在需要扩容时,只需增加个机柜,加入适当的计算单元和存储,集群系统会自动分配和调度这些资源,丝毫不会影响现有系统的运行
Hadoop 是一个能够对大量数据进行分布式密集数据处理和数据分析的软件框架,同时是以一种可靠、高效、可伸缩的方式进行处理,使得用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储
其基本的工作原理为:将规模巨大的数据分解