计算平台概要设计说明书文件编号受控编号版次密级内部公开总页数42附录作者:日期:2013-01-28批准:日期:审核:日期:版权所有,翻版必究)文件修改记录1.引言1.1 编写目的大数据泛指巨量的数据集,因可从中挖掘出有价值的信息而受到重视。《华尔街日报》将大数据时代、智能化生产和无线网络革命称为引领未来繁荣的三大技术变革。麦肯锡公司的报告指出数据是一种生产资料,大数据是下一个创新、竞争、生产力提高的前沿。世界经济论坛的报告认定大数据为新财富,价值堪比石油。因此,发达国家纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手。互联网特别是移动互联网的发展,加快了信息化向社会经济各方面、大众日常生活的渗透。有资料显示,1998 年全球网民平均每月使用流量是 1MB(兆字节),2000 年是 10MB,2003年是 100MB,2008 年是 1GB(1GB 等于 1024MB),2014 年将是 10GB。全网流量累计达到1EB(即 10 亿 GB 或 1000PB)的时间在 2001 年是一年,在 2004 年是一个月,在 2007 年是一周,而 2013 年仅需一天,即一天产生的信息量可刻满亿张 DVD 光盘。我国网民数居世界之首,每天产生的数据量也位于世界前列。淘宝网站每天有超过数千万笔交易,单日数据产生量超过 50TB(1TB 等于 1000GB),存储量 40PB(1PB 等于 1000TB)。百度公司目前数据总量接近 1000PB,存储网页数量接近 1 万亿页,每天大约要处理 60 亿次搜索请求,几十PB 数据。一个 8Mbps(兆比特每秒)的摄像头一小时能产生数据,一个城市若安装几十万个交通和安防摄像头,每月产生的数据量将达几十 PB。医院也是数据产生集中的地方。现在,一个病人的 CT 影像数据量达几十 GB,而全国每年门诊人数以数十亿计,并且他们的信息需要长时间保存。总之,大数据存在于各行各业,一个大数据时代正在到来。信息爆炸不自今日起,但近年来人们更加感受到大数据的来势迅猛。一方面,网民数量不断增加,另一方面,以物联网和家电为代表的联网设备数量增长更快。2007 年全球有 5 亿个设备联网,人均个;2013 年全球将有 500 亿个设备联网,人均 70 个。随着宽带化的发展,人均网络接入带宽和流量也迅速提升。全球新产生数据年增 40%,即信息总量每两年就可以翻番,这一趋势还将持续。目前,单一数据集容量超过几十 TB 甚至数 PB 已不罕见,其规模大到无法在容许的时间内用常规软件工具对其内容进行抓取、管理和处理。数...