关于大数据分析领域的综述报告1现状分析1
1背景介绍理解大数据分析这个专业领域,有必要先了解大数据相比于传统数据形式所具有的不同特征,主要包括以下四点(4V特性):1数据量大
根据互联网数据中心(IDC)的报告显示,目前的数据容量为1
8万亿GB,2020年全球数据总量将超40ZB
数据来源包括以微博为代表的Web数据,Facebook、QQ为代表的社交网络数据,阿里巴巴为代表的电子商务数据,由各类传感器、摄像头采集到的物联网数据,以及来自医疗、制造、金融等传统行业信息化后产生的数据
2数据流动性大,增长迅速,时效性高
最具代表性的就是Web数据和社交网络数据,Facebook每天生成的日志数据达到300TB以上
3数据类型多样化,包括结构化、半结构化、非结构化的数据,根据IDC的报告显示,1
8万亿GB的数据中,非结构化数据占到80~90%之间
4数据价值高密度低
在海量数据中,包含有用信息的数据比例较低
而当我们借助传感器、数据采集设备获得海量数据后,再通过挖掘形成知识,人们还想知道这些数据代表了什么,面对这些数据我们应该采取的应对策略
因此,形成了大数据分析的概念,即:对海量数据进行分析,从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程
大数据代表了信息科技和商业世界的联合,将大数据分析嵌入产品生产和服务的过程已经成为一种趋势
大数据产业在中国的发展主要分为四个过程,如图1所示:图1大数据产业在中国的发展过程目前,我国大数据产业处于高速发展期,多种商业模式得到市场印证,新产品和服务不断推出,细分市场走向差异化竞争
大数据分析带来的直接经济效益也是很可观的
来自麦肯锡2012年大数据报告中的一组数据显示,大数据产业为美国医疗系统带来每年3000亿美元的收益;为欧洲公共管理部门带来2500亿欧元的收益;为零售业增加60%的净利润;为制造业减少50%的产