网络大数据:现状与展望1引言1
1研究与发展现状近年来,随着互联网、物联网、云计算、三网融合等IT与通信技术的迅猛发展,数据的快速增长成了许多行业共同而对的严峻挑战和宝贵机遇,因而信息社会己经进入了大数据(higData)时代
大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式,甚至还引起科学研究模式的根本性改变
一般意义上,大数据是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合川
网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中彼此交互与融合所产生并在互联网上可获得的大数据,简称网络数据
当前,网络大数据在规模与复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战
据著名咨询公司IDC发布的研究报告,2011年网络大数据总量为1
8ZB,预计到2020年,总量将达到35ZB
IBM将大数据的特点总结为3个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)
首先,网络空间中数据的体量不断扩大,数据集合的规模己经从UB}TB到了PB,而网络大数据甚至以EB和ZB(10z1)等单位来计数
IDC的研究报告称,未来十年全球大数据将增加50倍,管理数据仓库的服务器的数量将增加10倍以迎合50倍的大数据增长
其次,网络大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据
在现代互联网应用中,呈现出非结构化数据大幅增长的特点,至2012年末非结构化数据占有比例达到互联网整个数据量的75%以上
这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新技术的不断涌现和应用
再次,网络大数据往往呈现出突发涌现等非线}h}状态演变现象,因此难以对其变化进行有效评估和预测
另一方而,网络大数据常常以数据流的形式动态、快速地产生,具有很强的时效性,用户只有把握好对数据流的掌控才