下载后可任意编辑云端大数据产业进展可行性报告一、大数据概念 "大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理
"大数据"首先是指数据体量(volumes)
大,指代大型数据集,一般在 10TB
规模左右,但在实际应用中,很多企业用户把多个数据集放 在 一 起 , 已 经 形 成 了 PB 级 的 数 据 量 ; 其 次 是 指 数 据 类 别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据
接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理
最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性
二、大数据特点大数据特点 要理解大数据这一概念,首先要从"大"入手,"大"是指数据规模,大数据一般指在 10TB(1TB=1024GB)规模以上的数据量
大数据同过去的海量数据有所区别,其基本特征可以用 4 个 V 来总结(Vol-ume、Variety、Value 和 Veloc-ity),即体量大、多样性、价值密度低、速度快
1、数据体量巨大
从 TB 级别,跃升到 PB 级别
2、数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等
3、价值密度低
以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒
4、处理速度快
最后这一点也是和传统的数据挖掘技术有着本质的不同
物联网、云计算、移动互联网、车联网、手机、平板电脑、PC 以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式
三、大数据分析 从所周知,大