大数据时代的数据概念分析及其他一、概念:"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理
"大数据"首先是指数据体量(volumes)
大,指代大型数据集,一般在10TB
规模左右,但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量;其次是指数据类别(variety)大,数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据
接着是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理
最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性
百度概念:大数据(bigdata),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯
大数据的4V特点:Volume、Velocity、Variety、Veracity
研究机构Gartner概念:"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产
从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息
它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集
亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量
研发小组对大数据的定义:"大数据是最大的宣传技术、是最时髦的技术,当这种现象出现时,定义就变得很混乱
"Kelly说:"大数据是可能不包含所有的信息,但我觉得大部分是正确的