大数据与统计学浙江工商大学李金昌引言作为归纳分析的科学,统计学可以从亚里士多德的“城邦政情”算起,但作为一门数据分析的科学则应从配第的《政治算术》算起
300多年来,统计学围绕如何收集、整理和分析数据这一主线而发展,构建起了庞大、多元、融合的应用方法体系,帮助解决了各个领域大量复杂的现实问题
统计学的发展,是根据数据的型态和问题的本质来改变的,不是因为我们会做他背后的数学而发展的
不要因为(统计的)问题困难而去做它;也不要因为它难而不做
Hodges,1922-2000)R
Rao:统计的分析形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变
大数据时代的来临,迫使统计学站在一个新的起点上
1998年,《科学》杂志刊登的一篇介绍计算机软件HiQ的文章《大数据的处理程序》中第一次正式使用了大数据(bigdata)一词
2008年9月《自然》杂志出版“bigdata”专刊
最近几年,关于大数据的文献迅速增加,但绝大多数出于计算机领域的学者之手,较少有基于统计学视角的深度学术讨论
一、对大数据的认识最早与大数据概念有关的学科:天文学、气象学和基因学,一开始就依赖于海量数据分析方法
但从现代意义上看,大数据可以说是计算机与互联网相结合的产物,前者实现了数据的数字化,后者实现了数据的网络化
大数据的本意是,所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯
4V特点:Volume、Velocity、Variety、Value
大数据自古有之
人类曾经开展过的人口普查、产业普查等数据,是否属于大数据
在计算机技术与网络化未得到充分发展以前,人们自然难以联想出大数据这个概念
从统计学的角度看,大数据不是主要基于人工设