大数据对统计学来说是冲击和机遇大数据时代需要重视统计学 我们现在要开始重视大数据,更要重视统计学,因为在数据足够大了之后,我们突然发现一切社会现象到最后都有统计规律,它不像物理学那样可以准确的去描述因果的关系,它从本质上来说就是一个统计的规律。大数据的定义大数据(巨量数据集合(IT行业术语))(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。统计学的定义统计学是对研究对象的数据资料进行搜集、整理、分析和研究,以显示其总体的特征和规律性的学科。统计学的研究对象是客观事物的数量特征和数据资料。统计学是以搜集、整理、分析和研究等统计技术为手段,对所研究对象的总体数量关系和数据资料去伪存真、去粗取精,从而达到显示、描述和推断被研究对象的特征、趋势和规律性的目的。统计学,亦可简称为统计。统计方法已被应用到自然科学和社会科学的众多领域,统计学也发展成为由若干分支学科组成的学科体系。从统计方法的构成来看,统计学可以分为描述统计学和推断统计学;从统计方法研究和统计方法的应用角度来看,统计学可以分为理论统计学和应用统计学。大数据对统计学的冲击(1) 对描述统计学的冲击 描述统计学(Descriptive Statistics)研究如何取得反映客观现象的数据,并通过图表形式对所收集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征。内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。 1. 对数据搜集基本方法的冲击搜集数据的途径众多,可通过普查、统计报表、抽样调查、典型调查、重点调查等获得资料。搜集数据的过程中除了要注意资料的真实性和可靠性外。在数据的搜集、整理、分析等各阶段都存在误差,统计数据的误差主要有登记性误差和代表性误差两类。 登记性误差是调查过程中由于调查或被调查者的人为因素所造成误差。调查者所造成的登记性差主要有:调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等;被调查者造成的登记性误差主要有:因人为因素干扰形成的有意虚报或瞒报调查数据,这种误差在统计调查中...