数据分析是一种信息提取过程
数据的搜索,聚集,整顿是数据分析的前提,只有通过分析的数据才有使用的价值和意义
数据分析是指用适宜的统计办法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功效,发挥数据的作用
是为了提取有用信息和形成结论而对数据加以具体研究和概括总结的过程
在统计学中,数据分析可划分为描述性统计分析、探索性数据分析以及验证性数据分析
所谓描述性统计分析,就是对一组数据的多个特性进行分析,方便于描述测量样本的多个特性及其所代表的总体的特性;探索性数据分析侧重于在数据之中发现新的特性;而验证性数据析,则侧重于验证或推翻已有的假设
《数据分析》一书中介绍了数据描述性分析、非参数办法、回归分析等分析办法并介绍了惯用数据分析办法的 SAS 实现过程
第一章介绍的数据描述分析是运用最基础的数理知识实现最简朴的数据分析,涉及对均值、方差、中值等的计算,数据分布图的勾画,对多元数据的有关分析等
这些简朴的分析是复杂数据分析的基础
简朴的数据分析在大多数状况下无法满足信息使用者的规定,这时,就需要对数据进行更进一步的分析
回归分析基于观察数据,建立变量间的适宜以来关系,用以分析数据的内在规律,可用于预报、控制等问题
回归分析中要解决的问题有:参数预计、假设检查、模型选用等
模型的选用尤为核心,一种好的模型,既要较好地反映问题的本质,又要包含尽量少的自变量
模型的选用有穷举法和逐步回归法两种
一种好的模型能够精确地预测应变量的值,在数据分析中起到重大的作用
该部分内容与上学期所学的《计量经济学》有诸多相似之处
数据分为三大类,即:截面数据、时间序列数据和虚拟数据
第七章所介绍的时间序列分析正是对时间序列数据的普遍的解决办法
时间序列是准时间次序排列的、随时间变化且互有关联的数据序列
其中,AR 序列、MA 序列、ARMA 序列是最基本的三种时间序列形式