第3 章 数据预处理 本章学习目标: 掌握SPSS 数据预处理的可视离散化方法; 了解SPSS 缺失值的填补方法; 掌握SPSS 的数据校验方法; 如何标识重复个案; 如何标识异常个案; 学习如何从数据集中选择符合条件的个案
随着计算机系统能力的提高,对信息的需要成比例增长,导致收集的数据越来越多
随之而来的问题是出现更多的个案、更多的变量以及更多的数据输入错误
这些错误会损害作为数据仓储最终目标的预测模型的预测能力,因此必须使数据保持“干净”
不过,数据仓储中数据量的增长已经大大超出了手动验证个案的能力,因而实现自动化的数据验证过程变得十分关键
数据预处理即当录入或读取数据后,对数据进行必要的清理(包括查错纠错、标识数据中的异常个案和无效个案、变量和数据值等)、转换、填补缺失值等,为后续统计分析应用(如均值比较、方差分析、回归分析等)打下良好基础
如果把整个统计分析过程比作大厨烧菜,那么种菜或去菜场买菜等获取食材就相当于录入或读取数据,而扔掉坏的菜叶、切菜等准备工作就相当于数据预处理,而在锅里烧菜烹饪就相当于后续具体统计分析应用(如均值比较、方差分析、相关性分析、回归分析等)
可见,数据预处理虽不产生最终的分析结果,但作为最终分析的准备,是数据分析必不可少的一环,它在完整的数据分析项目过程中的位置如图 3-1 所示
在本章中,3
1 节讨论尺度数据(即连续型数据)转换到分类数据的可视离散化方法;3
2 节讨论 SPSS 中数据缺失值的填补方法;3
3 节讨论 SPSS 中数据校验的方法;3
4 节学习如何标识重复个案和异常个案;3
5 节学习如何从数据集中选择满足第3章 70 SPSS 18数据分析基础与实践 条件的个案
图3-1 统计分析项目过程图 3
1 可视离散化 可视离散化(可视化分段)(Visual Binning)用于为定量变量