精品文档---下载后可任意编辑1
1 数据预处理数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等
本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总
一般意义的数据预处理包括缺失值填写和噪声数据的处理
于此我们只对数据做缺失值填充,但是依旧将其统称数据清理
1 数据导入与定义单击“打开数据文档”,将 xls 格式的全国各地区能源消耗量与产量的数据导入 SPSS 中,如图 1-1 所示
图 1-1 导入数据导入过程中,各个字段的值都被转化为字符串型(String),我们需要手动将相应的字段转回数值型
单击菜单栏的“”-->“”将所选的变量改为数值型
如图 1-2 所示:图 1-2 定义变量数据类型1
2 数据清理数据清理包括缺失值的填写和还需要使用 SPSS 分析工具来检查各个变量的数据完整性
单击“”-->“”,将检查所输入的数据的缺失值个数以及百分比等
如图 1-3 所示: 精品文档---下载后可任意编辑图 1-3 缺失值分析能源数据缺失值分析结果如表 1-1 所示: 单变量统计 N均值标准差缺失极值数目 a计数百分比低高能源消费总量300
001煤炭消费量300
002焦炭消费量300
002原油消费量28201汽油消费量300
001煤油消费量28204柴油消费量300
002燃料油消费量300
003天然气消费量300
002电力消费量300
003原煤产量26402焦炭产量29102原油产量181200燃料油产量25503汽油产量26402煤油产量201000柴油产量26401天然气产量201003电力产量300
000 表 2-1 能源消耗量与产量数据缺失值分析 表 1-1 能源消耗量与产量数据缺失值分析SPSS 提供了填充缺失值的工具,点击菜单栏“”-->“”,即可以使用软件提供的几种填充