精品文档---下载后可任意编辑 (2024-08-12 20:31:47)[删除]转 载 ▼标签: 转载原文地址:作者:建模手 线性回归数据(全国各地区能源消耗量与产量)来源,可点击协会博客数据挖掘栏:国泰安数据服务中心的经济讨论数据库
数据预处理数据预处理包括的内容非常广泛,包括数据清理和描述性数据汇总,数据集成和变换,数据归约,数据离散化等
本次实习主要涉及的数据预处理只包括数据清理和描述性数据汇总
一般意义的数据预处理包括缺失值填写和噪声数据的处理
于此我们只对数据做缺失值填充,但是依旧将其统称数据清理
数据导入与定义单击“打开数据文档 ”,将 xls 格式的全国各地区能源消耗量与产量的数据导入 SPSS 中,如图 1-1 所示
图 1-1 导入数据导入过程中,各个字段的值都被转化为字符串型(String),我们需要手动将相应的字段转回数值型
单击菜单栏的“ ”-->“ ”将所选的变量改为数值型
如图 1-2 所示: 图 1-2 定义变量数据类型 数据清理数据清理包括缺失值的填写和还需要使用 SPSS 分析工具来检查各个变量的数据完整性
单击“ ”-->“ ”,将检查所输入的数据的缺失值个数以及百分比等
如图 1-3 所示:精品文档---下载后可任意编辑 图 1-3 缺失值分析能源数据缺失值分析结果如表 1-1 所示: 单变量统计 N均值标准差缺失极值数目 a计数百分比低高能源消费总量300
001煤炭消费量300
002焦炭消费量300
002原油消费量28201汽油消费量300
001煤油消费量28204柴油消费量300
002燃料油消费量300
003天然气消费量300
002电力消费量300
003原煤产量26402焦炭产量29102原油产量181200燃料油产量25503汽油产量26402煤油产量201000柴油产量26401天然气产量201003电力