IBM SPSS Statistics 是目前世界上主流的数据预测统计分析软件之一,本文从 IBM SPSS Statistics 的基本概念入手,对其在数据分析流程中的各个应用进行了简单介绍,通过针对一个实际问题的分析,并结合典型算法,介绍使用 IBM SPSS Statistics 进行数据分析的基本流程。读者可以在较短时间内了解如何使用 IBM SPSS Statistics 进行建模及数据预测分析。 IBM SPSS Statistics 简介及基本概念介绍 SPSS Statistics 统计分析预测软件是一款在调查统计行业,市场研究,医学统计,政府和企业的数据分析应用中久享盛名的统计分析工具,是世界上最早的统计分析软件,全球约有 28 万家产品用户,他们分布于通讯,医疗,银行,证券,保险,制造,商业,市场研究,科研教育等多个领域和行业,是目前世界上应用最广泛的专业数据预测统计分析软件。在 2009 年 IBM 收购 SPSS 公司之后,IBM SPSS Statistics 成为 IBM 商业智能分析优化解决方案的重要组成部分,最新的发布版本是 19.0 多国语言版。 基本概念 典型的 IBM SPSS Statistics 数据编辑器界面如下: 图 1 IBM SPSS Statistics 数据编辑器界面 变量视图:变量视图用于管理变量的属性,包括变量名称,类型,标签,缺失值,度量标准等 10 个属性。 数据视图:数据视图用于管理录入的数据,一行表示一条记录在不同变量下的值,一列表示相同的变量在不同记录中的值。 图 2 变量类型定义界面 变量类型:IBM SPSS Statistics 主要包括 3 种类型,分别是:数值型,字符型和日期型,根据不同的显示方式,数值型又被细分为 6 种,为了便于统计计算,通常尽可能将变量类型定义为数值型的。 度量标准:在 IBM SPSS Statistics 中,按照对事物描述的精确程度,可以将变量分为 3 种度量标准,度量(Scale),名义(Nominal),序号(Ordinal),因为不同的变量度量标准适用不同的统计模型,因此正确定义一个变量的度量标准很重要。 度量(Scale)变量:通常也称为连续变量,表示变量的值通常是连续的,无界限的,如员工收入,企业销售额等。 名义(Nominal)变量:通常也称为无序分类变量,表示变量的值是离散的,相对有限个数的,通常变量值的个数不超过 10 个,但值之间没有顺序关系的,如性别。 序号(Ordinal)变量:通常也称为有序分类变量,表示变量的值是离散的,相对有限个数的,但值之间是有顺序...