数据挖掘产品 IBM SPSS Modeler 新手使用入门 IBM SPSS Modeler 简介 作为 IBM 分析与预测解决方案的重要组成部分,IBM SPSS Modeler 是一组数据挖掘工具,通过这些工具可以采用商业技术快速建立预测性模型,并将其应用于商业活动,从而改进决策过程。随着于 2010 年其新版本 14.1 的发布,名字也由 PASW Modeler 更名为现在的 IBM SPSS Modeler 。 SPSS Modeler 提供了各种借助机器学习、人工智能和统计学的建模方法。通过建模选项板中的方法,您可以根据数据生成新的信息以及开发预测模型。每种方法各有所长,同时适用于解决特定类型的问题。 初次上手 典型的 SPSS Modeler 界面如下: 图 1. SPSS Modeler 界面 接下来将详细介绍其基本概念及操作。 基本概念:节点 节点代表要对数据执行的操作。 例如,假定您需要打开某个数据源、添加新字段、根据新字段中的值选择记录,然后在表中显示结果。在这种情况下,您的数据流应由以下四个节点组成: 表 1. 节点示例 变量文件节点,设置此节点后可以读取数据源中的数据。 导出节点,用于向数据集中添加计算的新字段。 选择节点,用于设置选择标准,以从数据流中排除某些记录。 表节点,用于在屏幕上显示操作结果。 基本概念:数据流 SPSS Modeler 进行的数据挖掘重点关注通过一系列节点运行数据的过程,我们将这一过程称为数据流。也可以说 SPSS Modeler 是以数据流为驱动的产品。这一系列节点代表要对数据执行的操作,而节点之间的链接指示数据的流动方向。如,上面提到的四个节点可以创建如下数据流: 图 2. 数据流示例 通常,SPSS Modeler 将数据以一条条记录的形式读入,然后通过对数据进行一系列操作,最后将其发送至某个地方(可以是模型,或某种格式的数据输出)。使用 SPSS Modeler 处理数据的三个步骤: 1. 将数据读入 SPSS Modeler。 2. 通过一系列操纵运行数据。 3. 将数据发送到目标位置。 在 SPSS Modeler 中,可以通过打开新的数据流来一次处理多个数据流。会话期间,可以在 SPSS Modeler 窗口右上角的流管理器中管理打开的多个数据流。 图 3. 流管理器 节点选项板 节点选项板位于流工作区下方窗口的底部。 图 4. 节点选项板 每个选项板选项卡均包含一组不同的流操作阶段中使用的相关节点,如: 源:此类节点可将数据导入 SPSS Modeler,如数据库、文本文件、SPSS Statistics 数据文...