第2 章 数据挖掘过程与知识发现 第一节 CRISP_DM 介绍 一、数据挖掘阶段 跨行业数据挖掘标准流程被行业成员广泛应用,这一模型包括以下六个阶段: 1
业务理解:业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书
应该是对数据挖掘的目标有一个清晰的认识,知道利润所在,其中包括数据收集、数据分析和数据报告等步骤
数据理解:一旦商业对象和计划书确定完 备,数据理解就考虑将所需要的数据
这一 过程包括原始数据收集、数据描述、数据探 索和数据质量核查等
由于数据挖掘是目标导向的,不同的商 业目的需要不同的数据系列
数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据,来正确描述研究问题;即对问题进行简单描述;识别问题的相关数据;所选择的变量要相互独立,变量独立意味着不涵盖重复信息
数据准备:确定可用的数据资源以后,需 要对此进行筛选、清理、调整为所需要的形 式
数据整理和数据转换等数据建模的准备 工作需要在这一阶段完成
更深层次的数据 探索也可以在这一阶段进行,新增模型的应 用再次提供了在业务理解基础上看清楚数 据模式的机会
数据预先处理: 噪声问题和缺失问题 数据重复; 数值错误; 数据缺失 数据的变换 数据类型的变换; 数据的平滑; 数据的概化; 数据的规范化 十进制缩放:将某个数据全部除以10 的相同的幂; 通过极值来转化: 新数据=(原数据-最小数值)/(最大数值-最小数值) 通过均值和标准差来转化: 新数据=(原数据-均值)/标准差 通过对数来转化 对每个数据经过自然对数进行数据转换,例如下面的转换可以把数据转换到0-1之间: O=1/(1+exp(-x)) 5
建立模型:数据模型建立是应用数据挖掘软件不同的情景下获得结果的过程
首先往往是聚类分析和数据视觉探究
依据数据挖掘类型的不同,应用各种不同的模型,如果任务是对数据分组