第二章 数据挖掘过程与知识发现 第一节 CRISP_DM介绍 跨行业数据挖掘标准流程被行业成员广泛应用,这一模型包括以下六个阶段: 一、业务理解:业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。 应该是对数据挖掘的目标有一个清晰的认识,知道利润所在,其中包括数据收集、数据分析和数据报告等步骤。 二、数据理解:一旦商业对象和计划书确定完备,数据理解就考虑将所需要的数据。这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。 由于数据挖掘是目标导向的,不同的商业目的需要不同的数据系列。数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据,来正确描述研究问题;即对问题进行简单描述;识别问题的相关数据;所选择的变量要相互独立,变量独立意味着不涵盖重复信息。 三、数据准备:确定可用的数据资源以后,需要对此进行筛选、清理、调整为所需要的形式。数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。更深层次的数据探索也可以在这一阶段进行,新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会。 数据预先处理: 1、噪声问题和缺失问题 a)数据重复 b)数值错误 c)数据缺失 2、数据的变换 a)数据类型的变换 b)数据的平滑 c)数据的概化 d)数据的规范化 十进制缩放:将某个数据全部除以10的相同的幂 通过极值来转化:新数据=(原数据-最小数值)/(最大数值-最小数值) 通过均值和标准差来转化:新数据=(原数据-均值)/标准差 通过对数来转化:对每个数据经过自然对数进行数据转换,例如下面的转换可以把数据转换到 0-1之间: O=1/(1+exp(-x)) 四、建立模型:数据模型建立是应用数据挖掘软件不不同的情景下获得结果的过程。 首先往往是聚类分析和数据视觉探究。依据数据挖掘类型的不同,应用各种不同的模型,如果任务是对数据分组,则运用判别分析;如果任务是估计,在连续数据类型的情况下,回归分析就可以运用,对于不连续的数据则可以运用逻辑回归分析,神经网络技术对两者都是可以的。决策树是进行数据分类的另外一个重要的工具,在以后的章节中将要进行介绍。 数据处理:数据挖掘的本质是在获取大规模的数据基础上进行统计数据的分析。通过对数据进行分割,一部分成为训练集,另外一部分成为测试集。一部分进行模型开发,另外一部分成为模型检验的部分。 数据挖掘就是:数据挖掘可以通过关联、分类、聚类、序列模式、类似时间序列...