电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

第2章数据挖掘过程与知识发现_2.0

第2章数据挖掘过程与知识发现_2.0_第1页
1/19
第2章数据挖掘过程与知识发现_2.0_第2页
2/19
第2章数据挖掘过程与知识发现_2.0_第3页
3/19
第2 章 数据挖掘过程与知识发现 第一节 CRISP_DM 介绍 一、数据挖掘阶段 跨行业数据挖掘标准流程被行业成员广泛应用,这一模型包括以下六个阶段: 1.业务理解:业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。 应该是对数据挖掘的目标有一个清晰的认识,知道利润所在,其中包括数据收集、数据分析和数据报告等步骤。 2.数据理解:一旦商业对象和计划书确定完 备,数据理解就考虑将所需要的数据。这一 过程包括原始数据收集、数据描述、数据探 索和数据质量核查等。 由于数据挖掘是目标导向的,不同的商 业目的需要不同的数据系列。数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据,来正确描述研究问题;即对问题进行简单描述;识别问题的相关数据;所选择的变量要相互独立,变量独立意味着不涵盖重复信息。 3.数据准备:确定可用的数据资源以后,需 要对此进行筛选、清理、调整为所需要的形 式。数据整理和数据转换等数据建模的准备 工作需要在这一阶段完成。更深层次的数据 探索也可以在这一阶段进行,新增模型的应 用再次提供了在业务理解基础上看清楚数 据模式的机会。 4.数据预先处理: 噪声问题和缺失问题 数据重复; 数值错误; 数据缺失 数据的变换 数据类型的变换; 数据的平滑; 数据的概化; 数据的规范化 十进制缩放:将某个数据全部除以10 的相同的幂; 通过极值来转化: 新数据=(原数据-最小数值)/(最大数值-最小数值) 通过均值和标准差来转化: 新数据=(原数据-均值)/标准差 通过对数来转化 对每个数据经过自然对数进行数据转换,例如下面的转换可以把数据转换到0-1之间: O=1/(1+exp(-x)) 5.建立模型:数据模型建立是应用数据挖掘软件不同的情景下获得结果的过程。 首先往往是聚类分析和数据视觉探究。依据数据挖掘类型的不同,应用各种不同的模型,如果任务是对数据分组,则运用判别分析;如果任务是估计,在连续数据类型的情况下,回归分析就可以运用,对于不连续的数据则可以运用逻辑回归分析,神经网络技术对两者都是可以的。决策树是进行数据分类的另外一个重要的工具,在以后的章节中将要进行介绍。 6.数据处理:数据挖掘的本质是在获取大规模的数据基础上进行统计数据的分析。通过对数据进行分割,一部分成为训练集,另外一部分成为测试集。一部分进行模型开发,另外一部分成为模型检验的部分。 数据挖掘就是可以通过关联、分类、聚类、...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

第2章数据挖掘过程与知识发现_2.0

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部