第2章数据挖掘过程与知识发现

下载本文档

阅读 160
下载 11
格式 pdf
大小 271.31 KB
约6页
2025-03-17 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/6页

2/6页

3/6页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

第二章数据挖掘过程与知识发现第一节 CRISP_DM介绍跨行业数据挖掘标准流程被行业成员广泛应用，这一模型包括以下六个阶段：一、业务理解：业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书。应该是对数据挖掘的目标有一个清晰的认识，知道利润所在，其中包括数据收集、数据分析和数据报告等步骤。二、数据理解：一旦商业对象和计划书确定完备，数据理解就考虑将所需要的数据。这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等。由于数据挖掘是目标导向的，不同的商业目的需要不同的数据系列。数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据，来正确描述研究问题；即对问题进行简单描述；识别问题的相关数据；所选择的变量要相互独立，变量独立意味着不涵盖重复信息。三、数据准备：确定可用的数据资源以后，需要对此进行筛选、清理、调整为所需要的形式。数据整理和数据转换等数据建模的准备工作需要在这一阶段完成。更深层次的数据探索也可以在这一阶段进行，新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会。数据预先处理： 1、噪声问题和缺失问题 a)数据重复 b)数值错误 c)数据缺失 2、数据的变换 a)数据类型的变换 b)数据的平滑 c)数据的概化 d)数据的规范化十进制缩放：将某个数据全部除以10的相同的幂通过极值来转化：新数据=（原数据-最小数值）/（最大数值-最小数值）通过均值和标准差来转化：新数据=（原数据-均值）/标准差通过对数来转化：对每个数据经过自然对数进行数据转换，例如下面的转换可以把数据转换到 0-1之间： O=1/(1+exp(-x)) 四、建立模型：数据模型建立是应用数据挖掘软件不不同的情景下获得结果的过程。首先往往是聚类分析和数据视觉探究。依据数据挖掘类型的不同，应用各种不同的模型，如果任务是对数据分组，则运用判别分析；如果任务是估计，在连续数据类型的情况下，回归分析就可以运用，对于不连续的数据则可以运用逻辑回归分析，神经网络技术对两者都是可以的。决策树是进行数据分类的另外一个重要的工具，在以后的章节中将要进行介绍。数据处理：数据挖掘的本质是在获取大规模的数据基础上进行统计数据的分析。通过对数据进行分割，一部分成为训练集，另外一部分成为测试集。一部分进行模型开发，另外一部分成为模型检验的部分。数据挖掘就是：数据挖掘可以通过关联、分类、聚类、序列模式、类似时间序列...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

第2章数据挖掘过程与知识发现

第二章数据挖掘过程与知识发现第一节 CRISP_DM介绍跨行业数据挖掘标准流程被行业成员广泛应用，这一模型包括以下六个阶段：一、业务理解：业务理解包括确定商业对象、了解现状、建立数据挖掘目标和制定计划书

应该是对数据挖掘的目标有一个清晰的认识，知道利润所在，其中包括数据收集、数据分析和数据报告等步骤

二、数据理解：一旦商业对象和计划书确定完备，数据理解就考虑将所需要的数据

这一过程包括原始数据收集、数据描述、数据探索和数据质量核查等

由于数据挖掘是目标导向的，不同的商业目的需要不同的数据系列

数据挖掘的第一步是从许多可供使用的数据库中筛选相关数据，来正确描述研究问题；即对问题进行简单描述；识别问题的相关数据；所选择的变量要相互独立，变量独立意味着不涵盖重复信息

三、数据准备：确定可用的数据资源以后，需要对此进行筛选、清理、调整为所需要的形式

数据整理和数据转换等数据建模的准备工作需要在这一阶段完成

更深层次的数据探索也可以在这一阶段进行，新增模型的应用再次提供了在业务理解基础上看清楚数据模式的机会

数据预先处理： 1、噪声问题和缺失问题 a)数据重复 b)数值错误 c)数据缺失 2、数据的变换 a)数据类型的变换 b)数据的平滑 c)数据的概化 d)数据的规范化十进制缩放：将某个数据全部除以10的相同的幂通过极值来转化：新数据=（原数据-最小数值）/（最大数值-最小数值）通过均值和标准差来转化：新数据=（原数据-均值）/标准差通过对数来转化：对每个数据经过自然对数进行数据转换，例如下面的转换可以把数据转换到 0-1之间： O=1/(1+exp(-x)) 四、建立模型：数据模型建立是应用数据挖掘软件不不同的情景下获得结果的过程

首先往往是聚类分析和数据视觉探究

依据数据挖掘类型的不同，应用各种不同的模型，如果任务是对数据分组，则运用判别分析；如果任

小辰3 + 关注: 实名认证
内容提供者

出售各种资料和文档

收藏店铺进入空间

第2章数据挖掘过程与知识发现

第2章数据挖掘过程与知识发现

您可能关注的文档

相关文档

热门下载

相关标签