数据挖掘模型生命周期过程广州市安正软件科技有限公司陈云为成功地利用数据挖掘模型,我们需要从开发阶段直至生产环境对模型进行全面跟踪管理与评估
挖掘模型生命周期过程是由以下阶段组成的高效交替过程
确定商业目标最初的阶段集中在理解项目目标和从业务的角度理解需求,同时转化为数据挖掘问题的定义,完成目标的初步计划
确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模型的使用方法
典型模型包括用于客户行为、风险管理和信用评分的预测建模模型
应用领域包括客户保有、信贷发放、交易验证、欺诈检测和促销等
这些因素推动数据采集和模型开发过程
数据理解数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,检查数据的质量,初步发现数据的特征,或是探测引起兴趣的样本子集去构建隐含信息的假设
影响数据质量的几个主要问题包括:缺失值、不合理值、不同数据源的不一致、异常值
数据准备数据准备(预处理)阶段包括从未处理数据中构造最终数据集的所有活动
这些数据将作为模型工具的输入值
这个阶段的任务有时一个能执行多次,没有任何规定的顺序
任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据
现实中的数据通常是不完整的、不一致的、含噪声,污染数据的普遍存在导致了数据清理的必要性,所谓“垃圾进垃圾出”
形成污染数据的原因包括:滥用缩写词、数据输入错误、不同的惯用语、重复记录、缺失值、不同的计量单位等
建立模型选择和应用不同的模型技术,调整模型参数到最佳值
一般,有些技术可以解决一类相同的数据挖掘问题
有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段
这个过程涉及采用挖掘统计和虚拟化技术、变量转换、过滤异常、数据替换、细分、聚合、预测建模运算和模型验证等
模型评估在最后部署模型之前,重要的事情是较彻底地评估模型
检查构造模型的步骤,确保模型可以达成业务目标