LOGOwww.nordridesign.com11数据挖掘原理与SPSSClementine应用宝典元昌安主编邓松李文敬刘海涛编著电子工业出版社•数据挖掘的体系结构•数据挖掘的过程模型•Fayyad模型•CRISP-DM模型LOGOwww.nordridesign.com333.1数据挖掘的体系结构数据挖掘系统由各类数据库、挖掘前处理模块、挖掘操作模块、模式评估模块、知识输出模块组成,这些模块的有机组成就构成了数据挖掘系统的体系结构。数据清理集成抽取转换挖掘前处理模块挖掘结果评估模式评估模块系统外数据库数据挖掘处理挖掘操作模块知识输出知识输出模块数据库管理模块各类数据库数据仓库挖掘知识库模式用户数据挖掘系统的体系结构图LOGOwww.nordridesign.com443.1数据挖掘的体系结构•数据库管理模块,负责对系统内数据库、数据仓库、挖掘知识库的维护与管理。这些数据库、数据仓库是对外部数据库进行转换、清理、净化得到,它是数据挖掘的基础。•挖掘前处理模块,对所收集到的数据进行清理、集成、选择、转换,生成数据仓库或数据挖掘库。其中:清理,主要清除噪音;集成,将多种数据源组合在一起;选择,选择与问题相关的数据;转换,将选择数据转换成可挖掘形式。LOGOwww.nordridesign.com553.1数据挖掘的体系结构•模式评估模块,对数据挖掘结果进行评估。由于所挖掘出的模式可能有许多,需要将用户的兴趣度与这些模式进行分析对比,评估模式价值,分析不足原因,如果挖掘出的模式与用户兴趣度相差大,需返回相应的过程(如,挖掘前处理或挖掘操作)重新执行。•知识输出模块,完成对数据挖掘出的模式进行翻译、解释,以人们易于理解的方式提供给真正渴望知识的决策者使用。LOGOwww.nordridesign.com663.1数据挖掘的体系结构•挖掘操作模块,利用各种数据挖掘算法针对数据库、数据仓库、数据挖掘库,并借助挖掘知识库中的规则、方法、经验和事实数据等,挖掘和发现知识。。LOGOwww.nordridesign.com773.2数据挖掘的过程模型Fayyad数据挖掘模型将数据库中的知识发现看作是一个多阶段的处理过程,它从数据集中识别出以模式来表示的知识,在整个知识发现的过程中包括很多处理步骤,各步骤之间相互影响,反复调整,形成一种螺旋式的上升过程。数据准备数据挖掘结果表达与解释可视化知识评价数据挖掘事务数据降维/转换净化数据目标数据数据源预处理数据选取模式Fayyad数据挖掘过程模型LOGOwww.nordridesign.com883.2.1Fayyad模型Fayyad处理过程共分为9个处理阶段,分别是:•数据准备:了解KDD相关领域的有关情况,熟悉有关的背景知识,并弄清楚用户的要求。•数据选择:根据用户的要求从数据库中提取与KDD相关的数据,KDD将主要从这些数据中进行知识提取,在此过程中,会利用一些数据库操作对数据进行处理。LOGOwww.nordridesign.com993.2.1Fayyad模型•数据清洗和预处理:对数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据可以利用统计方法进行填补。•数据降维/转换:对经过预处理的数据,根据知识发现的任务对数据进行再处理,主要通过投影或数据库中的其它操作减少数据量。•确定KDD的目标根据用户的要求:确定KDD是发现何种类型的知识,因为对KDD的不同要求会在具体的知识发现过程中采用不同的知识发现算法。LOGOwww.nordridesign.com10103.2.1Fayyad模型•确定知识发现算法:根据阶段5所确定的任务,选择合适的知识发现算法,这包括选取合适的模型和参数,并使得知识发现算法与整个KDD的评判标准相一致。•数据挖掘(DataMining):运用选定的知识发现算法,从数据中提取出用户所感兴趣的知识,并以一定的方式表示出来。•模式解释:对发现的模式(知识)进行解释,在此过程中,为了取得更为有效的知识。LOGOwww.nordridesign.com11113.2.1Fayyad模型•知识评价:将发现的知识以用户能了解的方式呈现给用户。这期间也包含对知识的一致性检查,以确信本次发现的知识不与以前发现的知识相抵触。LOGOwww.nordridesign.com12123.2.1Fayyad模型Fayyad过程模型是一个偏技术的模型,该模型在实际应用中存在以下两个问题:1.为什么选择这些数据?Fayyad过程模型忽略了具体业务问题的确...