数据挖掘快速上手Version1
0Preparedby 高处不胜寒QQ群:群:14094415140944152009-10-15、Clementine数据挖掘的基本思想数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,它是一种深层次的数据分析方法
随着科技的发展,数据挖掘不再只依赖在线分析等传统的分析方法
它结合了人工智能( AI)和统计分析的长处,利用人工智能技术和统计的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题
Clementine 为我们提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分析、因子分析等),并用基于图形化的界面为我们认识、了解、熟悉这个软件提供了方便
除了这些Clementine 还拥有优良的数据挖掘设计思想,正是因为有了这个工作思想,我们每一步的工 作也变得很清晰
(如图一所示)CRICRISSP-DM processmomoddel如图可知,CRISP-DM Model包含了六个步骤, 并用箭头指示了步骤间的执行顺序
这些顺序并不严格,用户可以根据实际的需要反向执行某个步骤,也可以跳过某些步骤不予执行
通过对这些步骤的执行,我们也涵盖了数据挖掘的关键部分
商业理解(Businessununderderdersstandndiing):商业理解阶段应算是数据挖掘中最重要的一个部分,在这个阶段里我们需要明确商业目标、评估商业环境、确定挖掘目标以及产生一个项目计划
数据理解(Data undunderererstandingstandingstanding)):数据是我们挖掘过程的 “原材料”,在数据理解过程中我们要知道都有些什么数据,这些数据的特