一、数据挖掘的目的 数据挖掘(Data Mining)阶段首先要确定挖掘的任务或目的
数据挖掘的目的就是得出隐藏在数据中的有价值的信息
数据挖掘是一门涉及面很广的交叉学科,包括器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术
它也常被称为“知识发现”
知识发现(KDD)被认为是从数据中发现有用知识的整个过程
数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patter,如数据分类、聚类、关联规则发现或序列模式发现等
数据挖掘主要步骤是:数据准备、数据挖掘、结果的解释评估
二、数据挖掘算法说明 确定了挖掘任务后,就要决定使用什么样的挖掘算法
由于条件属性在各样本的分布特性和所反映的主观特性的不同, 每一个样本对应于真实情况的局部映射
建立了粗糙集理论中样本知识与信息之间的对应表示关系, 给出了由属性约简 求 约简 决策 表的方 法
基 于后离 散 化 策 略 处 理连 续 属性, 实现离 散 效 率 和信息损 失 之间的动 态 折 衷
提 出相对值条件互 信息的概 念 衡 量 单 一样本中各条件属性的相关性, 可 以 充 分利 用现有数据处 理不完 备信息系统
本次 数据挖掘的方 法是两 种 ,一是找 到 若 干 条特殊 样本,而 是找 出若 干 条特殊 条件属性
最 后利 用这 些 样本和属性找 出关联规则
( 第 四 部分详 细 讲 解样本和属性的选 择 ) 三 数据预 处 理过程 数据预 处 理一般 包括消 除 噪 声 、推 导 计算缺 值数据、消 除 重 复 记 录 、完 成 数据类型 转 换 (如把 连 续 值数据转 换 为离 散 型 数据,以 便 于符 号 归 纳 ,或是把 离 散型 数据转 换 为连 续 )
本文 使用的数据来 源 是名 为“Cardiology Categorical”的ex cel文