第一章 引论 1、什么是数据挖掘? 数据挖掘更正确的命名为“从数据中挖掘知识”,是数据中的知识发现(KDD)的同义词。数据挖掘是从大量数据中挖掘有趣模式和知识的过程,数据源包括数据库、数据仓库、w eb、其他信息存储库或动态的流入系统的数据。 2、知识发现的过程是什么? 知识发现的过程为: (1)数据清理(消除噪声和删除不一致的数据) (2)数据集成(多种数据源可以组合在一起) (3)数据选择(从数据库中提取与分析任务相关的数据) (4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式) (5)数据挖掘(基本步骤,使用智能方法提取数据模式) (6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式) (7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识) 3、什么类型的数据可以挖掘? 数据挖掘可以作用于任何类型的数据,数据的最基本形式是数据库数据、数据仓库数据、事务数据。也可以用于数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网。 (1)数据库数据 由一组内部相关的数据和一组管理和存储数据的软件程序组成。关系数据库是表的汇集,每个表被赋予一个唯一的名字,含有一组属性(列或字段),并且通常存放大量元组(记录或行)。每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体-联系(ER)数据模型。 (2)数据仓库 数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据存储从历史的角度提供信息,并且通常是汇总的。数据仓库用称作数据立方体的多维数据结构建模。每个维对应于模式中的一个或一组属性,每个单元存放某种聚集度量值 (3)事务数据 每个记录代表一个事务 4、什么类型的模式可以挖掘? 数据挖掘功能用于指定数据挖掘任务发现的模式,一般而言,这些任务可以分为两类:描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质,预测性挖掘任务在当前数据上进行归纳,以便进行预测。 (1)类/概念描述:特征化与区分 数据可以与类或概念相关联。数据特征化是目标类数据的一般特性或特征的汇总。将数据汇总和特征化的方法:基于统计度量和图的简单数据汇总、基于数据立方体的 OLAP 上卷操作、面向属性的归纳技术。数据特征的输出可以用多种形式提供:饼图、条图、曲线、多位数据立方体、多维...