数据挖掘知识点: 一、数据挖掘是从大量的数据中挖掘那些令人感兴趣的有用的隐含的先前未知的和不可能有用的模式和知识
数据库 DB 系统最主要的功能: 数据存储、查询处理、事物处理
数据挖掘的主要功能: 关联分析、时序模式、聚类分析、分类、偏差检测、预测 数据预处理:是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数,或者是处理一些不好的数据,从而改善实例数据的质量和提高数据挖掘的速度
数据预处理功能:数据集成,数据清理,数据变换,数据简化
二、数据挖掘的基本算法: 1、分类:分类的目的是构造一个分类函数或分类模型(分类器),该模型能把数据库中的数据项映射到某一个给定类别
分类定义:给定数据库 D={t1,t2,…,tn},元组 tiD,类的集合C={C1,……,Cm},分类问题定义为从数据库到类集合的映射 f:DC,即数据库中的元组 ti 分配到某个类 Cj 中,有 Cj ={ti|f(ti) = Cj,1≤i≤n,且 ti∈D}
ID3 算法: ID3 算法是国际上最具影响和最早的决策树算法
首先通过检验数据库中的所有字段,找出具有最大信息增益 Gian(A)的字段作为决策树碑的一个结点,再根据字段的不同取值建立树的分支,对每个子集分支重复建立下层结点和分支,直到某一子集的结果属于同一类
信息量计算公式: I(s1,s2,……,sm)=-∑Pi log2(pi) (i=1,…,m) (S 是 s 个数据样本的集合
类别属性具有 m 个不同值 Ci
si 是类 Ci 中的样本数
pi 是任意样本属于类别 Ci 的概率,并用 si/s 估计
) 由非类别属性 A 划分为子集的熵(也叫做信息熵)计算公式为: E(A)= ∑(s1j+ ……+smj)/s * I(s1j, ……,smj) (非类别属性 A 具有 v 个不同值{a1,a2,…,av