第9章分类规则挖掘与预测第9章分类规则挖掘与预测主要内容分类与预测的基本概念决策树方法分类规则挖掘的ID3算法1第9章分类规则挖掘与预测其他分类规则挖掘算法分类规则的评估微软决策树及其应用2第9章分类规则挖掘与预测9
1分类与预测的基本概念1
什么是分类数据分类(dataclassfication)是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生关于类别的精确描述
这种类别通常由分类规则组成,可以用来对未来的数据进行分类和预测
数据分类(dataclassfication)是一个两个步骤的过程:第1步:建立一个模型,描述给定的数据类集或概念集(简称训练集)
通过分析由属性描述的数据库元组来构造模型
每个元组属于一个预定义的类,由类标号属性确定
用于建立模型的元组集称为训练数据集,其中每个元组称为训练样本
由于给出了类标号属性,因此该步骤又称为有指导的学习
如果训练样本的类标号是未知的,则称为无指导的学习(聚类)
学习模型可用分类规则、决策树和数学公式的形式给出
第2步:使用模型对数据进行分类
包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类
(a)学习训练数据分类算法分类规则分类规则测试数据模型评估新数据分类3第9章分类规则挖掘与预测(b)分类图9-1数据分类过程2
常用的分类规则挖掘方法分类规则挖掘有着广泛的应用前景
对于分类规则的挖掘通常有以下几种方法,不同的方法适用于不同特点的数据:决策树方法贝叶斯方法人工神经网络方法约略集方法遗传算法典型的分类规则挖掘算法有:ID3C4
5DBlearn等3
什么是预测预测(prediction)是构造和使用模型评估无标号样本类,或评估给定的样本可能具有的属性或区新数据4第9章分类规则挖掘与预测间值
分类和回归是两类主要的预测问题
分类是预测离散值,回归用于预测连续或有序值