数据挖掘分类:基本概念、决策树与模型评价第4章分类:基本概念、决策树与模型评价分类的是利用一个分类函数(分类模型、分类器),该模型能把数据库中的数据影射到给定类别中的一个
分类ApplyModelInductionDeductionLearnModelModelTidAttrib1Attrib2Attrib3Class1YesLarge125KNo2NoMedium100KNo3NoSmall70KNo4YesMedium120KNo5NoLarge95KYes6NoMedium60KNo7YesLarge220KNo8NoSmall85KYes9NoMedium75KNo10NoSmall90KYes10TidAttrib1Attrib2Attrib3Class11NoSmall55K
12YesMedium80K
13YesLarge110K
14NoSmall95K
15NoLarge67K
10TestSetLearningalgorithmTrainingSet训练集:数据库中为建立模型而被分析的数据元组形成训练集
训练集中的单个元组称为训练样本,每个训练样本有一个类别标记
一个具体样本的形式可为:(v1,v2,
,vn;c);其中vi表示属性值,c表示类别
测试集:用于评估分类模型的准确率数据分类——一个两步过程(1)第一步,建立一个模型,描述预定数据类集和概念集–假定每个元组属于一个预定义的类,由一个类标号属性确定–学习模型可以用分类规则、决策树或数学公式的形式提供数据分类——一个两步过程(2)第二步,使用模型,对将来的或未知的对象进行分类–首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集,否则会出现“过分适应数据”的情