1、 分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分
客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等
机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法
又如:信用卡核准过程,信用卡公司根据信誉程度,将一组持卡人记录为良好、一般和较差三类,且把类别标记赋给每个记录,如:“信誉良好的客户是那些收入在5 万元以上,年龄在40-50 岁之间的人士”
2、 决策树是一种倒立的树结构,它由内部节点、叶子节点和边组成
其中最上面的一个节点叫根节点
构造一棵决策树需要一个训练集,一些例子组成,每个例子用一些属性(或特征)和一个类别标记来描述
构造决策树的目的是找出属性和类别间的关系,一旦这种关系找出,就能用它来预测将来未知类别的记录的类别
这种具有预测功能的系统叫决策树分类器
数 据 挖 掘 第 三 章 课 后 习 题 答 案 --第 1页数 据 挖 掘 第 三 章 课 后 习 题 答 案 --第 1页构造出的决策树有二叉树和多叉树,二叉树的内部节点一般表示为一个逻辑判断,如形式为(ai = vi )的逻辑判断,其中ai 是属性,vi是该属性的某个属性值;树的边是逻辑判断的分支结果
多叉树(如ID3)的内部节点是属性,边是该属性的所有取值,有几个属性值,就有几条边
树的叶子节点都是类别标记
构造一个决策树分类器通常分为两步:树的生成和剪枝