精品文档---下载后可任意编辑 分类与预测分类是一种应用非常广泛的数据挖掘技术,应用的例子也很多。例如,根据信用卡支付历史记录,来推断具备哪些特征的用户往往具有良好的信用;根据某种病症的诊断记录,来分析哪些药物组合可以带来良好的治疗效果。这些过程的一个共同特点是:根据数据的某些属性,来估量一个特定属性的值。例如在信用分析案例中,根据用户的“年龄”、“性别”、“收入水平”、“职业”等属性的值,来估量该用户“信用度”属性的值应该取“好”还是“差”,在这个例子中,所讨论的属性“信用度”是一个离散属性,它的取值是一个类别值,这种问题在数据挖掘中被称为分类。还有一种问题,例如根据股市交易的历史数据估量下一个交易日的大盘指数,这里所讨论的属性“大盘指数”是一个连续属性,它的取值是一个实数。那么这种问题在数据挖掘中被称为预测。总之,当估量的属性值是离散值时,这就是分类;当估量的属性值是连续值时,这就是预测。 决策树的基本原理1.构建决策树通过一个实际的例子,来了解一些与决策树有关的基本概念。表 3-1 是一个数据库表,记载着某银行的客户信用记录,属性包括“姓名”、“年龄”、“职业”、“月薪”、......、“信用等级”,每一行是一个客户样本,每一列是一个属性(字段)。这里把这个表记做数据集 D。银行需要解决的问题是,根据数据集 D,建立一个信用等级分析模型,并根据这个模型,产生一系列规则。当银行在未来的某个时刻收到某个客户的贷款申请时,依据这些规则,可以根据该客户的年龄、职业、月薪等属性,来预测其信用等级,以确定是否提供贷款给该用户。这里的信用等级分析模型,就可以是一棵决策树。在这个案例中,讨论的重点是“信用等级”这个属性。给定一个信用等级未知的客户,要根据他/她的其他属性来估量“信用等级”的值是“优”、“良”还是“差”,也就是说,要把这客户划分到信用等级为“优”、“良”、“差”这 3 个类别的某一类别中去。这里把“信用等级”这个属性称为“类标号属性”。数据集 D 中“信用等级”属性的全部取值就构成了类别集合:Class={“优”,“良”,“差”}。在决策树方法中,有两个基本的步骤。其一是构建决策树,其二是将决策树应用于数据库。大多数讨论都集中在如何有效地构建决策树,而应用则相对比较简单。构建决策树算法比较多,在 Clementine 中提供了 4 种算法,包括 C&RT、CHAID、Q。采纳其中的某种算法,输入训练数据集...