1分类与决策树概述3
1分类与预测分类是一种应用非常广泛的数据挖掘技术,应用的例子也很多
例如,根据信用卡支付历史记录,来判断具备哪些特征的用户往往具有良好的信用;根据某种病症的诊断记录,来分析哪些药物组合可以带来良好的治疗效果
这些过程的一个共同特点是:根据数据的某些属性,来估计一个特定属性的值
例如在信用分析案例中,根据用户的“年龄”、“性别”、“收入水平”、“职业”等属性的值,来估计该用户“信用度”属性的值应该取“好”还是“差”,在这个例子中,所研究的属性“信用度”是一个离散属性,它的取值是一个类别值,这种问题在数据挖掘中被称为分类
还有一种问题,例如根据股市交易的历史数据估计下一个交易日的大盘指数,这里所研究的属性“大盘指数”是一个连续属性,它的取值是一个实数
那么这种问题在数据挖掘中被称为预测
总之,当估计的属性值是离散值时,这就是分类;当估计的属性值是连续值时,这就是预测
2决策树的基本原理1
构建决策树通过一个实际的例子,来了解一些与决策树有关的基本概念
表3-1是一个数据库表,记载着某银行的客户信用记录,属性包括“姓名”、“年龄”、“职业”、“月薪”“信用等级”,每一行是一个客户样本,每一列是一个属性(字段)
这里把这个表记做数据集D
表31涪用记录表姓名年齢职业月薪小…荷用等级锁山23学生1000良王刚45公务员300038职员W0>111i1