数据挖掘分类算法介绍 分类是用于识别什么样的事务属于哪一类的方法,可用于分类的算法有决策树、bayes 分类、神经网络、支持向量机等等。 决策树 例 1 一个自行车厂商想要通过广告宣传来吸引顾客。他们从各地的超市获得超市会员的信息,计划将广告册和礼品投递给这些会员。 但是投递广告册是需要成本的,不可能投递给所有的超市会员。而这些会员中有的人会响应广告宣传,有的人就算得到广告册不会购买。 所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员。分类模型的作用就是识别出什么样的会员可能购买自行车。自行车厂商首先从所有会员中抽取了 1000 个会员,向这些会员投递广告册,然后记录这些收到广告册的会员是否购买了自行车。数据如下: 事例列 会员编号 12496 14177 24381 25597 ………… 输入列 婚姻状况 Married Married Single Single 性别 Female Male Male Male 收入 40000 80000 70000 30000 孩子数 1 5 0 0 教育背景 Bachelors Partial College Bachelors Bachelors 职业 Skilled Manual Professional Professional Clerical 是否有房 Yes No Yes No 汽车数 0 2 1 0 上班距离 0-1 Miles 2-5 Miles 5-10 Miles 0-1 Miles 区域 Europe Europe Pacific Europe 年龄 42 60 41 36 预测列 是否购买自行车 No No Yes Yes 在分类模型中,每个会员作为一个事例,居民的婚姻状况、性别、年龄等特征作为输入列,所需预测的分类是客户是否购买了自行车。 使用1000 个会员事例训练模型后得到的决策树分类如下: ※图中矩形表示一个拆分节点,矩形中文字是拆分条件。※矩形颜色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000 个事例,颜色最深。经过第一次基于年龄的拆分后,年龄大于 67 岁的包含 36 个事例,年龄小于 32 岁的133 个事例,年龄在39 和 67 岁之间的602 个事例,年龄32 和 39 岁之间的229 个事例。所以第一次拆分后,年龄在39 和 67 岁的节点颜色最深,年龄大于 67 岁的节点颜色最浅。 ※节点中的条包含两种颜色,红色和蓝色,分别表示此节点中的事例购买和不购买自行车的比例。如节点“年龄>=67”节点中,包含 36 个事例,其中28 个没有购买自行车,8 个购买了自行车,所以蓝色的条比红色的要长。表示年龄大于 67 的会员有 74.62%的概率不购买自行车...