数据挖掘分类算法介绍 分类是用于识别什么样的事务属于哪一类的方法,可用于分类的算法有决策树、bayes 分类、神经网络、支持向量机等等
决策树 例 1 一个自行车厂商想要通过广告宣传来吸引顾客
他们从各地的超市获得超市会员的信息,计划将广告册和礼品投递给这些会员
但是投递广告册是需要成本的,不可能投递给所有的超市会员
而这些会员中有的人会响应广告宣传,有的人就算得到广告册不会购买
所以最好是将广告投递给那些对广告册感兴趣从而购买自行车的会员
分类模型的作用就是识别出什么样的会员可能购买自行车
自行车厂商首先从所有会员中抽取了 1000 个会员,向这些会员投递广告册,然后记录这些收到广告册的会员是否购买了自行车
数据如下: 事例列 会员编号 12496 14177 24381 25597 ………… 输入列 婚姻状况 Married Married Single Single 性别 Female Male Male Male 收入 40000 80000 70000 30000 孩子数 1 5 0 0 教育背景 Bachelors Partial College Bachelors Bachelors 职业 Skilled Manual Professional Professional Clerical 是否有房 Yes No Yes No 汽车数 0 2 1 0 上班距离 0-1 Miles 2-5 Miles 5-10 Miles 0-1 Miles 区域 Europe Europe Pacific Europe 年龄 42 60 41 36 预测列 是否购买自行车 No No Yes Yes 在分类模型中,每个会员作为一个事例,居民的婚姻状况、性别、年龄等特征作为输入列,所需预测的分类是客户是否购买了自行车
使用1000 个会员事例训练模型后得到的决策树分类如下