可编辑文本Data Mining Take Home Exam 学号 : xxxx 姓名 : xxx 1
(20 分)考虑下表的数据集
顾客 ID性别车型衬衣尺码类1234567891011121314151617男男男男男男女女女女男男男男女女女家用运动运动运动运动运动运动运动运动豪华家用家用家用豪华豪华豪华豪华小中中大加大加大小小中大大加大中加大小小中C0C0C0C0C0C0C0C0C0C0C1C1C1C1C1C1C1
可编辑文本181920女女女豪华豪华豪华中中大C1C1C1(1)计算整个数据集的Gini 指标值
(2)计算属性性别的Gini 指标值(3)计算使用多路划分属性车型的Gini 指标值(4)计算使用多路划分属性衬衣尺码的Gini 指标值(5)下面哪个属性更好,性别、车型还是衬衣尺码
解:(1)类顾客c010c110Gini=1-(10/20)^2-(10/20)^2=0
5(2)性别男女c064c146Gini=[{1-(6/10)^2-(4/10)^2}*1/2]*2=0
48(3)车型家用运动豪华c0181
可编辑文本c1307Gini={1-(1/4)^2-(3/4)^2}*4/20+{1-(8/8)^2-(0/8)^2}*8/20+{1-(1/8)^2-(7/8)^2}*8/20=26/160=0
1625(4)尺码小中大加大c03322c12422Gini={1-(3/5)^2-(2/5)^2}*5/20+{1-(3/7)^2-(4/7)^2}*7/20+[{1-(2/4)^2-(2/4)^2}*4/20]*2=8/25+6/35=0
4914(5)比较上面各属性的Gini 值大小可知,车型划分Gini 值 0
1625最小,即使用车型属性更好
(20 分)考虑下表中的购物篮事务数据集
顾客 ID事务 ID购买项11223