题一: 一阶项目集 支持度 a 5 b 4 c 2 d 5 e 3 f 4 g 6 一阶频繁集 支持度 a 5 b 4 d 5 f 4 g 6 二阶候选集 支持度 ab 3 ad 4 af 2 ag 5 bd 3 bf 1 bg 3 df 3 dg 4 fg 3 二阶频繁集 支持度 ad 4 ag 5 dg 4 三阶候选集 支持度 adg 4 三阶频繁集 支持度 adg 4 题二 Distance(G,A)2=0.1; Distance(G,B)2=0.03; Distance(G,C)2=0.11 Distance(G,D)2=0.12; Distance(G,E)2=0.16; Distance(G,F)2=0.05 G 的三个最近的邻居为 B,F,A,因此 G 的分类为湖泊水 Distance(H,A)2=0.03; Distance(H,B)2=0.18; Distance(H,C)2=0.22 Distance(H,D)2=0.03; Distance(H,E)2=0.21; Distance(H,F)2=0.16 H 的三个最近的邻居为 A,D,F,因此 H 的分类为冰川水 题三 首先计算各属性的信息增益 Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.185 Gain(Na+浓度)=0 Gain(Cl-浓度)=0.32 选择 Cl-浓度作为根节点 计算各属性的信息增益 Gain(Ca+浓度)=0 Gain(Mg+浓度)=0.45 Gain(Na+浓度)=0.24 选择 Mg+浓度作为节点 Cl-浓度 冰川水 ? 高 低 Cl-浓度 冰川水 Mg+浓度 高 低 高 低 湖泊水 计算各属性的信息增益 Gain (Ca+浓度)=0.24 Gain (Na+浓度)=0.91 题四 P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低 | 类型=冰川水)*P(冰川水) =P(Ca+浓度=低 | 类型=冰川水)* P(Mg+浓度=高 | 类型=冰川水)* P(Na+浓度=高| 类型=冰川水)* P(Cl-浓度=低 | 类型=冰川水) *P(冰川水) =0.5*0.75*0.5*0.5*0.5=0.0468 高 低 Cl-浓度 冰川水 Mg+浓度 高 低 Na+浓度 湖泊水 高 低 湖泊水 冰川水 P(Ca+浓度=低,Mg+浓度=高,Na+浓度=高,Cl-浓度=低 | 类型=湖泊水)*P(湖泊水) =P(Ca+浓度=低 | 类型=湖泊水)* P(Mg+浓度=高 | 类型=湖泊水)* P(Na+浓度=高| 类型=湖泊水)* P(Cl-浓度=低 | 类型=湖泊水) *P(湖泊水) =0.5*0.25*0.5*1*0.5=0.03123 第一个样本为冰川水 P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl-浓度=高 | 类型=冰川水)*P(冰川水) =P(Ca+浓度=高 | 类型=冰川水)* P(Mg+浓度=高 | 类型=冰川水)* P(Na+浓度=低| 类型=冰川水)* P(Cl-浓度=高 | 类型=冰川水) *P(冰川水) =0.5*0.75*0.5*0.5*0.5=0.0468 P(Ca+浓度=高,Mg+浓度=高,Na+浓度=低,Cl-浓度=高 | 类型=湖泊水)*P(湖泊水) =P(Ca+浓度=高 | ...