数据挖掘实验报告 姓名:邢金雁 学号:091070106 专业:电子商务 091070106 邢金雁 w eb 数据挖掘实验报告 页 1 实验二 一、实验名称: 基于关联规则的信息获取 二、实验目的: 通过一个已有的训练数据集,观察训练集中的实例,进行关联信息获取,更好地理解和掌握关联规则算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏
三、实验要求 1、熟悉 Weka 平台 2、掌握关联规则算法 3、对数据进行预处理,利用 Weka 和不同参数设置进行关联分析,对比结果,得出结论,对问题进行总结
四、实验平台 新西兰怀卡托大学研制的 Weka 系统
091070106 邢金雁 web 数据挖掘实验报告 页 2 实验步骤 数据实验 1
数据准备 选择Filter 中的Discretize 方法,点击Apply,先对ARFF 文件进行离散化: 用UltraEdit 对其进行编辑:@attribute children numeric 改为: @attribute children {0,1,2,3} 然后用discretize 算法对age 和income 离散化,并删掉id 项因为它对关联规则分析无影响,保存文件
图1——first-last 离散化 091070106 邢金雁 w eb 数据挖掘实验报告 页 3 图2——UltraEdit 编辑 图3——针对属性 1 age 和属性 4 income 进行离散化 091070106 邢金雁 w eb 数据挖掘实验报告 页 4 2
选择Associate 项中的Apriori 算法分析进行关联信息获取,并进行参数设置
图4——离散化后的Apriori 算法结果 图5——变换参数得到不同结果 091070106 邢金雁 web 数据挖掘实验报告 页 5 例如:现