数据挖掘实验报告 姓名:邢金雁 学号:091070106 专业:电子商务 091070106 邢金雁 w eb 数据挖掘实验报告 页 1 实验二 一、实验名称: 基于关联规则的信息获取 二、实验目的: 通过一个已有的训练数据集,观察训练集中的实例,进行关联信息获取,更好地理解和掌握关联规则算法的基本原理,建立相应的预测模型,然后对新的未知实例进行预测,预测的准确程度来衡量所建立模型的好坏。 三、实验要求 1、熟悉 Weka 平台 2、掌握关联规则算法 3、对数据进行预处理,利用 Weka 和不同参数设置进行关联分析,对比结果,得出结论,对问题进行总结。 四、实验平台 新西兰怀卡托大学研制的 Weka 系统。 091070106 邢金雁 web 数据挖掘实验报告 页 2 实验步骤 数据实验 1. 数据准备 选择Filter 中的Discretize 方法,点击Apply,先对ARFF 文件进行离散化: 用UltraEdit 对其进行编辑:@attribute children numeric 改为: @attribute children {0,1,2,3} 然后用discretize 算法对age 和income 离散化,并删掉id 项因为它对关联规则分析无影响,保存文件。 图1——first-last 离散化 091070106 邢金雁 w eb 数据挖掘实验报告 页 3 图2——UltraEdit 编辑 图3——针对属性 1 age 和属性 4 income 进行离散化 091070106 邢金雁 w eb 数据挖掘实验报告 页 4 2. 选择Associate 项中的Apriori 算法分析进行关联信息获取,并进行参数设置。 图4——离散化后的Apriori 算法结果 图5——变换参数得到不同结果 091070106 邢金雁 web 数据挖掘实验报告 页 5 例如:现在我们计划挖掘出支持度在10%到100%之间,并且lift 值超过1.5且lift 值排在前10 位的那些关联规则。把“lowerBoundMinSupport” 和“upperBoundMinSupport”分别设为0.1 和1,“metricType”设为lift,“minMetric”设为1.5,“numRules”设为100。其他选项保持默认。“OK” 之后在“Explorer”中点击“Start”开始运行算法,在右边窗口显示数据集摘要和挖掘结果 图6——举例结果 091070106 邢金雁 web 数据挖掘实验报告 页 6 实验问题解答 1. 对于非xls 格式的数据如何转换成ARFF 数据类型?请给出你了解到的几种数据类型到ARFF 的转换方式? 答:(1)CSV→ARFF: 1) 用 weka 中的ArffView 打开 csv 文件,然后另存为 arff 文件。 2) 用 weka 的“Simple CLI”模块的命...