标准文案中南民族大学计算机科学学院《数据挖掘与知识发现》综合实验报告姓名年级级专业软件工程指导教师李波学号序号31实验类型综合型成绩评定评语:教师签名:年月日标准文案2016年12月15日年级专业软件工程班级组号实验室9-205日期实验名称数据挖掘与知识发现实验内容分项内容实验级别Weka环境熟悉;决策树(1)决策树(2)关联规则,聚类分析KDD案例属性相关性,神经网络(1)神经网络(2)小组成员姓名学号组内分工自我评分教师评分标准文案实验分项1Weka环境熟悉;决策树(1)实验目的1.熟悉Weka软件的环境和基本用法。2.掌握ARFF数据文件的编制方法。3.学习应用Weka软件建立决策树的方法,并理解决策树的剪枝和未剪枝的分类效果。实验要求1、参照教材19-22页内容,熟悉页内容,熟悉WekaWekaWeka软件的安装及使用环境;2、在记事本程序中编制ColdTypetraining.arff,ColdTypetest.arff.3、打开WekaWekaWeka软件,并参软件,并参照教材1.9.21.9.2,完成相关操作并小节,完成相关操作并小节,完成相关操作并小节,完成相关操作并理解相应处理结果。4、根据教材表2.1所提供的数据集T,基于WekaWekaWeka软件,应用C4.5算法建立决策树,预测某个学生是否决定去打篮球。要求:(1)采用arffarff文件来完成;文件来完成;(2)分别完成决策树剪枝和未的情况。实验原理步骤(算法流程)1.熟悉Weka软件的环境和基本用法并编写arff文件。(1)我们实验中Weka访问的数据格式是arff格式的。(2)运行Weka后,出现了窗口,我们在里面选择Explorer界面。(3)在Preprocess选项卡,点击file按钮,加载arff文件,就可以对文件中的数据进行采集挖掘。(4)用@data定义数据集的开始,数据值用逗号隔开,若存在缺失数据,则用问号表示。2.打开Weka软件,按照教材要求完成相关操作,并理解相应处理结果(1)在打开arff文件后,界面详细显示了数据集的实例个数,属性值的比例关系等。标准文案图1标准文案实验原理步骤(算法流程)(2)在界面中可以进行属性和实例的筛选,直接在对话框中对数据实例进行筛选,对缺失数据进行填补,重命名甚至进行排序也可以。(3)建立分类模型,切换到classify选项卡,单击choose按钮,打开分类器选择对话框,选择J48来建立决策树模型。在Testoptions面板底部有一个Moreoptions按钮,单击该按钮,打开Classifierevaluationoptions对话框,设置选中Outputpredictions复选框,可以在输出结果中出现预测输出结果。单击start按钮,就可以执行数据挖掘。图2(3)在Resultlist列表框的会话条目上右击,从快捷菜单中选择Visualizetree命令,打开TreeView窗口,可以看到感冒类型诊断决策树。标准文案实验原理步骤(算法流程)图3(4)利用所建立的分类模型分类未知实例,在执行数据挖掘前,将Testoptions检验方式设置为Suppliestestset,并打开ColdType-test.arff文件作为检验集。在输出结果中显示预测结果,再单击start按钮,执行数据挖掘。(5)切换到Cluster选项卡,选择简单K-均值算法,打开算法参数设置对话框,在其中设置聚类的相关参数,本次实验中簇的个数为2,分类属性为Cold-Type。标准文案实验原理步骤(算法流程)(6)为了能够更客观的显示,打开可视化窗口,将x轴改为Cluster,将Y轴改为Cold-Type,拖动Jitter滑块至中间,可以清楚地看到分布结果。我们可以清楚地看见数据分为了两个簇,每一个簇中的感冒性质是一样的,两个簇的种类分别是病毒性感冒和细菌性感冒。(7)并且能够看清楚坐标系中每个点所在的信息。标准文案实验结果及分析(8)使用Weka进行关联分析,切换到Associate选项卡,规则书默认为10条,最小置信度为0.9.执行关联分析。由上图我们可以发现并不是所有的关联规则都是有价值的,所以在参数设置上还有很大的改进空间。(9)根据打篮球的数据集建立剪枝与未剪枝的决策树。标准文案由于打篮球的数据太少,所以剪枝与未剪枝的决策树是一样的,只有当数据很多的时候,决策树才会有明显的不同。(10)预测某个学生是否决定去打篮球经test文件的数据集以及由篮球数据得出的决策树得到是否决定打篮球的输出结果。在这次的test文件中得到的两个预测结果一个是yes,一个是No。实验...