本科生实验报告实验课程数据挖掘学院名称信息科学与技术学院专业名称计算机科学与技术学生姓名代星学生学号201413030317指导教师实验地点实验成绩二〇一六年11月二〇一六年11月第五章作业题一第1章实验内容在UCI上下载一个用于分类的数据集,使用C4
5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率
使用式(5,9)确定两个模型的检验集错误率是否存在显著差异
第2章实验目的对于一个用于分类的数据集,使用C4.5算法,设置不同的参数建立两个有指导的学习,记录检验集错误率
使用式(5,9)确定两个模型的检验集错误率是否存在显著差异,从而学会评估有指导的学习模型
第3章算法思想选择具有最大增益率的属性作为分支节点来分类实例数据
第4章实验过程4.1数据准备数据集名为IRIS
xls,选择所有150个实例和5个属性,其中4个属性作为输入属性,第5个属性Iris_type作为输出属性,生成.csv文件,加载到Weka
2建立模型使用Weka进行有指导的学习训练,选择C4
5数据挖掘算法,在Weka中名为J48,将testoptions设置为Percentagesplit,使用百分比72%,选择Iris_type作为输出属性
单击Moreoptions按钮,打开Classifierevaluationoptions对话框,在Outputpredictions点击choose选中PlainText
表示将在输入结果中显示作为检验集实力的计算输出
单击Start按钮,执行程序
查看混淆矩阵,计算错误率为9
通过分析混淆矩阵,重新设置参数使用百分比66%,重复上述步骤,执行程序,计算错误率为3
9%,较之前有了些许提升
接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型
公式如上图所示
其中E1为模型M1的检验集分类错误率;E2为模型M2的检验集分类错误率