基于weka的数据分类分析实验报告1 实验目的(1)理解决策树 C4
5 和朴素贝叶斯等算法的基本原理
(2)纯熟使用 weka 实现上述两种数据挖掘算法,并对训练出的模型进行测试和评价
2 实验基本内容本实验的基本内容是通过基于 weka 实现两种常见的数据挖掘算法(决策树 C4
5 和朴素贝叶斯),分别在训练数据上训练出分类模型,并使用校验数据对各个模型进行测试和评价,找出各个模型最优的参数值,并对模型进行全方面评价比较,得到一种最佳的分类模型以及该模型全部设立的最优参数
最后使用这些参数以及训练集和校验集数据一起构造出一种最优分类器,并运用该分类器对测试数据进行预测
3 算法基本原理(1)决策树 C4
5 是一系列用在机器学习和数据挖掘的分类问题中的算法
它的目的是监督学习:给定一种数据集,其中的每一种元组都能用一组属性值来描述,每一种元组属于一种互斥的类别中的某一类
5 的目的是通过学习,找到一种附属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类
Ross Quinlan 在 ID3的基础上提出的
ID3 算法用来构造决策树
决策树是一种类似流程图的树构造,其中每个内部节点(非树叶节点)表达在一种属性上的测试,每个分枝代表一种测试输出,而每个树叶节点寄存一种类标号
一旦建立好了决策树,对于一种未给定类标号的元组,跟踪一条有根节点到叶节点的途径,该叶节点就寄存着该元组的预测
决策树的优势在于不需要任何领域知识或参数设立,适合于探测性的知识发现
从 ID3 算法中衍生出了 C4
5 和 CART 两种算法,这两种算法在数据挖掘中都非常重要
属性选择度量又称分裂规则,由于它们决定给定节点上的元组如何分裂
属性选择度量提供了每个属性描述给定训练元组的秩评定,含有最佳度量得分的属性被选作给定元组的分裂属性
现在比较流行的属