2025年weka实验报告 VIP免费

下载本文档

阅读 122
下载 6
格式 docx
大小 16.64 KB
约4页
2024-12-09 发布于江苏
收藏
评论
点赞(0)
海报
举报

1/4页

2/4页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

基于weka的数据分类分析实验报告1 实验目的（1）理解决策树 C4.5 和朴素贝叶斯等算法的基本原理。（2）纯熟使用 weka 实现上述两种数据挖掘算法，并对训练出的模型进行测试和评价。2 实验基本内容本实验的基本内容是通过基于 weka 实现两种常见的数据挖掘算法（决策树 C4.5 和朴素贝叶斯），分别在训练数据上训练出分类模型，并使用校验数据对各个模型进行测试和评价，找出各个模型最优的参数值，并对模型进行全方面评价比较，得到一种最佳的分类模型以及该模型全部设立的最优参数。最后使用这些参数以及训练集和校验集数据一起构造出一种最优分类器，并运用该分类器对测试数据进行预测。3 算法基本原理（1）决策树 C4.5C4.5 是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目的是监督学习：给定一种数据集，其中的每一种元组都能用一组属性值来描述，每一种元组属于一种互斥的类别中的某一类。C4.5 的目的是通过学习，找到一种附属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。C4.5 由 J.Ross Quinlan 在 ID3的基础上提出的。ID3 算法用来构造决策树。决策树是一种类似流程图的树构造，其中每个内部节点（非树叶节点）表达在一种属性上的测试，每个分枝代表一种测试输出，而每个树叶节点寄存一种类标号。一旦建立好了决策树，对于一种未给定类标号的元组，跟踪一条有根节点到叶节点的途径，该叶节点就寄存着该元组的预测。决策树的优势在于不需要任何领域知识或参数设立，适合于探测性的知识发现。从 ID3 算法中衍生出了 C4.5 和 CART 两种算法，这两种算法在数据挖掘中都非常重要。属性选择度量又称分裂规则，由于它们决定给定节点上的元组如何分裂。属性选择度量提供了每个属性描述给定训练元组的秩评定，含有最佳度量得分的属性被选作给定元组的分裂属性。现在比较流行的属性选择度量有--信息增益、增益率和 Gini 指标。（2）朴素贝叶斯贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。朴素贝叶斯分类是一种十分简朴的分类算法，叫它朴素贝叶斯分类是由于这种办法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这样个道理，你在街上看到一种黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

2025年weka实验报告

基于weka的数据分类分析实验报告1 实验目的（1）理解决策树 C4

5 和朴素贝叶斯等算法的基本原理

（2）纯熟使用 weka 实现上述两种数据挖掘算法，并对训练出的模型进行测试和评价

2 实验基本内容本实验的基本内容是通过基于 weka 实现两种常见的数据挖掘算法（决策树 C4

5 和朴素贝叶斯），分别在训练数据上训练出分类模型，并使用校验数据对各个模型进行测试和评价，找出各个模型最优的参数值，并对模型进行全方面评价比较，得到一种最佳的分类模型以及该模型全部设立的最优参数

最后使用这些参数以及训练集和校验集数据一起构造出一种最优分类器，并运用该分类器对测试数据进行预测

3 算法基本原理（1）决策树 C4

5 是一系列用在机器学习和数据挖掘的分类问题中的算法

它的目的是监督学习：给定一种数据集，其中的每一种元组都能用一组属性值来描述，每一种元组属于一种互斥的类别中的某一类

5 的目的是通过学习，找到一种附属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类

Ross Quinlan 在 ID3的基础上提出的

ID3 算法用来构造决策树

决策树是一种类似流程图的树构造，其中每个内部节点（非树叶节点）表达在一种属性上的测试，每个分枝代表一种测试输出，而每个树叶节点寄存一种类标号

一旦建立好了决策树，对于一种未给定类标号的元组，跟踪一条有根节点到叶节点的途径，该叶节点就寄存着该元组的预测

决策树的优势在于不需要任何领域知识或参数设立，适合于探测性的知识发现

从 ID3 算法中衍生出了 C4

5 和 CART 两种算法，这两种算法在数据挖掘中都非常重要

属性选择度量又称分裂规则，由于它们决定给定节点上的元组如何分裂

属性选择度量提供了每个属性描述给定训练元组的秩评定，含有最佳度量得分的属性被选作给定元组的分裂属性

现在比较流行的属

您可能关注的文档

枕上诗书 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

2025年weka实验报告 VIP免费

2025年weka实验报告

您可能关注的文档

相关文档

热门下载

相关标签