2024年数据挖掘主题作业VIP免费

下载本文档

阅读 130
下载 7
格式 docx
大小 418.39 KB
约13页
2024-09-11 发布于江苏
收藏
评论
点赞(0)
海报
举报

1/13页

2/13页

3/13页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/13

文本预览下载提示常见问题

本科生实验报告实验课程数据挖掘学院名称信息科学与技术学院专业名称计算机科学与技术学生姓名代星学生学号２014１3030317指导教师实验地点实验成绩二〇一六年11月二〇一六年1１月第五章作业题一第1章实验内容在UＣＩ上下载一个用于分类的数据集，使用C4.5算法，设置不同的参数建立两个有指导的学习,记录检验集错误率。使用式（５,９)确定两个模型的检验集错误率是否存在显著差异。第2章实验目的对于一个用于分类的数据集，使用C４．5算法，设置不同的参数建立两个有指导的学习,记录检验集错误率。使用式（5,９)确定两个模型的检验集错误率是否存在显著差异，从而学会评估有指导的学习模型。第３章算法思想选择具有最大增益率的属性作为分支节点来分类实例数据。第4章实验过程４．１数据准备数据集名为ＩRIS.ｘｌs,选择所有15０个实例和5个属性,其中４个属性作为输入属性,第5个属性Iris＿tyｐe作为输出属性，生成．ｃsv文件，加载到Wｅｋａ。４.２建立模型使用Wekａ进行有指导的学习训练,选择Ｃ４.5数据挖掘算法,在Weka中名为J4８,将tesｔoptions设置为Ｐercentageｓplｉt，使用百分比72％,选择Iris_tｙpe作为输出属性。单击Moreoptions按钮,打开Claｓsｉｆiｅrevalｕationoptiｏns对话框,在Outputｐredictiｏns点击chｏosｅ选中PｌainＴext。表示将在输入结果中显示作为检验集实力的计算输出。单击Start按钮，执行程序。查看混淆矩阵，计算错误率为９.5%。通过分析混淆矩阵，重新设置参数使用百分比６６％,重复上述步骤,执行程序，计算错误率为3.9％，较之前有了些许提升。接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型。公式如上图所示。其中E１为模型Ｍ1的检验集分类错误率；E2为模型M２的检验集分类错误率;q为两个模型分类错误率的平均值,即ｑ＝(E1＋E2)/2;ｎ1和n２分别是检验集A和B的实例个数;q(1－ｑ)是用E1和E２计算出来的方差值。代入数据可得最后的Z=0．０57,如果Z值大于等于１.9６，就有95％的把握认为M１和M2的检验集性能差别是显著的。此时算出来的是０．0５7，就说明两个聚类算法的性能差别不是显著的。第5章实验结果1、修改参数前：Ｃ4.5数据挖掘算法:2、修改参数后:Ｃ4.5数据挖掘算法：第6章结果分析通过观察混淆矩阵，并记录检验集错误率,从而修改参数使错误率减小，虽然通过计算结果改进的不明显,但是通过实验掌握了学习方法。第7章心得体会通过这次试验，在以前的基础上更加深入的了解了C4．５决策树算法以及Weｋａ软件的使用。第五章作业题二第1章实验内容使用心脏病人数据集(CardiologyNｕmｅrｉcal）的前1５0个实例作为训练集实例,剩下的1５３个实例作为检验集实例，选择两种或多种数据挖掘技术建立有指导的学习模型，利用混淆矩阵和检验集错误率评估所建模型，并使用假设检验确定这些模型之间是否存在显著性差异。第2章实验目的选择两种或多种数据挖掘技术建立有指导的学习模型，利用混淆矩阵和检验集错误率评估所建模型,并使用假设检验确定这些模型之间是否存在显著性差异,从而学会评估有指导的学习模型。第3章算法思想一、k-mｅａns算法:（1）随机选择一个K值,用以确定簇的总数。（2）在数据集中任意选择K个实例，将它们作为初始的簇中心。（3）计算K个簇中心与其他剩余实例简单欧氏距离，用这个距离作为实例之间相似性的度量,将与某个簇相似度高的实例划分到该簇中,成为其成员之一。（4）使用每个簇中的实例来计算该簇新的簇中心。（5）如果计算得到新的簇中心等于上次迭代的簇中心,终止算法过程。否则用新的簇中心作为簇中心并重复步骤（3)~(5)。二、最大期望(EM）算法:是在概率(ｐrｏbabilｉstic）模型中寻找参数最大似然估计或者最大后验估计的算法，其中概率模型依赖于无法观测的隐藏变量(LａｔentVaｒｉablｅ)。最大期望经常用在机器学习和计算机视觉的数据聚类(ＤataＣlusteｒｉnｇ）领域。最大期望算法经过两个步骤交替进行计算:第一步是计算期望（E）,利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M），最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中，这个...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

2024年数据挖掘主题作业

本科生实验报告实验课程数据挖掘学院名称信息科学与技术学院专业名称计算机科学与技术学生姓名代星学生学号２014１3030317指导教师实验地点实验成绩二〇一六年11月二〇一六年1１月第五章作业题一第1章实验内容在UＣＩ上下载一个用于分类的数据集，使用C4

5算法，设置不同的参数建立两个有指导的学习,记录检验集错误率

使用式（５,９)确定两个模型的检验集错误率是否存在显著差异

第2章实验目的对于一个用于分类的数据集，使用C４．5算法，设置不同的参数建立两个有指导的学习,记录检验集错误率

使用式（5,９)确定两个模型的检验集错误率是否存在显著差异，从而学会评估有指导的学习模型

第３章算法思想选择具有最大增益率的属性作为分支节点来分类实例数据

第4章实验过程４．１数据准备数据集名为ＩRIS

ｘｌs,选择所有15０个实例和5个属性,其中４个属性作为输入属性,第5个属性Iris＿tyｐe作为输出属性，生成．ｃsv文件，加载到Wｅｋａ

２建立模型使用Wekａ进行有指导的学习训练,选择Ｃ４

5数据挖掘算法,在Weka中名为J4８,将tesｔoptions设置为Ｐercentageｓplｉt，使用百分比72％,选择Iris_tｙpe作为输出属性

单击Moreoptions按钮,打开Claｓsｉｆiｅrevalｕationoptiｏns对话框,在Outputｐredictiｏns点击chｏosｅ选中PｌainＴext

表示将在输入结果中显示作为检验集实力的计算输出

单击Start按钮，执行程序

查看混淆矩阵，计算错误率为９

通过分析混淆矩阵，重新设置参数使用百分比６６％,重复上述步骤,执行程序，计算错误率为3

9％，较之前有了些许提升

接下来通过假设检验来比较两个用同样训练集创建的有指导的学习模型

公式如上图所示

其中E１为模型Ｍ1的检验集分类错误率；E2为模型M２的检验集分类错误率

山水人家 + 关注: 实名认证
内容提供者

读万卷书，行万里路。

收藏店铺进入空间

2024年数据挖掘主题作业VIP免费

2024年数据挖掘主题作业

您可能关注的文档

相关文档

热门下载

相关标签