1数据挖掘技术期末报告理学院姓名:学号:联系电话:专业班级:评分:优□|良□|中□|及格□|不及格□ﻬ一、实验目的基于从UCI公开数据库中下载的数据,使用数据挖掘中的分类算法,用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试
2二、实验环境实验采用Weka平台,数据使用来自从UCI公开数据库中下载,主要使用其中的BreastCancerWisc-onsin(Original)DataSet数据
Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发
Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布
它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件
Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果
三、实验步骤3
1数据预处理本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Samplecodenumber(样本代码),ClumpThickness(丛厚度),UniformityofCellSize(均匀的细胞大小),UniformityofCellShape(均匀的细胞形状),MarginalAdhesion(边际粘连),SingleEpithelialCellSize(单一的上皮细胞大小),BareNuclei(裸核),BlandChromatin(平淡的染色质),NormalNucleoli(正常的核仁),Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性
通过实验,希望能找出患乳腺癌客户各指标的分布情况
该数据的数据属性如下:1.Samplecodenum