1 数据挖掘技术期末报告 理学院 姓名: 学号: 联系电话: 专业班级: 评分:优□|良□|中□|及格□|不及格□ 2 一、实验目的 基于从UCI 公开数据库中下载的数据,使用数据挖掘中的分类算法,用Weka平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试
二、实验环境 实验采用Weka 平台,数据使用来自从UCI 公开数据库中下载,主要使用其中的Breast Cancer Wisc-onsin (Original) Data Set 数据
Weka 是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发
Weka 使用Java 写成的,并且限制在 GNU 通用公共证书的条件下发布
它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件
Weka 提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果
三、实验步骤 3
1 数据预处理 本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状 ),Marginal Adhesion(边 际 粘 连 ),Single Epithelial Cell Size(单 一的上 皮 细胞大小),Bare Nuclei(裸核 ),Bland Chromatin(平淡 的染 色 质 ),Normal Nucleoli(正 常 的核 仁 ), Mitoses(有丝 分裂 ),Class(分类),其中第 二 项 到 第 十 项