《数据挖掘》Weka 实验报告 _ 学号_ 指导老师 开课学期 2024 至 2024 学年 2 学期完成日期 2024 年 6 月 12 日 1.实验目的 基于 archive.ics.uci.edu/ml/datasets/Breast+Cancer+WiscOnsin+%28Ori-ginal%29 的数据,使用数据挖掘中的分类算法,运用 Weka 平台的基本功能对数据集进行分类,对算法结果进行性能比较,画出性能比较图,另外针对不同数量的训练集进行对比实验,并画出性能比较图训练并测试。 2.实验环境 实验采纳 Weka 平台,数据使用来自 archive.ics.uci.edu/ml/Datasets/Br-east+Cancer+WiscOnsin+%28Original%29,主要使用其中的 Breast Cancer Wisc-onsin (Original) Data Set 数据。Weka 是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发。Weka 使用 Java 写成的,并且限制在 GNU 通用公共证书的条件下发布。它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件。Weka 提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果。 3.实验步骤3.1 数据预处理本实验是针对威斯康辛州(原始)的乳腺癌数据集进行分类,该表含有Sample code number(样本代码),Clump Thickness(丛厚度),Uniformity of Cell Size(均匀的细胞大小), Uniformity of Cell Shape (均匀的细胞形状),Marginal Adhesion(边际粘连),Single Epithelial Cell Size(单一的上皮细胞大小),Bare Nuclei(裸核),Bland Chromatin(平淡的染色质),Normal Nucleoli(正常的核仁), Mitoses(有丝分裂),Class(分类),其中第二项到第十项取值均为1-10,分类中2代表良性,4代表恶性。 通过实验,希望能找出患乳腺癌客户各指标的分布情况。该数据的数据属性如下:1. Sample code number(numeric),样本代码; 2. Clump Thickness(numeric),丛厚度;3.Uniformity of Cell Size(numeric)均匀的细胞大小;4. Uniformity of Cell Shape(numeric),均匀的细胞形状;5.Marginal Adhesion(numeric),边际粘连;6.Single Epithelial Cell Size(numeric),单一的上皮细胞大小;7.Bare Nuclei(numeric),裸核;8.Bland Chromatin(numeric),平淡的染色质;9. Normal Nucleoli(numeric),正常的核仁;10.Mitoses(numeric),有丝...