【原创】WEKA对 UCI 乳腺癌数据数据挖掘实验报告 ( 附代码数据 ) 【原创】定制撰写数据分析可视化项目案例调研报告有问题到淘宝找“大数据部落”就可以了WEKA 对 wisconsin-breast-cancer数据挖掘分析报告一、 数据集实验采用 UCI 数据集中的Wisconsin医学院的William 博士提供的乳腺癌的数据样本
所有数据来自真实临床案例,每个案例有10 个属性
其中前九个属性是检测指标,每个属性值用1 到 10 的整数表示, 1 表示检测指标最正常,10 表示最不正常
第十个属性是分类属性,指示该肿瘤是否为恶性
数据集中的肿瘤性质是通过活检得出的结果
肿块厚度Clump_Thickness integer [1,10] 细胞大小的均匀性Cell_Size_Uniformity integer [1,10] 细 胞 形 状 的 均 匀 性Cell_Shape_Uniformity integer [1,10] 边缘粘性Marginal_Adhesion integer [1,10] 单 上 皮 细 胞 的 大 小Single_Epi_Cell_Size integer [1,10] 裸核Bare_Nuclei integer [1,10] 乏味染色体Bland_Chromatin integer [1,10] 正常核Normal_Nucleoli integer [1,10] 有丝分裂Mitoses integer [1,10] 肿瘤性质Class { benign, malignant} 该数据集共有669 个实例
本次实验对以上数据集进行了分类、聚类、关联规则三部分操作,以熟悉weka 软件的操作使用,并尝试挖掘数据中的实际价值
分类中,尝试用前九个属性值来预测肿瘤的性质;聚类中,寻找各个簇病人的显著特征,可用来辅助制定针对性治疗计划;关联