基于Weka的数据分类分析实验报告1实验目的使用数据挖掘中的分类算法,对数据集进行分类训练并测试
应用不同的分类算法,比较他们之间的不同
与此同时了解Weka平台的基本功能与使用方法
2实验环境2
1Weka介绍Weka是怀卡托智能分析系统的缩写,该系统由新西兰怀卡托大学开发
Weka使用Java写成的,并且限制在GNU通用公共证书的条件下发布
它可以运行于几乎所有操作平台,是一款免费的,非商业化的机器学习以及数据挖掘软件
Weka提供了一个统一界面,可结合预处理以及后处理方法,将许多不同的学习算法应用于任何所给的数据集,并评估由不同的学习方案所得出的结果
图1Weka主界面Weka系统包括处理标准数据挖掘问题的所有方法:回归、分类、聚类、关联规则以及属性选择
分析要进行处理的数据是重要的一个环节,Weka提供了很多用于数据可视化和与处理的工具
输入数据可以有两种形式,第一种是以ARFF格式为代表的文件;另一种是直接读取数据库表
使用Weka的方式主要有三种:第一种是将学习方案应用于某个数据集,然后分析其输出,从而更多地了解这些数据;第二种是使用已经学习到的模型对新实例进预测;第三种是使用多种学习器,然后根据其性能表现选择其中一种来进行预测
用户使用交互式界面菜单中选择一种学习方法,大部分学习方案都带有可调节的参数,用户可通过属性列表或对象编辑器修改参数,然后通过同一个评估模块对学习方案的性能进行评估
2数据和数据集根据应用的不同,数据挖掘的对象可以是各种各样的数据,这些数据可以是各种形式的存储,如数据库、数据仓库、数据文件、流数据、多媒体、网页,等等
即可以集中存储在数据存储库中,也可以分布在世界各地的网络服务器上
大部分数据集都以数据库表和数据文件的形式存在,Weka支持读取数据库表和多种格式的数据文件,其中,使用最多的是一种称为ARFF格式的文件
ARFF格式是一