数据挖掘实验报告学院名称计算机科学与技术学院专业名称学生姓名学号5指导教师二◦—六年月实验内容实验一一、实验原理(1)
缺省值的处理:用均值替换、回归查补和多重查补对缺省值进行处理通过R语言提供的方法确定哪些有缺省值,哪些是异常值,并把异常置为缺失值来处理,通过表格形式打印出来
将数据集分成完整数据和缺失数据两部分
用均值替换:求变量未缺失部分的均值,用均值替换缺失
回归查补:是把缺失属性作为因变量,其他相关属性作为自变量,利用他们之间的关系建立回归模型的来预测缺失值,以此完成缺失值插补的方法
多重查补:多值插补的思想来源于贝叶斯估计,认为待插补的值是随机的,它的值来自于已观测到的值
具体实践上通常是估计出待插补的值,然后再加上不同的噪声,形成多组可选插补值
根据某种选择依据,选取最合适的插补值
多重插补方法分为三个步骤:①为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合
②每个插补数据集合都用针对完整数据集的统计方法进行统计分析
③对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值
二、实验目的掌握数据预处理的基本方法
三、实验内容1、R语言初步认识(掌握R程序运行环境)2、实验数据预处理
(掌握R语言中数据预处理的使用)对给定的测试用例数据集,进行以下操作
1)、加载程序,熟悉各按钮的功能
2)、熟悉各函数的功能,运行程序,并对程序进行分析
对餐饮销量数据进统计量分析,求销量数据均值、中位数、极差、标准差,变异系数和四分位数间距
对餐饮企业菜品的盈利贡献度(即菜品盈利帕累托分析),画出帕累托图
3)数据预处理缺省值的处理:用均值替换、回归查补和多重查补对缺省值进行处理对连续属性离散化:用等频、等宽等方法对数据进行离散化处理四、实验步骤1
将数据加载,通过函数计