数据预处理(1)——剔除异常值及平滑处理测量数据在其采集与传输过程中,由于环境干扰或人为因素有可能造成个别数据不切合实际或丢失,这种数据称为异常值
为了恢复数据的客观真实性以便将来得到更好的分析结果,有必要先对原始数据(1)剔除异常值;另外,无论是人工观测的数据还是由数据采集系统猎取的数据,都不可避开叠加上“噪声”干扰(反映在曲线图形上就是一些“毛刺和尖峰”)
为了提高数据的质量,必须对数据进行(2)平滑处理(去噪声干扰);(一)剔除异常值
注:若是有空缺值,或导入 Matlab 数据显示为“NaN”(非数),需要①忽略整条空缺值数据,或者②填上空缺值
填空缺值的方法,通常有两种:A
使用样本平均值填充;B
使用判定树或贝叶斯分类等方法推导最可能的值填充(略)
一、基本思想:规定一个置信水平,确定一个置信限度,凡是超过该限度的误差,就认为它是异常值,从而予以剔除
二、常用方法:拉依达方法、肖维勒方法、一阶差分法
注意:这些方法都是假设数据依正态分布为前提的
拉依达方法(非等置信概率)假如某测量值与平均值之差大于标准偏差的三倍,则予以剔除
其中,为样本均值,为样本的标准偏差
注:适合大样本数据,建议测量次数≥50 次
代码实例(略)
肖维勒方法(等置信概率)在 n 次测量结果中,假如某误差可能出现的次数小于半次时,就予以剔除
这实质上是规定了置信概率为 1—1/2n,根据这一置信概率,可计算出肖维勒系数,也可从表中查出,当要求不很严格时,还可按下列近似公式计算:Tab1
肖维勒系数表n3456789101112ωn1
03n13141520304050100200500ωn2
20假如某测量值与平均值