可疑数据的取舍 21
1 可疑数据的取舍 为了使分析结果更符合客观实际,必须剔除明显歪曲试验结果的测定数据
正常数据总是有一定的分散性,如果人为删去未经检验断定其离群数据(Outliers)的测定值(即可疑数据),由此得到精密度很高的测定结果并不符合客观实际
因此对可疑数据的取舍必须遵循一定原则
取舍原则 (1)测量中发现明显的系统误差和过失错误,由此而产生的分析数据应随时剔除
(2)可疑数据的取舍应采用统计学方法判别,即离群数据的统计检验
大样本离群数据的取舍(三倍标准差法):根据正态分布密度函数,设测定值为Xi,可表示为Xi+3S ³μ ³ Xi -3S
若Xi在Xi±3S范围内,此数据可用;若在Xi±3S范围外,此数据不可用,须舍弃(亦称莱特准则)
该判断的置信度在99
7%以上,但测定次数增多时,出现可疑值机会就随之增加,应将取舍标准改变如下
先计算多次测定结果的平均值X 和标准差S,再计算Z值: X=X1 + X2 + „ +Xn / n (n 为包括可疑值尾数在内的测定次数) S = [∑X2 -(∑X)2/n] / (n-1) Z= (X - X ) / S (X 为可疑值) 然后查正态分布表,得对应于 Z值的a值
如 n a0
1,则不舍弃
例如:土壤全氮的5次平行测定结果(g·kg-1)为1
85为可疑值,需判断取舍
计算平均值X=1
59;S=±0
164;Z=(1
查正态分布表 a=0
0565,na=5×0
0565=0
2825,因na>0
1,可疑值1
85g·kg-1不予舍弃
小样本离群数据取舍(n为有限数):有几个统计检验方法来估测可疑数据,包括 Dixon,Grubbs,Cochran和 Youden检验法