可疑数据的取舍 21.3.3.1 可疑数据的取舍 为了使分析结果更符合客观实际,必须剔除明显歪曲试验结果的测定数据。正常数据总是有一定的分散性,如果人为删去未经检验断定其离群数据(Outliers)的测定值(即可疑数据),由此得到精密度很高的测定结果并不符合客观实际。因此对可疑数据的取舍必须遵循一定原则。 1. 取舍原则 (1)测量中发现明显的系统误差和过失错误,由此而产生的分析数据应随时剔除。 (2)可疑数据的取舍应采用统计学方法判别,即离群数据的统计检验。 2. 大样本离群数据的取舍(三倍标准差法):根据正态分布密度函数,设测定值为Xi,可表示为Xi+3S ³μ ³ Xi -3S。若Xi在Xi±3S范围内,此数据可用;若在Xi±3S范围外,此数据不可用,须舍弃(亦称莱特准则)。该判断的置信度在99.7%以上,但测定次数增多时,出现可疑值机会就随之增加,应将取舍标准改变如下。 先计算多次测定结果的平均值X 和标准差S,再计算Z值: X=X1 + X2 + „ +Xn / n (n 为包括可疑值尾数在内的测定次数) S = [∑X2 -(∑X)2/n] / (n-1) Z= (X - X ) / S (X 为可疑值) 然后查正态分布表,得对应于 Z值的a值。如 n a<0.1,则舍弃,>0.1,则不舍弃。 例如:土壤全氮的5次平行测定结果(g·kg-1)为1.52,1.48,1.65,1.85,1.45。其中1.85为可疑值,需判断取舍。计算平均值X=1.59;S=±0.164;Z=(1.85-1.59)/0.164=1.585。查正态分布表 a=0.0565,na=5×0.0565=0.2825,因na>0.1,可疑值1.85g·kg-1不予舍弃。 3. 小样本离群数据取舍(n为有限数):有几个统计检验方法来估测可疑数据,包括 Dixon,Grubbs,Cochran和 Youden检验法。可以对一个样品,一批样品,一台仪器或一组数据中可疑数据的检验。现介绍最常用的两种方法。 (1)狄克逊(Dixon)检验法:此法适用于一组测量值的一致性检验和剔除离群值,本法中对最小可疑值和最大可疑值进行检验的公式因样本的容量n的不同而异,检验方法如下: 将一组测量数据从小到大顺序排列为X1、X2„X3,X1和 Xn分别为最小可疑值和最大可疑值,按表 21.3计算公式求 Q值。 根据表 21.4中给定的显著性水平a和样本容量 n查得临界值Qa。 若 Q≤Q0.05,则检验的可疑值为正常值; 若 Q0.05Q0.01,则可疑值为离群值,应舍去。 表 21.2 Dixon检验统计量 Q计算公式 n值范围 可疑值为最小值X1时 可疑值为最大值Xn时 3~7 Q=(X...