如何检验数据是否服从正态分布一、图示法1、P-P图以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点
如果资料服从整体分布,则样本点应围绕第一象限的对角线分布
2、Q-Q图以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标把样本表现为指教坐标系的散点
如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线
以上两种方法以Q-Q图为佳,效率较高
3、直方图判断方法:是否以钟形分布,同时可以选择输出正态性曲线
4、箱式图判断方法:观测离群值和中位数
5、茎叶图类似与直方图,但实质不同
二、计算法1、偏度系数(Skewness)和峰度系数(Kurtosis)计算公式:g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误σg1及σg2然后作U检验
两种检验同时得出U0
05的结论时,才可以认为该组资料服从正态分布
由公式可见,部分文献中所说的“偏度和峰度都接近0……可以认为……近似服从正态分布”并不严谨
2、非参数检验方法非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro-Wilk(W检验)
SAS中规定:当样本含量n≤2000时,结果以Shapiro–Wilk(W检验)为准,当样本含量n>2000时,结果以Kolmogorov–Smirnov(D检验)为准
SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-Wilk统计量
对于无权重或整数权重,在加权样本大小位于3和5000之间时,计算该统计量
由此可见,部分SPSS教材里面关于“Shapiro–Wilk适用于样本量3-50之间的数据”的说法是在是理解片面,误人子弟
(2)单样本Kolmogorov-Smirnov检验可用于检验变量(例如income)是否为