分类数据常用统计方法在科研数据的统计分析中,常常会遇到分类数据
分类数据包括计数资料和等级资料,两者都是将观察指标分类(组),然后统计每一类(组)数目所得到的数据,区别是假如观察指标的分类是无序的则为计数资料,也叫定性资料或无序分类变量;假如观察指标的分类是有序的,则为等级资料,也叫有序分类数据
如调查某人群的血型分布,根据 A、B、AB 与 O 四型分组,计数所得该人群的各血型组的人数就是计数资料(因为 A、B、AB 与 O 血型之间是平等的,并没有度或量的差异);观察用某药治疗某病患者的疗效,以患者为观察单位,结果可分为治愈、显效、好转、无效四级,然后对该病的患者,分别计数治愈、显效、无效、好转的人数则为等级数据(因为无效的疗效最差、次之为好转、治愈的疗效最好,它们之间有度或者量的区别)
分类数据进行统计分析时要列成表格,根据表格中分组变量和指标变量的性质、样本含量()和理论频数()的大小以及分析的目的,所用的统计方法是不一样的
下面通过一些有代表性的例子来介绍分类数据常用的统计分析方法
一、2×2 表2×2 表也叫四格表
在实验讨论中,将讨论对象分为 2 组进行实验,实验只有 2 种可能的结果,如阳性与阴性,故叫 2×2 表;因为基本数据只有 4 个,所以也叫四格表
根据不同的实验安排,四格表又分为完全随机设计四格表和配对设计四格表
表 1 某抗生素的人群耐药性情况用药史不敏感敏感合计耐药率(%)曾服该药180215395未服该药73106179合计253321574 表 1 为完全随机设计四格表
其目的是要比较曾服该抗生素的人群和未曾服过该抗生素的人群,对该抗生素的耐药率有无差异
表格中的四个基本数据(也叫实际频数)分别为 180、215、73、106;括号中的四个数据(、、、)为四个理论频数(),因且四个理论频数()均大于 5,故应用 Pearson检验