专题7 交叉分类(列联表)和卡方检验 (本专题较深入的理论和分析可参考Bishop 等的《离散多元分析》) (各部分较浅显、直观的说明可参考的资料在各部分列出) 变量的测度 交叉分类问题 Crosstabs 过程 变量的测度 英文名称 测度 量表 社科研究变量类型 性质 有序 有距 有绝对零 Nominal Measure 名义测度 名称量表 定类变量 Ordinal Measure 序次测度 顺序量表 定序变量 Interval Measure 间距测度 区间量表 定距变量 Scale Measure 比例测度 比例量表 定比变量 注: 1、 这里是按测度由低级到高级排列的,高级测度的变量可以看作或转化为低级测度的变量。 2、 SPSS 中变量定义时,没有Interval Measure,只有Scale Measure。 3、 社科研究中常常将不专门列出定比变量这一类,而将其包含在定距变量中。 返回 交叉分类问题 比较和对照是进行科学研究的基本手段。对于间距测度和比例测度的资料,进行分组比较时可以用均数检验、方差分析等方法。对于有较多可取值的序次测度资料,进行分组比较时可以用各种秩和检验方法。 而对于名义测度的资料、有序分类所得的资料(也属序次测度),分组比较时需用交叉分类进行统计描述,交叉分类所得的表格称为“列联表”,统计推断(检验)则要使用列联表分析的方法------卡方检验。卡方分析是用来研究两个定类变量间是否独立即是否存在某种关联性的最常用的方法。 例:按“性别”和“肥胖程度”交叉分类所得列联表如下: 性别 肥胖程度 不肥胖 轻度肥胖 中/重度肥胖 Total 男 19 9 15 43 女 49 14 43 106 Total 68 23 58 149 这里是按两个变量交叉分类的,该列联表称为两维列联表,若按3个变量交叉分类,所得的列联表称为3维列联表,依次类推。3维及以上的列联表通常称为“多维列联表”或“高维列联表”,而一维列联表就是频数分布表。 卡方分析的方法:假设两个变量是相互独立,互不关联的。这在统计上称为原假设;对于调查中得到的两个变量的数据,用一个表格的形式来表示它们的分布(频数和百分数),这里的频数叫观测频数,这种表格叫列联表;如果原假设成立,在这个前提下,可以计算出上面列联表中每个格子里的频数应该是多少,这叫期望频数;比较观测频数与期望频数的差,如果两者的差越大,表明实际情况与原假设相去甚远;差越小,表明实际情况与原假设越相近。这种差值用一个卡方统计量来表示;对卡...