独立性检验的基本思想及初步应用 一.基础概念的梳理与理解1.分类变量的描述性说明:对于宗教信仰来说,其取值为信宗教信仰与不信宗教信仰两种.象这样的变量的不同值表示个体所属的不同类别的变量称为分类变量.例如性别变量其取值为男女两种,吸烟变量其取值为吸烟与不吸烟两种;2.两个分类变量:是否吸烟与患肺癌于否,性别男和女与是否喜欢数学课程等等,这是我们所要关心的;3.列联表:列出的两个分类变量和,它们的取值分别为和的样本频数表称为列联表 1分类12总计12总计 二.两个分类变量是否有关的粗略估计 1.三维柱形图:如果列联表 1 的三维柱形图如下图 由各小柱形表示的频数可见,对角线上的频数的积的差的绝对值较大,说明两分类变量和是有关的,否则的话是无关的. 重点:一方面考察对角线频数之差,更重要的一方面是提供了构造随机变量进行独立性检验的思路方法。abcd图 1 2.二维条形图(相应于上面的三维柱形图而画) 由深、浅染色的高可见两种情况下所占比例,由数据可知要比小得多,由于差距较大,因此,说明两分类变量和有关系的可能性较大,两个比值相差越大两分类变量和有关的可能性也越的.否则是无关系的. 重点:通过图形以及所占比例直观地粗略地观察是否有关,更重要的一方面是提供了构造随机变量进行独立性检验的思想方法。3.等高条形图(相应于上面的条形图而画) 由深、浅染色的高可见两种情况下的百分比;另一方面,数据要比小得多,因此,说明两分类变量和有关系的可能性较大,否则是无关系的.重点:直观地看出在两类分类变量频数相等的情况下,各部分所占的比例情况,是在图 2 的基础上换一个角度来理解。 三.独立性检验的基本思想acd图 2acd图 3 上面通过分析数据与图形,,得出这个估计是粗略的,因为我们说的“大得多”、“小得多”,到底是有多大的差距?也就是说得到的结论是直观上的印象,其实与是否有关还是有较大的差距的.但是上面的分析给了我们一种重要的思想方法.下面从理论上说明两类分类变量是否有关,请同学们从中体会其思想方法 1.基本思想与图形的联系 假设两类分类变量是无关的,由上面的条形图 2 可知如下的比应差不多。 (这里可以结合三位柱形图的对角线再加以理解) 构造随机变量(其中) (此公式如何记住,其特点是什么?结合列联表 1 理解) 显然所构造的随机变量与大小具有一致性.2.独立性检验的思想方法如果的观察值较大,说明其发生(无关...