前面我们讨论了两个变量之间的关系——回归分析,以及对分析了解释变量和随机误差对预报变量的影响的强弱分析——相关指数 R2 分析事实上,对于同一个总体而言,通过对比更能得出哪一种方法或哪个变量对总体效果有较大的影响,分类变量间的关系就是我们今天要研究的变量属于不同的类别 例 1
为了调查吸烟是否对患肺癌有影响,某肿瘤研究院随机的调查了 9965 人,得到如下结果:不患肺癌患肺癌总计比例不吸烟77754278170
54 %吸烟20994921482
28 %总计9874919965问:吸烟是否对患肺癌有影响
解 从图表的比例可以看出:吸烟与不吸烟可能对患肺癌的可能存在差异,我们再通过等高条形图来分析 等高条形图0%10%20%30%40%50%60%70%80%90%100%吸烟不患肺癌患肺癌不吸烟 上面我们通过图形的分析,初步判断吸烟与患肺癌有关系
那么,事实是否如此呢
我们需要用统计的观点来考察这个问题我们首先设基本事件为:H0 :吸烟与患肺癌没有关系我们下面就一般关系做一个推断 不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d如果吸烟与患肺癌没有关系,则:dcccaaa(c+d)≈c(a+b)ad-bc≈0因此,| ad-bc |越小,说明吸烟与患肺炎之间没有关系
为了使样本空间有一定的代表性,我们引入一个随机变量))()()(()(22dbcadcbabcadnK( n=a+b+c+d( 样本容量 ) )若, H0 成立, ( 吸烟与患肺癌无关 ) 则 K 应该很小,通过计算我们可以得到 K 的观测值:k = K2 = 56
632总计的四项 说明:根据统计学家的分析:P(K2≥6
635)≈0
01P(K2≥k)0