淮阳中学李旭对于性别变量,其取值为男和女两种.这种变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量分类变量.生活中的分类变量是否吸烟,宗教信仰,国籍…性别是否喜欢数学课程吸烟患肺癌在日常生活中,我们常常关心分类变量之间是否有关系:例如为调查吸烟是否对患肺癌有影响为调查吸烟是否对患肺癌有影响,,某肿瘤研究某肿瘤研究所随机地调查了所随机地调查了99659965人人,,得到如下结果得到如下结果((单单位位::人人))不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965那么吸烟是否对肺癌有影响?吸烟与患肺癌列联表列出两个分类列出两个分类变量的频数变量的频数表表,,称为称为列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965%54.0%100781742%28.2%100214849吸烟者与不吸烟者患肺癌的可能性存在差异吸烟者与不吸烟者患肺癌的可能性存在差异从上面数据和图形可以看出看出吸烟和患肺癌有关我们能够有多大的把握认为“吸烟与患我们能够有多大的把握认为“吸烟与患肺癌有关”?肺癌有关”?吸烟患肺癌吸烟与患肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aabba+ba+b吸烟吸烟ccddc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d假设H0:吸烟与患肺癌没有关系A:不吸烟B:不患肺癌P(AB)=P(A)(B)a:事件AB发生的频数a+b:事件A发生的频数a+c:事件B发生的频数H0成立时ncanbana(n=a+b+c+d)(a+b+c+d)a≈(a+b)(a+c)ad-bc≈0|ad-bc|越小吸烟与患肺癌之间的关系越弱|ad-bc|越大吸烟与患肺癌之间的关系越强构造一个随机变量dbcadcbabcadnK22建立统一标准(n=a+b+c+d)若H0成立K2应该很小根据前面数据632.569198742148781720994249777599652kK2的观察值--卡方统计量在“吸烟与患肺癌没有关系”成立的条件下可以估算出01.0)635.6(2KPk≈56.6326.635远大于99%的把握认为“吸烟与患肺癌有关系”利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验独立性检验.确认“两个分类变量有关系”的方法•假设该结论不成•由观测数据计算K2的观测值k•通过概率评价该假设不合理的程度•结论k>6.635,假设不合理程度约为99%yy11yy22总计总计xx11aabba+ba+bxx11ccddc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表2×2列联表若要推断的论述为H1:“X与Y有关系”可以按如下步骤判断结论H1成立的可能性1.通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠度11211,XY,XY.,.xayabxycHcd在二维条形图中可以估计满足条件的个体中具有的个体所占的比例也可以估计满足条件的个体中具有的个体所占的比例两个比例值相差越大成立的可能性就越大2.可以利用独立性检验来考察两个分类变量是否有关系并且能较精确地给出这种判断的可靠程度.根据观测数据计算检验随机变量K2的观察值kP(K2≥k)0.500.400.250.150.100.050.0250.0100.0050.001k0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828当得到的观测数据a,b,c,d都不于5时,可以通过查阅下表来确定其可信程度在某医院在某医院,,因为患心脏病而住院的因为患心脏病而住院的665665名男性病人名男性病人中中,,有有214214人秃顶人秃顶,,而另外而另外772772名不是因为患心脏病名不是因为患心脏病而住院的男性病人中有而住院的男性病人中有175175人秃顶人秃顶..分别利用图形和分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系独立性检验方法判断秃顶与患心脏病是否有关系??你所得的结论在什么范围内有效你所得的结论在什么范围内有效??解根据数据得到如下列联表秃顶与患心脏病列联表患心脏病患其他病总计秃顶214175389不秃顶4515971048总计6657721437635.6373.167726651048389451175597214143722...