一:分类变量的概念:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量
在日常生活中,我们常常关心两个分类变量之间是否有关系:在统计学中,独立性检验就是检验两个分类变量是否有关系的一种统计方法
不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965与表格相比,等高条形图能更直观地反映出相关数据的总体状况
为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人):吸烟与患肺癌列联表(列出两个分类变量的频数表):在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大
28%不吸烟吸烟00
91不吸烟吸烟患肺癌比例不患肺癌比例等高条形图等高条形图更清晰地表达了两种情况下患肺癌的比例
两个蓝色条的高分别表示不吸烟和吸烟样本中不患肺癌的频率
比较图中两个红色条的高可以发现,在吸烟样本中患肺癌的频率要高一些
这种判断是否可靠呢
下面通过统计分析回答这一问题
现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,为此先假设:H0:吸烟与患肺癌没有关系不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d把数字用字母代替,得到如下用字母表示的列联表:不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d假设H0:吸烟和患病之间没有关系用A表示不吸烟,B表示不患病设n=a+b+c+d即H0等价于P(AB)=P(A)P(B)()aPABn()abPAn()acPBn
bcad即
adbc应有不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d假设H0:吸烟和患病之间没有关系用A表示不吸烟,B表示不患