独立性检验的基本思想及其初步应用•自学导引•1.分类变量和列联表•(1)分类变量•“”变量的不同值表示个体所属的,像这样的变•量称为分类变量.•(2)列联表•①定义:列出的两个分类变量的,称为列联表.不同类别频数表•②2×2列联表•一般地,假设两个分类变量X和Y,它们的取值分别为•{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d•2.独立性检验定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验公式K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d具体步骤①根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界α
然后查表确定
②利用公式计算随机变量K2的
③如果,就推断“X与Y有关系”,这种推断不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中支持结论“X与Y有关系”临界值k0观测值kk≥k0犯错误的概率没有发现足够证据•3
独立性检验临界值表P(K2≥k0)0
001k00
828吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0
28%0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌通过等