独立性检验的基本思想及其初步应用•自学导引•1.分类变量和列联表•(1)分类变量•“”变量的不同值表示个体所属的,像这样的变•量称为分类变量.•(2)列联表•①定义:列出的两个分类变量的,称为列联表.不同类别频数表•②2×2列联表•一般地,假设两个分类变量X和Y,它们的取值分别为•{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d•2.独立性检验定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验公式K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d具体步骤①根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界α.然后查表确定.②利用公式计算随机变量K2的.③如果,就推断“X与Y有关系”,这种推断不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中支持结论“X与Y有关系”临界值k0观测值kk≥k0犯错误的概率没有发现足够证据•3.独立性检验临界值表P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0.54%2.28%0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌通过等高图直观判断两个分类变量是否相关:患肺癌比例不患肺癌比例独立性检验H0:吸烟和患肺癌之间没有关系吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+d列联表ac≈,a+bc+dac+d≈ca+b,adbc22n(ad-bc)K=(a+b)(c+d)(a+c)(b+d)独立性检验0.adbcad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强为了是不同的样本容量的数据有统一标准引入一个随机变量若H0成立,则K应该很小独立性检验吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965通过公式计算2242209956.63278172148987491K9965(777549)独立性检验已知在成立的情况下,0H2(6.635)0.01PK即在成立的情况下,K2大于6.635概率非常小,近似为0.010H现在的K2=56.632的观测值远大于6.635分类变量之间关系条形图柱形图列联表独立性检验背景分析例1.在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.分别利用图形和独立性检验方法判断是否有关?你所得的结论在什么范围内有效?例2.为考察高中生性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:性别与喜欢数学课程列联表喜欢数学课程不喜欢数学课程总计男3785122女35143178总计72228300由表中数据计算得,高中生的性别与是否喜欢数学课程之间是否有关系?为什么?2K≈4.513acdb