1.2《独立性检验的基本思想及其初步应用》学习目标•1、通过案例理解分类变量、列联表、独立性检验的含义,利用列联表的独立性检验进行估计;•2、知道随机变量K2的含义;•3、理解独立性检验的基本思想及其实施步骤;•教学重点:理解独立性检验的基本思想。独立性检验的步骤。•教学难点;1、理解独立性检验的基本思想;2、了解随机变量K2的含义;独立性检验的步骤。看到这个课题,你能想到什么?案例:某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人。调查结果:吸烟的220人中有37人患呼吸道疾病,183人未患呼吸道疾病;不吸烟的295人中有21人患病,274人未患病。根据这些数据,能否断定:患呼吸道疾病与吸烟有关?数据整理患病未患病合计吸烟不吸烟合计372158183274457220295515问题:判断的标准是什么?吸烟与不吸烟,患病的可能性的大小是否有差异?频率估计概率患病未患病合计(n)吸烟16.82%83.18%100%(220)不吸烟7.12%92.88%100%(295)通过图形直观判断不患病比例患病比例解决问题:直观方法吸烟的患病率不吸烟的患病率37/22016.82%21/2957.12%根据统计分析的思想,用频率估计概率可知,吸烟者与不吸烟者患病的可能性存在差异。你能有多大把握认为“患病与吸烟有关”呢?有一个颠扑不破的真理,那就是当我们不能确定什么是真的时,我们就应该去探求什么是最可能的。笛卡尔能否用数量来刻画“有关”程度患病未患病合计吸烟不吸烟合计372158183274457220295515知识存盘1.分类变量和列联表(1)分类变量变量的不同“值”表示个体所属的,像这样的变量称为分类变量.(2)列联表①定义:列出的两个分类变量的,称为列联表.不同类别频数表②2×2列联表一般地,假设两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d想一想:如何理解分类变量?提示(1)这里的“变量”和“值”都应作为“广义”的变量和值来理解.例如:对于性别变量,其取值有“男”和“女”两种,这里的“变量”指的是“性别”,这里的“值”指的是“男”或“女”.因此,这里说的“变量”和“值”不一定是取具体的数值.(2)分类变量是大量存在的.例如:吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.2.独立性检验定义利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验公式K2=nad-bc2a+bc+da+cb+d,其中n=a+b+c+d具体步骤①根据实际问题的需要,确定容许推断“两个分类变量有关系”犯错误概率的上界α.然后查表确定.②利用公式计算随机变量K2的.③如果,就推断“X与Y有关系”,这种推断不超过α,否则就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中够证据支持结论“X与Y有关系”临界值k0观测值kk≥k0犯错误的概率没有发现足3.独立性检验临界值表P(K2≥k0)0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7081.3232.0722.7063.8415.0246.6357.87910.828想一想:在K2运算时,在判断变量相关时,若K2的观测值k=56.632,则P(K2≥6.635)≈0.01和P(K2≥10.828)≈0.001,哪种说法是正确的?提示两种说法均正确.P(K2≥6.635)≈0.01的含义是在犯错误的概率不超过0.01的前提下,认为两变量相关;而P(K2≥10.828)≈0.001的含义是在犯错误的概率不超过0.001的前提下,认为两变量相关.返回(1)如果k≥10.828,就有______的把握认为“X与Y”有关系;(2)如果k≥7.879,就有______“的把握认为X与Y”有关系;(3)如果k≥6.635,就有99%“的把握认为X与Y”有关系;(4)如果k≥5.024,就有97.5%“的把握认为X与Y”有关系;(5)如果k≥3.841,就有95%“的把握认为X与Y”有关系;(6)如果k≥2.706,就有____“的把握认为X与Y”有关系.99.9%99.5%90%0.50.40.250.150.10.050.0250.010.0050.001xo0.4550.7081.3232.0722.7063.8415.0246.6357.87910.82820()Px卡方临界值表:则有99.9%的把握认为“Ⅰ与Ⅱ有关系”;(1)若观测值χ2>10.828.(3)若观测值χ2...