§1.2 独立性检验的基本思想及其初步应用学习目标 1.了解分类变量的意义.2.了解 2×2 列联表的意义.3.了解随机变量 K2 的意义.4.通过对典型案例的分析,了解独立性检验的基本思想与方法.知识点一 分类变量及 2×2 列联表思考 某城市随机抽取一年(365 天)内 100 天的空气质量指数 API(AirPollutionIndex)的监测数据,结果统计如下:API[0,50)[50,100)[100,150)[150,200)[200,250)[250,300]大于300空气质量优良轻微污染轻度污染中度污染中度重污染重度污染天数101520307612若本次抽取的样本数据有 30 天是在供暖季,其中有 7 天为重度污染,完成下面表格.非重度污染重度污染总计供暖季非供暖季总计100答案 非重度污染重度污染总计供暖季23730非供暖季65570总计8812100梳理 (1)分类变量变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表① 定义:列出的两个分类变量的频数表,称为列联表.②2×2 列联表一般地,假设有两个分类变量 X 和 Y,它们的取值分别为{ x 1, x 2}和{ y 1, y 2},其样本频数列联表(也称为 2×2 列联表)为下表.y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d知识点二 等高条形图1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征.2.如果通过计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系.知识点三 独立性检验1.定义:利用随机变量 K2来判断“两个分类变量有关系”的方法称为独立性检验.2.K2=.其中 n=a+b+c+d 为样本容量.3.独立性检验的具体做法(1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界 α,然后查表确定临界值 k 0.(2)利用公式计算随机变量 K2的观测值 k .(3)如果 k ≥ k 0,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过 α;否则,就认为在犯错误的概率不超过 α 的前提下不能推断“X 与 Y 有关系”,或者在样本数据中没有发现足够证据支持结论“X 与 Y 有关系”.1.利用随机变量 K2来判断“两个分类变量有关系”的方法称为独立性检验.( √ )2.在一项打鼾与患心脏病的调查中,共调查了 1671 人,经过计算 K2的观测值 k=27.63,根据这一数据进行分析,我们有理由认为打鼾与患心脏病是无关的.( × )3.在独立性检验中,当 K2≥6.635 时,我们有 99%的把握认为两分类变...