第三章 统计案例 1 回归分析与独立性检验的理解与加深一、回归分析1.线性回归方程 y=bx+a,其中:b==,a=-b.(注:b=主要方便计算,其中(xi,yi)为样本数据,(,)为样本点的中心)公式作用:通过刻画线性相关的两变量之间的关系,估计和分析数据的情况,解释一些实际问题,以及数据的变化趋势.2.样本相关系数的具体计算公式:r==公式作用:反映两个变量之间线性相关关系的强弱.当 r 的绝对值接近 1 时,表明两个变量的线性相关性越强;当 r 的绝对值接近 0 时,表明两个变量之间几乎不存在线性相关关系.公式联系:(1)由于分子与回归方程中的斜率 b 的分子一样(这也给出了公式的内在联系以及公式的记法),因此,当 r>0 时,两个变量正相关;当 r<0 时,两个变量负相关.(2)常配合散点图判断两个随机变量是否线性相关.散点图是从形上进行粗略地分析判断,这个判断是可行的、可靠的,也是进行线性回归分析的基础,否则回归方程失效;它形象直观地反映了数据点的分布情况.相关系数 r 是从数上反映了两个随机变量是否具有线性相关关系,以及线性相关关系的强弱,它较精确地反映了数据点的分布情况,准确可靠.二、独立性检验(一)基础概念的梳理与理解1.分类变量:对于宗教信仰来说,其取值为信宗教信仰与不信宗教信仰两种.像这样的变量的不同“值”表示个体所属的不同类别的变量称为分类变量.例如性别变量其取值为男和女两种,吸烟变量其取值为吸烟与不吸烟两种.2.两个分类变量:是否吸烟与是否患肺癌,性别男和女与是否喜欢数学课程等等,这些关系是我们所关心的.3.2×2 列联表:列出的两个分类变量 A 和 B,它们的取值分别为{A1,A2}和{B1,B2}的样本频数表称为 2×2 列联表(如表 1).表 1\s\up7( B)B1B2总计A1aba+bA2cdc+d总计a+cb+da+b+c+d(二)独立性检验的基本思想从理论上说明两类分类变量是否有关,请同学们从中体会其思想方法.1.基本思想与图形的联系1假设两类分类变量是无关的,可知如下的比应差不多,即:≈⇒|ad-bc|=0.构造随机变量 χ2=(其中 n=a+b+c+d)(此公式如何记忆,其特点是什么?结合 2×2 列联表理解)显然所构造的随机变量与|ad-bc|的大小具有一致性.2.独立性检验的思想方法如果 χ2的值较大,说明其发生(无关系)的概率很小,此时不接受假设,也就是两分类变量是有关系的(称小概率事件发生);如果 χ2的值较小,此时接受假设,说明两分类变量是无关系...