第三章统计案例本章诊疗一、离散型随机变量及其分布列的均值与方差1
精要总结(1)一组线性相关的数据其线性回归方程为:ˆˆˆybxa
其中ˆb1221niiiniixynxyxnx,ˆaˆybx,x11niixn,y11niiyn
(2)利用相关系数r=112222221111()()()()nniiiiiinnnniiiiiiiixxyyxynxyxxyyxnxyny来衡量两个变量之间线性相关关系
|r|≤1,且|r|越接近于1,相关程度越大;|r|越接近于0,相关程度越小
通常,当r大于0
75时,我们认为两个变量存在着很强的线性相关关系
当r>0时,表明两个变量正相关
错解分析:错误的原因是对相关系数的意义理解不清楚所致,错误的认为相关系数越大,拟合效果越好,正确的应该是相关系数的绝对值越接近于l,两个变量的线性相关关系越强,它们的散点图越接近一条直线,这时用线性回归模型拟合这组数据就越好
正解:通过比较四个模型对应的相关系数的绝对值,得|-0
50>|-0
25|,|-0
96|更接近于1,拟合效果更好,故选B
二、离散型随机变量及其分布列的均值与方差1
精要总结(1)取不同值表示个体所属不同类别的变量叫做分类变量
一般地,假设两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(也称为2×2列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d(2)利用上述2×2列联表可以进行如下分析:频率分析:通过对样本的每个分类变量的不同类别的事件发生的频率大小比较来分析分类变量之间是否有关联关系
图形分析:利用三维柱形图、二维条形图、频率分布条形图分析分类变量之间是否有关联