皮尔逊(KarlPearson,1857—1936),英国统计学家
现代统计学的创始人之一,被誉为统计学之父
2独立性检验的基本思想及应用有人说:吸烟有害健康
吸烟会引发肺癌
另一些人说:吸烟不影响健康
理由是,有的吸烟老人却很长寿
这两种观点哪个正确呢
171322232718对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量
列联表:列出两个个分类变量的频数表为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)表3-7吸烟与患肺癌列联表那么吸烟是否对患肺癌有影响
因此,直观上得到结论:吸烟者和不吸烟者患肺癌的可能性存在差异
在不吸烟者中患肺癌的比例是在吸烟者中患肺癌的比例是0
28%9965919874总计2148492099吸烟7817427775不吸烟总计患肺癌不患肺癌列联表:两个分类变量的频数表探究:0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌患肺癌比例不患肺癌比例等高条形图上面我们通过分析数据和图形,得到的直观印象是“吸烟和患肺癌有关”
这一直觉来自于观测数据,即样本
问题是它能够在多大程度上代表总体呢
能否用数量刻画出有关的程度
H0:吸烟与患肺癌没有关系我们假设看看能推出什么样的结论
不患肺癌(B)患肺癌()总计不吸烟(A)aba+b吸烟()cdc+d总计a+cb+dn=a+b+c+d因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强
adbc即aa+ba+c≈×nnna+bP(A),na+cP(B),n
aP(AB)n其中为样本容量,即n=a+b+c+d在表中,a恰好为事件AB发生的频数;a+b和a+c恰好分别为事件A和B发生的频数
由于频率接近于