第三章四格表——2×2列联表什么是四格表【例3
1】为了解吸烟与肺癌的关系,选择63个肺癌患者和43个与肺癌患者年龄、性别和其他属性类似的健康人(对照组)进行研究,调查结果见表3
问总体中肺癌患者吸烟的比例是否比健康人吸烟的比例高
1对肺癌患者和对照组的调查结果吸烟不吸烟吸烟比例%肺癌患者对照组603321195
4什么是四格表上述检验问题可以一般化为:其数据结构关系包括五个等式
从略有B没有B合计有A没有A合计11n12n21n22n1n2n1n2nn四格表的抽样方式根据四格表的边缘分布是否给定,可能的抽样方式有以下四种:1、单侧给定,如n1+和n2+给定,则在四格中有两个随机变量,服从二项分布;如:63个肺癌患者和43个对照组,属于行边缘分布给定的情况2、总样本容量n给定,则有三个随机变量,n11,n12,n21,n22服从多项分布;如:Mendel豌豆实验,属于n给定的情况四格表的抽样方式3、都不给定时,n11,n12,n21,n22都是随机变量,通常假定它们服从Poisson分布如:某商店在某一天可能来的顾客数未知,顾客的性别以及有没有购买的情况,存在4个随机变量男女合计购买不购买合计11n12n21n22n1n2n1n2nn四格表的抽样方式4、两侧都给定时,只有一个是随机变量,它服从超几何分布
如:假设100件产品中有8件次品,随机抽5件加以检验,问有多少件次品
对不同抽样方式下得到的四格表,其数据分析方法也有可能不同
抽取未抽取合计不合格合格892合计59510011n12n21n22n属性之间独立与不相关两个相互独立的随机变量一定不相关,但不相关不一定独立
这里相关指线性相关四格表中属性A与B相互独立等价于不相关
根据前面的频数分布表可以得到概率四格表:XY有B(b1)没有B(b2)合计有A(