问题:数学家庞加莱每天都从一家面包店买一块1000g的面包,并记录下买回的面包的实际质量。一年后,这位数学家发现,所记录数据的均值为950g。于是庞加莱推断这家面包店的面包分量不足。•假设“面包分量足”,则一年购买面包的质量数据的平均值应该不少于1000g;•“这个平均值不大于950g”是一个与假设“面包分量足”矛盾的小概率事件;•这个小概率事件的发生使庞加莱得出推断结果。一:假设检验问题的原理假设检验问题由两个互斥的假设构成,其中一个叫做原假设,用H0表示;另一个叫做备择假设,用H1表示。例如,在前面的例子中,原假设为:H0:面包分量足,备择假设为H1:面包分量不足。这个假设检验问题可以表达为:H0:面包分量足←→H1:面包分量不足二:求解假设检验问题考虑假设检验问题:H0:面包分量足←→H1:面包分量不足1.在H0成立的条件下,构造与H0矛盾的小概率事件;2.如果样本使得这个小概率事件发生,就能以一定把握断言H1成立;否则,断言没有发现样本数据与H0相矛盾的证据。求解思路:三:二个概念这种变量的不同取“值”表示个体所属的不同类别,这类变量称为分类变量1.分类变量对于性别变量,取值为:男、女分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等等。利用随机变量K2来确定在多大程度上可以认为”两个分类变量有关系”的方法称为两个分类变量的独立性检验.(为假设检验的特例)吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果(单位:人)列联表在不吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大0.54%2.28%1)通过图形直观判断两个分类变量是否相关:不患肺癌患肺癌不吸烟吸烟010002000300040005000600070008000不吸烟吸烟三维柱状图2)通过图形直观判断两个分类变量是否相关:0100020003000400050006000700080009000不吸烟吸烟患肺癌不患肺癌二维条形图0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟患肺癌不患肺癌3)通过图形直观判断两个分类变量是否相关:患肺癌比例不患肺癌比例独立性检验H0:吸烟和患肺癌之间没有关系←→H1:吸烟和患肺癌之间有关系通过数据和图表分析,得到结论是:吸烟与患肺癌有关结论的可靠程度如何?用A表示“不吸烟”,B表示“不患肺癌”则H0:吸烟和患肺癌之间没有关系“吸烟”与“患肺癌”独立,即A与B独立P(AB)=P(A)P(B)等价于等价于吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+da+ba+caP(A)≈,P(B)≈,P(AB)≈nnn其中n=a+b+c+dac≈,a+bc+dac+d≈ca+b,adbcaa+ba+c≈×nnn22n(ad-bc)K=(a+b)(c+d)(a+c)(b+d)独立性检验0.adbcad-bc越小,说明吸烟与患肺癌之间的关系越弱,ad-bc越大,说明吸烟与患肺癌之间的关系越强引入一个随机变量作为检验在多大程度上可以认为“两个变量有关系”的标准。1)如果P(m>10.828)=0.001表示有99.9%的把握认为”X与Y”有关系;2)如果P(m>7.879)=0.005表示有99.5%的把握认为”X与Y”有关系;3)如果P(m>6.635)=0.01表示有99%的把握认为”X与Y”有关系;4)如果P(m>5.024)=0.025表示有97.5%的把握认为”X与Y”有关系;5)如果P(m>3.841)=0.05表示有95%的把握认为”X与Y”有关系;6)如果P(m>2.706)=0.010表示有90%的把握认为”X与Y”有关系;7)如果m≤2.706),就认为没有充分的证据显示”X与Y”有关系;设有两个分类变量X和Y它们的值域分别为{x1,x2}和{y1,y2}其样本频数列表(称为2×2列联表)为y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d2×2列联表22()()()()nadbcKabcdacbd()2P(k≥m)适用观测数据a、b、c、d不小于5独立性检验吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965通过公式计算2242209956.63278172148987491K9965(777549)独立性检验已知在成立的情况下,0H2(6.635)0.01PK即在成立的情况下,K2大于6.635概率非常小,近似为0.010H现在的K2=56...