第四章连续型资料的假设检验(123)★联系:数据/变量在离散点或区间上分布分布特征数应用样本数据x频数分布表频数分布图描述指标(xsx,)参考范围xSx96.1随机变量XX,误差x概率分布表概率分布图总体参数(x,)(x,)置信区间:xSx96.1假设检验P(x-0|H0)=?条件概率:P(x-0|H0)=在H0条件下=0的概率(记为P)假设检验任务:P≤?(=可忽略的小概率值)P≤则认为≠04.1假设检验的独特逻辑区间估计判断“≠0?”:依据N(,2)(抽样实验)95%CI不包含0─→P<0.0595%CI包含0─→P>0.05例3.195%CI:(8.15,10.15),文献报道0=10.50决策认为≠0,P<0.05假设检验判断“≠0?”:依据N(0,2)假设检验的步骤及逻辑思维:例3.1中,x=9.15(对应),0=10.50,|x-0|=1.35样本结果差异原因:抽样误差引起(=0)本质差异(≠0)必须在两者中作抉择(1)建立统计假设(假设前提下才有规律可循)H0:=0=10.50,H1:≠0=10.50H0比较单纯、明确,在H0下,抽样误差服从某个特定的分布,便有规律可循;而H1却包含着种种未知情形,不容易弄清在H1下有什么规律。故我们着重于考察样本信息是否支持H0(2)计算统计量(统计量的当前值多大?)本例观察变量X服从正态分布N(0,2),今未知,若有H0:0=10.50,则据第三章知识,统计量t=nSX/50.10~t分布,=n-1本例X=9.15,S=2.13,n=20,统计量t的当前值为t=20/13.250.1015.9=-2.8345,=20-1=19(3)确定P值(当前t值对应的P值有多大?)P=P(|t|≥2.8345)=?查阅t分布界值表可知P=P(|t|≥2.093)=0.05即t0.05=2.093今t>t0.05,故P<0.05(4)决策与结论(依据小概率值进行决策)决策者事先根据问题性质规定一个可以忽略的、小的概率值,比如=0.05(或0.01)今P<=0.05,标准离差|t|≥2.8345是小概率事件,可认为目前的差异不是由抽样误差所致,而是两个总体均数不相等。一般地,抉择的标准为:当P≤时,拒绝H0,接受H1;当P>时,不拒绝H0结果报告:首先给出统计推断结果,即列出统计量、P值(尽量用精确值),以及是否拒绝H0;然后结合问题的具体背景给出推断结论。为方便叙述,人们常将拒绝H0说成“差别有统计学意义”(statisticallysignificantdifference),简称“有统计学意义”(statisticallysignificant),但不提倡“差别有显著性”或“有显著性差别”的提法,因其易被误解为差别很大;相应地,将不拒绝H0说成“差别无统计学意义”,简称“无统计学意义”。本例结论:t=-2.8345,P<0.02,拒绝H0,接受H1,即认为样本对应的总体均数与文献报导的数值10.50mm/h不相同。结合实际,可认为该类患者血沉值低于10.50。当然,这时第Ⅰ类错误(typeⅠerror):决策者拒绝H0时可能犯错误,这种错误称为第Ⅰ类错误。P值就是H0成立的条件下,犯第Ⅰ类错误的概率。4.2单组完全随机化设计资料均数的t检验(样本与总体比较)例4.1根据大量调查,健康成年男子脉搏的均数为72次/分。某医生在一山区抽样调查了25名健康成年男子,其脉搏均数为75.2次/分,标准差为6.5次/分,能否据此认为该山区健康成年男子的脉搏高于一般水平?分析因每分钟脉搏数服从正态分布,可用单组完全随机化设计资料均数的t检验作分析。(1)建立检验假设H0:=0,H1:≠0(4.1)(2)计算统计量基于已有知识,H0成立时检验统计量t=nSX/0~t分布(4.2)检验统计量就是以标准误为单位来度量的样本指标与总体参数的标准离差。例如,标准t离差=xsx)(069.225/5.6722.75t-2.834502.8345图4.1t统计量的当前值与P值示意图依据N(0,2)0.01
t0.05(24)=2.064,P<0.05单侧:t=2.69>t0.05(24)=1.711,P<0.05(本例)本例双侧与单侧的概率P一致(精确比较是不等的)(4)决策与结论用双侧还是单侧检验问题(范围/区间/检验):单侧:专业知识推断总体中的数据/参数只能偏向一侧范围:小便中毒物浓度低了仍正常,高过某数值为异常区间:午餐肉亚硝酸含量(不允许高过某数值)检验:本例医学知识认为山区人的脉搏不会慢于一般人双侧:一般情况下单侧问题用了双侧犯小错,双侧问题用了单侧是大错单侧的对立假设为(双侧的对立假设见公式4.1)H1:>0(或H1...