對一個變數求出其平均數及標準差之後,我們知道它的平均數落在一定的區間以內,但是我們還想知道它是否有一些特別的假設可以驗證,例如這個變數的平均數是否有可能等於某個值,例如0
透過統計方法,我們可以對等距尺度的變數做以上的檢定
但是對於類別資料,我們比較關心它是否呈現隨機分布
先看看等距或等比資料的分布
我們選擇「a9dn有幾個小孩」做為變數,然後看其是否為常態分布
記得先將「99」轉為遺漏值
「統計圖」「直方圖」,選「顯示常態曲線」很明顯的小孩子的數目集中在2個及4個,6個以上非常少
如果這個樣本來自於常態分配,而平均數為2
9,標準差為1
48的情況下,我們可以說95%的觀察值落在[2
039]之間,也是[2
976]之間
而我們還可以進一步檢驗,是否2
9這個平均值,若多做幾次抽樣之後,仍然確實是等於0
此處用的是「單一樣本T檢定」
顧名思義,t檢定指的是用t分布來看我們所要檢定的值是否會落在一定的區域內
若是會的話,那麼我們不拒絕虛無假設,即平均值等於0這個假設
如果不會的話,那麼我們可以拒絕這個虛無假設,也就是平均值可能不會等於0
常態分布跟t分布的不一樣地方是t分布適用於小樣本,如果觀察值小於60的時候
當觀察值大於60時,我們還是可以用t分布,但是得到的檢定事實上與常態分布無異
參考網頁上附的常態分布與t分布的對應機率與值
在單一樣本檢定時,求t值的公式為x−ks√n,k是我們要檢定的值
在95%信心水準下,求平均值的上下區間公式為:[(X-k)-tbs√n,(X-k)+tbs√n]
tb是t值在α/2而且自由度為n-1時候的值,也就是所謂的臨界點
s√n是標準誤,也就是standarderrorofmean,簡寫為SE,也就是平均值的散布情形
而標準誤代表的就是平均值所在的範圍
以這個例子來說,k為