F分布 (F distribution)

F分布是美國統計學家斯內德克(George Snedecor),為了彰顯英國統計學家費雪(R. A. Fisher)對統計的貢獻,以費雪名字開頭的字母,當作這類型分布的名稱。以F分布為基礎,所衍生出的檢定方法,如變方分析中的F檢定及兩族群變方相等性檢定等,都是各領域的學者經常使用的統計檢定。

不管是社會學家、物理學家、生物學家、政府人員或是一般的生產者,其所關注的問題如不同教育程度,是否會造成薪資高低不同?實驗步驟順序交換,對實驗結果是否會產生差異?不同的培養基配方,對細菌菌落大小是否有影響? 在不同縣市,推行相同的挽救中輟生政策,中輟生復學的比率是否會有差異?不同批生產的牛奶,其礦物質含量是否一定?這些問題都適用於變方分析(Analysis of Variance, 通常簡稱ANOVA)。變方分析的名稱有時會誤導使用者,以為是用來檢定變方的,其實變方分析是用來檢定多個母體的“平均值”是否相等。正如上段所提的問題,就可利用變方分析的概念來設計實驗並分析資料找到答案。

F分布除了應用在變方分析,檢定“平均數”是否相等外,還可用在兩族群的“變方”相等性檢定,有時在進行其他檢定前,會先做兩族群變方相等性檢定以決定下一步該用何種檢定方法。但兩族群變方相等性檢定,不若變方分析中的F檢定穩健,有時候可能會得到錯誤的推論,這是使用上要特別注意的地方。

以下是F分布的數學式:

將兩個來自卡方分布且互相獨力的隨機變數,各自除以其自由度後再相除,所得的新變數Fn,m就符合自由度為n-1、m-1的F分布:

Fn,m的機率密度分布函數為(P.D.F)為:

F分布的機率密度函數圖形:

附錄:F分布圖R程式碼

df1<-c(1,5,5,5,10)
df2<-c(5,1,5,20,20)
n<-length(df1)
x <- seq(0, 5,length = 1000)
f.x<-df(x, df1[1], df2[1])
plot(x, f.x, type = "c", lty = 3, xlim = c(0,5),ylim=c(0,1),ylab=quote(f(x)),main="F distribution")
color<-1
for(i in 1:n)
{
 f.x<-df(x, df1[i], df2[i])
 lines(x,f.x,lty=1,lwd=2,col=color)
 color<-color+1
}
legend(3,1,c("df1=1,df2=5","df1=5,df2=1","df1=5,df2=5","df1=5,df2=20","df1=10,df2=20"),col = c(1,2,3,4,5), text.col= "black",lty =1,lwd=2,merge = TRUE, bg='gray90')
text(0.32,0.9,expression(f["1,5"]))
text(-0.05,0.5,expression(f["5,1"]),col=2)
text(0.68,0.63,expression(f["5,5"]),col=3)
text(0.75,0.73,expression(f["5,20"]),col=4)
text(1,0.83,expression(f["10,20"]),col=5)