卡方分布 (Chi-Square distribution)

卡方分布是由英國統計學家-卡爾‧皮爾生(Karl Pearson),於西元1900年所提出,他發展出的適合性檢定(goodness-of-fit test)就是以卡方分布為基礎。卡方分布衍生自常態分布,如果將來自常態分布的隨機變數取平方,則這些新的隨機變數就屬於卡方分布。由卡方分布衍生出許多重要的統計檢定方法,除了適合度檢定外,如變方相等性檢定、獨立性檢定等,都是研究學者常用的統計方法。當你要解決以下問題時,卡方分布就可以派上用場了。

  • 樂透號碼中,每個數字出現的頻率是否真的相等,或是某幾個數字特別容易出現? (如果真的有,麻煩發現的人先通知我!)
  • 大眾挑選飲料的種類,是否跟星座有關係?
  • 在不同家的7-11買咖啡,咖啡容量的變動,會不會有差異? (正常的7-11咖啡機,應該每一杯容量大約在6~7分滿之間,有個性的咖啡機可能前一杯5分滿,下一杯9分滿)

針對以上的問題:

  • 第一個樂透號碼問題,可使用適合度檢定
  • 第二個挑選飲料種類與星座是否有關係的問題,可使用獨立性檢定
  • 第三個咖啡容量變動是否相等的問題,可用變方相等性檢定

一一以卡方分布為基礎的檢定方法,是屬於無母數(非介量)統計檢定(non-parametric statistical tests),意思是不管資料是來自於常態分布或其他分布,都可以使用,尤其在許多醫學或藥學方面的實驗,例如比較不同診療方法其療效是否有差異,就會用到這類型的檢定。

以下是卡方分布的數學式:

卡方分布只有一個參數:自由度。

令X為一連續隨機變數,若X符合卡方分布,自由度為n,簡寫成 ,其機率密度分布函數為(P.D.F)為:

卡方分布的機率密度函數圖形:

附錄:卡方分布圖R程式碼

df<-c(5,10,15,20,25,30)
n<-length(df)
y<-seq(0,2*max(df),length=1000)
f.y<-dchisq(y,df[1],ncp=0)
ymax<-max(f.y)
plot(y,f.y,type="c",lty=3,xlim=c(0,2*max(df)),ylim=c(0,max(f.y)+0.03),main="Chi-square distribution",ylab=quote(f(x)),xlab="x")
col.number<-1
legend.name<-as.character(1:n)
for(i in 1:n)
{
f.y<-dchisq(y,df[i],ncp=0)
legend.name[i]<-paste("n = ",df[i])
lines(y,f.y,col=col.number,lwd=2)
par(new=T)
text(df[i]+trunc(df[i]/n)+1.2,max(f.y),legend.name[i],col=col.number)
col.number<-col.number+1
}