戈斯特 Gosset, William Sealy (1876~1937)

對於剛接觸統計學的人來說,大都沒聽聞過戈斯特這個名字,但說起“學生氏T檢定”,大概就無人不曉了。這位戈斯特先生其實就是這位“學生”的真名,因為工作的關係,無法以真名在期刊上發表文章,而選用“學生”當筆名,除了著名的T檢定外,他以“學生”的名義在生物統計期刊上發表過多篇重要的統計相關論文,且讓我們來認識這位統計史上最出名的“學生”。

戈斯特先生早先就讀於英國溫徹斯特學院(Winchester College),之後還轉入New collage, Oxford 攻讀,期間先後得到數學與化學的雙學士學位。畢業後碰巧當時著名的Guinness 啤酒公司老闆正打算雇用年輕科學家進入公司服務,以改善公司的釀酒品質,而戈斯特因為他的“化學”專長而被錄取,並持續在此間公司服務直到過世。雖說啤酒公司並非戈斯特的數學專長而雇用他,但戈斯特對公司的第一個主要貢獻卻是解決一個數學(統計)問題。

製造啤酒的重要步驟是先在瓶子內培養酵母菌,待瓶子內的酵母菌生長繁殖到適當數目後,再將瓶子內的酵母菌倒入麥芽漿中發酵以便製成啤酒,此時若倒入的酵母菌數目太少會發酵不完全,太多則增加啤酒的苦味。為了確知瓶子中酵母菌的數目,當時的做法是先從瓶子中取部分液體樣本,在顯微鏡下計算樣本中酵母菌個數,再推估瓶子中酵母菌的總數。因此如何精確的估計酵母菌數目就變成一個重要課題。

這個問題的本質與卡爾皮爾生所提出的觀念相當吻合,我們觀察到的對象是瓶子中取出的部份樣本(從中取出的酵母菌數目固定),想推估的是瓶子中酵母菌的總數,而瓶子中的酵母菌卻會不斷的繁殖或死亡,因此瓶中酵母菌的總數並非是一個固定值,而是一個會變動的數目(單位體積含有的酵母菌數目為一種機率分布)。根據檢驗實際資料,戈斯特發現此種單位體積內酵母菌數目機率分布屬於僅有一個參數的卜瓦松分佈,在知道分佈型式後,戈斯特據以設計出合適的估算式來估計參數,意即能更精確的估計酵母菌濃度,如此就能穩定的在生產過程中加入適當濃度的酵母菌,製作品質更穩定的啤酒。

戈斯特計畫發表他的酵母菌相關研究成果,但Guinness啤酒公司卻明文禁止員工發表文章,這是因為公司過去曾有員工發表文章,不經意洩露了公司啤酒生產程序中,部分的配方,為了避免商業機密再次洩露而訂下此規定。戈斯特並沒有因為這項規定而阻礙他的學術研究發表,他在卡爾‧皮爾生的鼓勵之下(註1),轉以“學生”的名義在生物統計期刊上登出此項研究成果。

戈斯特繼續研究他碰到的一個重要問題,他發現許多科學實驗中無法搜集到大量的樣本資料,而皮爾生所提出的統計方法卻都有賴大量樣本資料才能推估母體參數,戈斯特想研究是否有適當的統計方法可用來分析小樣本資料,而他的研究成果就是“學生氏T分佈”。他發現皮爾生提出的偏斜分布的四個參數中,只需要估算其中兩個參數(平均值與標準偏差),而這兩個參數的估值的比值(ratio)將會是一個已知的分佈(也就是T分佈)。

在戈斯特進行研究的同一時間裡,他還扮演著一項重要角色,就是兩位統計大師之間的中間人:一邊是已卓然有成卡爾‧皮爾生,另一邊則是以天才著稱的費雪。雖然這兩位大師都才氣過人,但因為兩人在生物統計期刊上發表文章過程中曾產生過節(可參考費雪的介紹),再加上對某些統計問題的看法相左,兩人互有嫌隙,而戈斯特與這兩位大師卻都能一直維持不錯的交情,即使有時他會向皮爾生抱怨他看不懂費雪寫的東西。

戈斯特一邊工作一邊持續統計相關研究,而Guinness啤酒公司似乎從未發現他私底下發表文章的祕密,直到1937年戈斯特因為心臟病突發去世為止,他一共發表了超過30篇期刊論文,而這位“學生”的成就,直到戈斯特的好友們齊聚在Guinness啤酒公司,想集資為戈斯特的論文出版專書,Guinness公司才訝然發現了這位“學生”的真相。

 

註1:在皮爾生擔任生物統計學期刊的主編期間,戈斯特與皮爾生相識,皮爾生很欣賞戈斯特的數學能力。戈斯特曾說服他的主管讓他到皮爾生主持的生物統計研究是進修,以便習得對公司有貢獻統計知識。