卡爾‧皮爾生 Karl Pearson (1857~1936)

卡爾‧皮爾生是二十世紀初統計革命的引領者之一,他最重要的貢獻是將機率分布的觀念與統計方法帶入到科學研究之中,並發展出許多重要的統計理論及方法如著名的卡方適合度檢定(chi square goodness of fit) *1。在20世紀中期,他在統計方面的名聲雖仍被一些後起之秀(如費雪,及他自己的兒子艾根皮爾生)所掩蓋,但不可否認的是,他所帶來的影響至今人深深留在科學研究乃至一般人的觀念常識之中。

卡爾‧皮爾生是個興趣廣泛的學者,年輕時就讀於英國劍橋國王學院數學系並以以優異的成績畢業,而後曾利用一年多時間到德國海德堡大學修習德國文學與政治學,在留學期間,皮爾生曾傾慕於馬克思(Karl Marx)的理論從而將自己原來的名字Carl改成Karl。回到英國後,皮爾生已能精通德國文學,甚至因此得到了他的第一份工作:在劍橋大學教授德語。此後他又曾到Inner Temple 修習法律,學成後陸續至倫敦國王學院及倫敦大學數學系擔任代理教授及教授職位。雖然卡爾‧皮爾生通曉各領域的知識,但他最感興趣的還是科學哲學及數學模型的本質,他在1880年出版了一本『科學的文法』(The Grammar of Science)內容探討科學與數學的本質及科學研究的方法,這本重要的著作對後來許多偉大的科學家產生久遠的影響,甚至是愛因斯坦對於相對運動的概念也是由此書而來。雖然距離此書面市已超過一百多年,書中的闡釋的理念與洞見至今讀來仍可使讀者獲益匪淺。

卡爾‧皮爾生與統計的結緣,可推溯至與英國優生學家高騰(Francis Galton)及動物學家維爾頓(Raphael Weldon)的相識。當時達爾文的學說正在學界掀起一陣熱潮,而他們三人也致力於利用生物學上的資料來為達爾文的演化論提供證據。他們合辦了「生物統計期刊」(Biometrica),用來發表相關研究成果。起初三人之中的高騰是研究親代的性狀(如智力或身高)如何遺傳到下一代,高騰成立了「生物統計研究室」(Biometrical Laboratory)並進行一連串對特定性狀量測的實驗,試圖找出是否能透過精確的數學式子或模型來描述他所量測到的資料。他發現到資料呈現出一種稱做【向平均數回歸】(regression to the mean)的現象,也就是身高特高的父母其小孩會較父母矮些,而身高很矮的父母其小孩會較父母高些,也就是小孩的身高會漸趨近於平均身高。接著高騰提出一個數學量測,稱為【相關係數】可用來度量此種關係。從這個相關係數的公式開始,高騰其實已經開始接近統計革命的核心觀念,但真正把這觀念發揚光大的卻是卡爾‧皮爾生。

早先人們認為實驗中的觀測值包含誤差,此誤差是屬於一種機率分佈,從而造成相同實驗卻會得到些微差異。皮爾生根據生物相關研究數據,提出一了個全新的概念:「觀測值本身就屬於一種機率分布」,意即我們觀測或實驗的對像本身就是一種可利用數學函數來表示的機率分布,而每次實驗得到的觀測值不過是此分布之中的隨機數字,因此我們真正該關心的應該是觀測值的機率分布而不是個別的觀測值。這也是皮爾生在他眾多的研究發表中最終所遺留的革命性觀念:「科學的主體並非“觀測值”而是研究描述機率與觀測值之間關係的“機率分布函數”」。

卡爾‧皮爾生宣稱,他發現了一組“偏斜分佈”,能用來描述所有科學家所可能採集到的數據之機率分布函數*2,這組偏斜分佈裡的每個分佈函數均可由四個“參數”來決定,這些參數的真正值永遠無法得知,但可以從實際數據(觀測值)來推斷(估計)。

截至目前為止,沒有任何一個領域的科學能自外於這場統計革命,醫藥學家利用合適的數學機率分佈模型來描述長期存活(long-term survival)資料中各種處裡可能帶來的效應,社會學家和經濟學家也利用數學機率分布模型描述人類與社會的行為,物理學家利用數學機率分布模型來描述次原子粒(subatomic particles)。雖然有一派科學家宣稱這種利用機率分布的方法不過是暫時的解決方案,科學終將回歸十九世紀時期決定論的觀點,就如愛因斯坦所說的名言:「上帝不擲骰子」。但另一派的科學家則堅信自然的本質就是隨機的,無論雙方的觀點孰是孰非,卡爾‧皮爾生提出的關於機率分布與參數的概念到了二十一世紀初仍占據科學的主流位置呢。

 

註1:卡方適合度檢定(goodness of fit):藉由比較觀測值與預測值,可建構出一個統計量用來檢驗實際資料是否符合特定的機率分布。

註2:黎曼(Jerzy Neyman)於1930年證明了並非所有數據都能由偏斜分佈來描述。!