把相關誤當因果的陷阱#
混淆「相關(correlation)」與「因果(causation)」這兩個詞,往往導致我們對世界運作方式做出許多錯誤假設。
我們注意到兩件事同時發生(相關),便錯誤地斷定其中一件導致了另一件(因果),接著基於這個錯誤結論行動——做出可能深刻影響人生的決策。問題是:若不真正理解這兩個詞,這類決策無法掌握世界的真實動態,成功只能靠運氣。
相關係數的光譜#
兩個量數之間的**相關係數(correlation coefficient)**介於 -1 與 1 之間,衡量它們共享因素的相對權重:
- 零相關:共享因素極少的兩種現象,相關係數接近 0。例如把各國的自殺率對瓶裝水消費量作圖,會看不出任何規律。
- 完全相關:完全取決於同一因素的量數,相關係數為 1,圖形為一條直線。例如溫度——攝氏與華氏唯一受同一因素(分子運動速度)支配,每一攝氏度都恰好對應一個華氏值。
- 弱到中度相關:人文科學中少有相關係數為 1 的現象,但有許多介於 0 與 1 之間、彼此具部分解釋力。例如身高與體重——幾乎每個三歲孩童都比成年男子又矮又輕,但同樣身高的人體重未必相同,可見身高雖是不錯的預測指標,顯然還有其他因素在作用。
相關有時可以反向運作。假設一份研究顯示「父母飲酒量高」與「子女學業成績差」有關聯——這是因果還是相關?很可能是父母酗酒導致孩子表現差;但也可能反過來,是孩子表現差導致父母喝更多酒。試著把關係倒過來想,能幫你判斷自己面對的究竟是真正的因果,還是僅僅相關。
因果與「迴歸均值」#
只要相關並不完美,極端值就會隨時間趨於平緩:最好的看似會變差、最差的看似會變好,無論是否採取任何額外行動。這稱為迴歸均值(regression to the mean),它意味著我們在診斷因果時必須格外小心——連受過訓練的科學家有時都會忽略它。
康納曼(Daniel Kahneman)在《快思慢想》中舉例:用能量飲料治療憂鬱兒童三個月後顯著改善——這是真的,但讓他們每天倒立或抱貓二十分鐘,同樣會改善。
- 憂鬱兒童是一個「極端群體」,他們比多數孩子更憂鬱,而極端群體會隨時間迴歸均值。
- 連續測驗的憂鬱分數之間相關並不完美,因此必然出現迴歸——就算不抱貓、不喝能量飲料,這些孩子也會隨時間好轉一些。
我們常錯誤地把某項政策或療法當成效果的成因,而其實極端群體本來就會發生變化。要分辨「真實改善」與「本來就會發生的變化」,方法是引入對照組(control group)——對照組被預期僅因迴歸而改善,研究目的是判斷受治療組的改善是否超出迴歸所能解釋的範圍。
在現實中評估特定個人或團隊的表現時,往往只有「過去表現」可作基準、無法設置對照組,迴歸效應便極難(甚至無法)釐清。我們可以對照產業平均、同儕或歷史改善率,但這些都不是完美的衡量標準。