辛普森悖論(Simpson’s Paradox)#
1973 年加州柏克萊大學被控性別歧視——表面證據看似明確:
- 男性申請者錄取率為 44%
- 女性申請者錄取率為 35%
但深入分析後出現驚人的反轉——逐系拆解時,多數系所對女性反而略微有利。
這就是「辛普森悖論」(Simpson’s paradox):分組資料中的清晰趨勢,在合併後可能消失,甚至完全反轉。
柏克萊案例的關鍵在於「潛伏變項」(lurking variable / confounding variable):
- 男性傾向申請工程等錄取率高的系所
- 女性傾向申請英語等競爭激烈的系所
- 兩性的系所選擇分布不同,扭曲了整體錄取率
- 看似「對女性不利」的整體統計,反映的是申請選擇的差異,而非錄取偏見
這個發現並不否認性別歧視在其他環節存在——研究者本身就提醒,「在錄取階段沒有可證明的偏誤,不代表整個教育過程或職涯歷程都沒有偏誤」。
案例:抽菸看似有益的假象#
英國 Whickham 村對女性死亡率的長期追蹤(20 年)顯示:
- 不抽菸者死亡率 43%
- 抽菸者死亡率 38%
直觀結論:「抽菸有益」。但這是徹底的辛普森悖論——按年齡分層後,抽菸在所有年齡組都顯著有害。整體統計被扭曲,因為被調查的抽菸者整體較年輕。
「相關 ≠ 因果」的反例展覽#
統計學家 Tyler Vigen 蒐集了大量荒謬但統計上「強相關」的對應:
- 美國乳酪消耗量 vs. 因纏在床單中身亡的人數
- 北卡羅來納州律師人數 vs. 勒頸自殺案件數
飛行麵條怪物教(Pastafarianism)的創辦人 Bobby Henderson 諷刺地指出:全球海盜數量與全球均溫呈統計上顯著的負相關——所以海盜減少導致全球暖化,請大家穿上海盜服裝阻止氣候變遷。
但統計相關並非無用——它像偵探故事中的線索:相關性不能證明嫌疑人有罪,但能告訴我們是否值得進一步調查;若一個嫌犯與案件毫無時空相關,可以將其排除。關鍵在於排除潛伏變項。
雨傘的使用與下雨高度相關——但雨傘並未引起雨。冰淇淋銷量與溺水事件正相關——但兩者的共同潛伏變項是「好天氣」。
案例:John Snow 與倫敦霍亂的「鬼地圖」#
19 世紀醫界仍信奉「瘴氣理論」(miasma theory)——以為疾病由臭氣傳播。社會改革家 Sir Edwin Chadwick 簡單一句:「所有的臭味都是疾病。」他主導了倫敦下水道改革,關閉超過 20 萬個糞坑,霍亂發生率隨之下降——這反而強化了「瘴氣理論」的說服力(共同變項:糞坑同時改善了氣味與水質)。
1854 年 8 月 31 日,倫敦 Soho 的 Broad Street 周邊爆發霍亂:
- 三天內死 127 人,3/4 居民逃離
- 醫師 John Snow 不信瘴氣論
- 他與 Henry Whitehead 牧師訪談倖存者,把死亡個案標記在地圖上
- 共同點:Broad Street 上某個水泵
潛伏變項仍存在——附近修士、釀酒廠員工幾乎沒人染病。Snow 進一步調查發現:修士只喝自釀啤酒,釀酒廠則用發酵後的水(發酵會殺死霍亂菌)。某些遠處的死者是因為偏好 Broad Street 那口井的味道而特地去取水。
當局移除了水泵把手,疫情迅速止住。後來才發現:那口井距糞坑只有 1 公尺,糞便細菌滲入水源。這是「流行病學」(epidemiology)誕生的關鍵時刻。
諷刺的後話:威脅一過,地方當局就把水泵把手裝回去——他們無法面對「糞口傳播」這個對社會輿論「太噁心」的事實。政治人物寧可顧及大眾觀感,也不顧科學證據——這個傾向跨越時代並無減弱。
案例:Theranos 與「滴血驗百病」的崩塌#
19 歲從史丹佛輟學的 Elizabeth Holmes 創辦了 Theranos:
- 使用「treatment + diagnosis」的合成字,模仿賈伯斯(Steve Jobs)的高領衫穿著與極端保密文化
- 承諾從一滴血就能診斷數十種疾病
- 2014 年公司估值達 90 億美元,Holmes 被《Forbes》封為「全球最年輕白手起家女億萬富翁」
- 董事會包含季辛吉(Henry Kissinger)、佩里(William Perry)等政治巨頭
- 2015 年她共同推動亞利桑那州法案,讓病患不需醫師處方就能自行訂血液檢驗
但科學界從未停止質疑:
- 普立茲獎記者 John Carreyrou 在《華爾街日報》揭發「Edison」儀器極不可靠,公司私下使用競爭對手的設備跑檢驗
- 2016 年 CMS(聯邦醫療保險中心)認定 Theranos 的實驗室「對病患健康構成立即危害」
- Holmes 被禁止經營實驗室至少兩年
- 2016 年 6 月 Theranos 估值被 Forbes 重新評為 0 美元
這故事除了揭穿一場龐大詐欺,更涉及一個基本的統計道理:廣撒網式的健康篩檢,不只無益,還可能造成傷害。
篩檢的兩個關鍵指標:敏感度與特異度#
- 敏感度(sensitivity / true positive rate):實際生病者有多少比例能被測出陽性
- 特異度(specificity / true negative rate):實際健康者有多少比例能被正確判為陰性
理想中兩者都應該 100%,但現實中 90% 以上就算好。HIV 檢驗的敏感度與特異度都極高,但低風險族群仍有 50% 偽陽性——這就是貝氏定理的力量。
多重檢驗悖論:「滴血驗百病」為何注定失敗#
Theranos 號稱一滴血能查 30 種疾病。即便每個獨立檢驗都有 90% 敏感度:
- 30 個獨立檢驗都不出現偽陽性的機率 = 0.90^30 ≈ 4.2%
- 因此至少出現一個偽陽性的機率 ≈ 95%
即便每個檢驗的敏感度提高到 99%,30 個檢驗中至少出現一個偽陽性的機率仍超過 25%。
醫學期刊編輯 Eleftherios P. Diamandis 直白說明:「一位 PSA 值為 20 μg/L 的人會根據統計推斷自己有 50% 機率罹患攝護腺癌,要求做切片。但如果幾天前他的 PSA 是 1 μg/L,他得癌症的機率幾乎為零,更可能的原因是良性可治的急性攝護腺炎。一位男性收到陽性『懷孕測試』結果會困惑——但訓練有素的醫師會去找睪丸癌的可能。」
換句話說:檢驗結果若沒有臨床脈絡(症狀、病史、其他檢查)支持,幾乎無法直接告訴我們什麼。
教訓#
- 辛普森悖論:分層資料的趨勢可能在合併後反轉,必須警覺潛伏變項
- 相關不等於因果——但相關仍是有用線索,前提是排除其他解釋
- 醫療篩檢的有效性不只取決於儀器準確度,還取決於:
- 基底感染率(base rate)
- 適用對象(有症狀者 vs. 無症狀者)
- 同時做多少獨立檢驗——越多項目,偽陽性累積越快
- 讓非專業者繞過醫師「自由訂檢驗」聽起來像賦權,但若沒有先驗資訊,反而把人推進不必要的恐慌與後續侵入性檢查
- 投資人若連基本統計題目都不問,就會像 Theranos 案例一樣把巨資交給海市蜃樓