「培根像香菸一樣致癌」?看懂相對風險與絕對風險#
2015 年 10 月,WHO 旗下的「國際癌症研究機構」(IARC, International Agency for Research on Cancer)將加工肉品歸類為「Group 1 致癌物」,與香菸、輻射同級。
- 《Daily Express》:「培根與熱狗會致癌——幾乎和抽菸一樣糟」
- 《The Guardian》:「加工肉品癌症風險與抽菸、石棉相當」
但這些標題嚴重誤導。
IARC 的分類不是基於風險強度,而是基於證據強度。某物若有「強證據顯示有風險」就進入 Group 1;某物即使能讓癌症增加 10 倍,但若證據強度不夠,分類也可能更低。Group 1 包含所有「明確有風險」的物質——抽菸、酒精、陽光都在裡面。
把數字放回脈絡#
英國大腸癌的終生發生率為 61/1,000:
- 加工肉吃最少者:56/1,000
- 加工肉吃最多者:66/1,000
- 相對風險增加(relative risk increase):(66-56)/56 ≈ 18%
- 絕對風險增加(absolute risk increase):10/1,000 = 1%
同樣資料,「18%」 vs. 「1%」聽起來是兩個世界。媒體幾乎總是選擇較駭人的相對風險作為標題,因為它更能吸引點擊。但研究顯示:民眾對絕對風險的理解更準確。
製藥公司的相對風險把戲#
考慮一個 2,000 人臨床試驗:
- 安慰劑組:1 年內 5 起心臟病發作
- 藥物組:1 年內 4 起
- 絕對風險降低:1/1000 = 0.1%
- 相對風險降低:1/5 = 20%
- 必須治療人數(NNT, Number Needed to Treat):1,000 人才能避免 1 起心臟病發作
製藥公司可以合法地宣告「20% 風險降低」這個比較好聽的版本,但若你看絕對風險,這個藥的效益相當有限。閱讀醫療資訊時,永遠要問:絕對風險是多少?必須治療人數是多少?
百分比加減的常見錯誤#
「房價先跌 50%、再漲 50% = 回到原價」嗎?
- 200,000 → 100,000(跌 50%)
- 100,000 → 150,000(漲 50%)
- 結果只剩 75% 的原值——百分比的基準點不同,不能簡單加減
「統計顯著性」(Statistical Significance)的本意#
科學家為新藥物 X 做試驗時:
- 虛無假設(null hypothesis):X 與偏頭痛無關
- 對立假設:X 能減少偏頭痛頻率
- 受試者隨機分到實驗組(給 X)與對照組(給安慰劑)
- 用統計工具判斷:兩組的差異是否大到難以由「機率」解釋
統計顯著性只代表「結果不太可能純由偶然產生」,並不代表效果很大。日常語言中的「顯著」(meaningful, substantial) 與統計上的「significant」是兩回事——這是最常見的混淆。
為什麼「研究發現 X」常常後來被推翻#
John Ioannidis 2005 年的論文〈為什麼大多數已發表的研究結果是錯的〉提出了 6 條警訊:
- 小樣本研究:樣本越小,越容易被離群值帶偏,偽陽性比例越高
- 效應量小:相關係數本身存在,但效應量越小,與機率產生的雜訊越難區分
- 測試的關係越多、選擇越少:在同一資料中亂槍打鳥找關聯,偽陽性必然出現
- 設計、定義、分析模式越彈性:偏誤越容易滲入,「負結果」越容易被加工成正結果
- 財務或意識形態利益越大:偏誤的可能越高(不僅是金錢,意識形態同樣會偏移結論)
- 研究領域越「熱門」:競爭壓力下,研究者更可能搶先發表,造成「Proteus 現象」——極端主張與極端反駁交替出現
但 Ioannidis 並非說「所有科學都是錯的」——他批評的是「以單一研究、p < 0.05 為基礎就宣布結論」這類做法。在粒子物理(如 LHC)這樣假設清楚、機制明確的領域,顯著性門檻設得極高,偽陽性極為罕見。
p-value 的歷史誤用#
p-value(顯著性檢定的閾值)並非神聖數字:
- 由 Ronald Fisher 在 1920 年代提出,作為「值不值得多看一眼」的經驗法則
- Fisher 與 Jerzy Neyman、Egon Pearson 的學派長期對立
- 後人把 Fisher 的非正式經驗法則塞進 Neyman/Pearson 的數學框架,賦予它從未該有的儀式地位
皇家學會院士 David Colquhoun 嘲諷:「顯著性檢定的功能是防止你出醜,而不是把不該發表的結果變得能發表。」經濟學家 Ronald Coase 的名言:「只要你拷問資料夠久,它就會招供。」這就是「P-hacking」(湊出 p < 0.05)的核心問題——大量事後檢定總會找到偶然的「顯著」關聯。
案例:替代醫療的「顯著性」幻象#
自然療法(naturopathy)支持者經常宣稱「臨床試驗顯示效果統計顯著」:
- 但這些「正面研究」幾乎都是小樣本、低品質
- 樣本一旦放大、研究品質一旦提升,效益就消失
- 這就是「回歸均值」(regression toward the mean)的典型場景:人通常在症狀最嚴重時就醫,之後回到較平均的狀態,被誤認為療法有效
諾貝爾獎得主 Peter Medawar:「如果一個人 (a) 生病、(b) 接受了想讓他變好的治療、(c) 變好了——醫學界沒有任何推理能說服他『讓他康復的不是治療』。」要分辨「真有效」與「自然好轉」,必須有對照組與雙盲設計。
發表偏誤(Publication Bias)#
科學期刊偏好發表「正面結果」,這帶來幾個系統性問題:
- 研究者為了發表,被迫「找到關聯」,即使關聯薄弱
- 「publish or perish」(不發表就出局)的壓力,獎勵數量而非品質
- 陰性結果其實同樣有價值——知道「藥物 X 無效」與知道「藥物 X 有效」一樣重要
因此回應方式是:
- 開放近用(Open Access)與開放資料(Open Data)運動:所有結果(含陰性)都應提交
- 後設分析(meta-analysis):橫跨多項研究進行品質與規模加權
- 永遠視單一研究為「初步、可被修正」——科學的力量正在於它自我修正
自然頻率報告(Natural Frequency Reporting)#
人對機率語言(10%)的理解能力,遠不如對自然頻率(「100 人中 10 人」)的理解:
- 大量醫師在「百分比形式」的貝氏定理 HIV 題目上算錯
- 同樣題目改用樹狀圖與自然頻率呈現後,幾乎所有人都答對
教訓#
- 永遠問:相對風險還是絕對風險?必須治療人數是多少?
- 顯著 ≠ 重要——統計術語與日常用語意義不同
- 單一研究的結論幾乎一定是初步的;長期累積與後設分析才是科學論斷的基礎
- 警覺發表偏誤——「找不到任何反例」可能只是反例不會被發表
- 數字本身沒有立場,但呈現數字的方式充滿選擇——選擇正是修辭
- 對統計的恐懼讓我們把判斷讓給聲稱看得懂數字的人;其實本書這些基本概念並不需要專家級的數學就能掌握