「培根像香菸一樣致癌」?看懂相對風險與絕對風險#

2015 年 10 月,WHO 旗下的「國際癌症研究機構」(IARC, International Agency for Research on Cancer)將加工肉品歸類為「Group 1 致癌物」,與香菸、輻射同級。

  • 《Daily Express》:「培根與熱狗會致癌——幾乎和抽菸一樣糟」
  • 《The Guardian》:「加工肉品癌症風險與抽菸、石棉相當」

但這些標題嚴重誤導。

IARC 的分類不是基於風險強度,而是基於證據強度。某物若有「強證據顯示有風險」就進入 Group 1;某物即使能讓癌症增加 10 倍,但若證據強度不夠,分類也可能更低。Group 1 包含所有「明確有風險」的物質——抽菸、酒精、陽光都在裡面。

把數字放回脈絡#

英國大腸癌的終生發生率為 61/1,000:

  • 加工肉吃最少者:56/1,000
  • 加工肉吃最多者:66/1,000
  • 相對風險增加(relative risk increase):(66-56)/56 ≈ 18%
  • 絕對風險增加(absolute risk increase):10/1,000 = 1%

同樣資料,「18%」 vs. 「1%」聽起來是兩個世界。媒體幾乎總是選擇較駭人的相對風險作為標題,因為它更能吸引點擊。但研究顯示:民眾對絕對風險的理解更準確

製藥公司的相對風險把戲#

考慮一個 2,000 人臨床試驗:

  • 安慰劑組:1 年內 5 起心臟病發作
  • 藥物組:1 年內 4 起
  • 絕對風險降低:1/1000 = 0.1%
  • 相對風險降低:1/5 = 20%
  • 必須治療人數(NNT, Number Needed to Treat):1,000 人才能避免 1 起心臟病發作

製藥公司可以合法地宣告「20% 風險降低」這個比較好聽的版本,但若你看絕對風險,這個藥的效益相當有限。閱讀醫療資訊時,永遠要問:絕對風險是多少?必須治療人數是多少?

百分比加減的常見錯誤#

「房價先跌 50%、再漲 50% = 回到原價」嗎?

  • 200,000 → 100,000(跌 50%)
  • 100,000 → 150,000(漲 50%)
  • 結果只剩 75% 的原值——百分比的基準點不同,不能簡單加減

「統計顯著性」(Statistical Significance)的本意#

科學家為新藥物 X 做試驗時:

  • 虛無假設(null hypothesis):X 與偏頭痛無關
  • 對立假設:X 能減少偏頭痛頻率
  • 受試者隨機分到實驗組(給 X)與對照組(給安慰劑)
  • 用統計工具判斷:兩組的差異是否大到難以由「機率」解釋

統計顯著性只代表「結果不太可能純由偶然產生」,並不代表效果很大。日常語言中的「顯著」(meaningful, substantial) 與統計上的「significant」是兩回事——這是最常見的混淆。

為什麼「研究發現 X」常常後來被推翻#

John Ioannidis 2005 年的論文〈為什麼大多數已發表的研究結果是錯的〉提出了 6 條警訊:

  1. 小樣本研究:樣本越小,越容易被離群值帶偏,偽陽性比例越高
  2. 效應量小:相關係數本身存在,但效應量越小,與機率產生的雜訊越難區分
  3. 測試的關係越多、選擇越少:在同一資料中亂槍打鳥找關聯,偽陽性必然出現
  4. 設計、定義、分析模式越彈性:偏誤越容易滲入,「負結果」越容易被加工成正結果
  5. 財務或意識形態利益越大:偏誤的可能越高(不僅是金錢,意識形態同樣會偏移結論)
  6. 研究領域越「熱門」:競爭壓力下,研究者更可能搶先發表,造成「Proteus 現象」——極端主張與極端反駁交替出現

但 Ioannidis 並非說「所有科學都是錯的」——他批評的是「以單一研究、p < 0.05 為基礎就宣布結論」這類做法。在粒子物理(如 LHC)這樣假設清楚、機制明確的領域,顯著性門檻設得極高,偽陽性極為罕見。

p-value 的歷史誤用#

p-value(顯著性檢定的閾值)並非神聖數字:

  • 由 Ronald Fisher 在 1920 年代提出,作為「值不值得多看一眼」的經驗法則
  • Fisher 與 Jerzy Neyman、Egon Pearson 的學派長期對立
  • 後人把 Fisher 的非正式經驗法則塞進 Neyman/Pearson 的數學框架,賦予它從未該有的儀式地位

皇家學會院士 David Colquhoun 嘲諷:「顯著性檢定的功能是防止你出醜,而不是把不該發表的結果變得能發表。」經濟學家 Ronald Coase 的名言:「只要你拷問資料夠久,它就會招供。」這就是「P-hacking」(湊出 p < 0.05)的核心問題——大量事後檢定總會找到偶然的「顯著」關聯。

案例:替代醫療的「顯著性」幻象#

自然療法(naturopathy)支持者經常宣稱「臨床試驗顯示效果統計顯著」:

  • 但這些「正面研究」幾乎都是小樣本、低品質
  • 樣本一旦放大、研究品質一旦提升,效益就消失
  • 這就是「回歸均值」(regression toward the mean)的典型場景:人通常在症狀最嚴重時就醫,之後回到較平均的狀態,被誤認為療法有效

諾貝爾獎得主 Peter Medawar:「如果一個人 (a) 生病、(b) 接受了想讓他變好的治療、(c) 變好了——醫學界沒有任何推理能說服他『讓他康復的不是治療』。」要分辨「真有效」與「自然好轉」,必須有對照組與雙盲設計。

發表偏誤(Publication Bias)#

科學期刊偏好發表「正面結果」,這帶來幾個系統性問題:

  • 研究者為了發表,被迫「找到關聯」,即使關聯薄弱
  • publish or perish」(不發表就出局)的壓力,獎勵數量而非品質
  • 陰性結果其實同樣有價值——知道「藥物 X 無效」與知道「藥物 X 有效」一樣重要

因此回應方式是:

  • 開放近用(Open Access)與開放資料(Open Data)運動:所有結果(含陰性)都應提交
  • 後設分析(meta-analysis):橫跨多項研究進行品質與規模加權
  • 永遠視單一研究為「初步、可被修正」——科學的力量正在於它自我修正

自然頻率報告(Natural Frequency Reporting)#

人對機率語言(10%)的理解能力,遠不如對自然頻率(「100 人中 10 人」)的理解:

  • 大量醫師在「百分比形式」的貝氏定理 HIV 題目上算錯
  • 同樣題目改用樹狀圖與自然頻率呈現後,幾乎所有人都答對

教訓#

  • 永遠問:相對風險還是絕對風險?必須治療人數是多少?
  • 顯著 ≠ 重要——統計術語與日常用語意義不同
  • 單一研究的結論幾乎一定是初步的;長期累積與後設分析才是科學論斷的基礎
  • 警覺發表偏誤——「找不到任何反例」可能只是反例不會被發表
  • 數字本身沒有立場,但呈現數字的方式充滿選擇——選擇正是修辭
  • 對統計的恐懼讓我們把判斷讓給聲稱看得懂數字的人;其實本書這些基本概念並不需要專家級的數學就能掌握