相對風險、統計顯著性與發表偏誤 • 反智：不願說理的人是偏執

「培根像香菸一樣致癌」？看懂相對風險與絕對風險#

2015 年 10 月，WHO 旗下的「國際癌症研究機構」（IARC, International Agency for Research on Cancer）將加工肉品歸類為「Group 1 致癌物」，與香菸、輻射同級。

《Daily Express》：「培根與熱狗會致癌——幾乎和抽菸一樣糟」
《The Guardian》：「加工肉品癌症風險與抽菸、石棉相當」

但這些標題嚴重誤導。

IARC 的分類不是基於風險強度，而是基於證據強度。某物若有「強證據顯示有風險」就進入 Group 1；某物即使能讓癌症增加 10 倍，但若證據強度不夠，分類也可能更低。Group 1 包含所有「明確有風險」的物質——抽菸、酒精、陽光都在裡面。

把數字放回脈絡#

英國大腸癌的終生發生率為 61/1,000：

加工肉吃最少者：56/1,000
加工肉吃最多者：66/1,000
相對風險增加（relative risk increase）：(66-56)/56 ≈ 18%
絕對風險增加（absolute risk increase）：10/1,000 = 1%

同樣資料，「18%」 vs. 「1%」聽起來是兩個世界。媒體幾乎總是選擇較駭人的相對風險作為標題，因為它更能吸引點擊。但研究顯示：民眾對絕對風險的理解更準確。

製藥公司的相對風險把戲#

考慮一個 2,000 人臨床試驗：

安慰劑組：1 年內 5 起心臟病發作
藥物組：1 年內 4 起
絕對風險降低：1/1000 = 0.1%
相對風險降低：1/5 = 20%
必須治療人數（NNT, Number Needed to Treat）：1,000 人才能避免 1 起心臟病發作

製藥公司可以合法地宣告「20% 風險降低」這個比較好聽的版本，但若你看絕對風險，這個藥的效益相當有限。閱讀醫療資訊時，永遠要問：絕對風險是多少？必須治療人數是多少？

百分比加減的常見錯誤#

「房價先跌 50%、再漲 50% = 回到原價」嗎？

200,000 → 100,000（跌 50%）
100,000 → 150,000（漲 50%）
結果只剩 75% 的原值——百分比的基準點不同，不能簡單加減

「統計顯著性」（Statistical Significance）的本意#

科學家為新藥物 X 做試驗時：

虛無假設（null hypothesis）：X 與偏頭痛無關
對立假設：X 能減少偏頭痛頻率
受試者隨機分到實驗組（給 X）與對照組（給安慰劑）
用統計工具判斷：兩組的差異是否大到難以由「機率」解釋

統計顯著性只代表「結果不太可能純由偶然產生」，並不代表效果很大。日常語言中的「顯著」(meaningful, substantial) 與統計上的「significant」是兩回事——這是最常見的混淆。

為什麼「研究發現 X」常常後來被推翻#

John Ioannidis 2005 年的論文〈為什麼大多數已發表的研究結果是錯的〉提出了 6 條警訊：

小樣本研究：樣本越小，越容易被離群值帶偏，偽陽性比例越高
效應量小：相關係數本身存在，但效應量越小，與機率產生的雜訊越難區分
測試的關係越多、選擇越少：在同一資料中亂槍打鳥找關聯，偽陽性必然出現
設計、定義、分析模式越彈性：偏誤越容易滲入，「負結果」越容易被加工成正結果
財務或意識形態利益越大：偏誤的可能越高（不僅是金錢，意識形態同樣會偏移結論）
研究領域越「熱門」：競爭壓力下，研究者更可能搶先發表，造成「Proteus 現象」——極端主張與極端反駁交替出現

但 Ioannidis 並非說「所有科學都是錯的」——他批評的是「以單一研究、p < 0.05 為基礎就宣布結論」這類做法。在粒子物理（如 LHC）這樣假設清楚、機制明確的領域，顯著性門檻設得極高，偽陽性極為罕見。

p-value 的歷史誤用#

p-value（顯著性檢定的閾值）並非神聖數字：

由 Ronald Fisher 在 1920 年代提出，作為「值不值得多看一眼」的經驗法則
Fisher 與 Jerzy Neyman、Egon Pearson 的學派長期對立
後人把 Fisher 的非正式經驗法則塞進 Neyman/Pearson 的數學框架，賦予它從未該有的儀式地位

皇家學會院士 David Colquhoun 嘲諷：「顯著性檢定的功能是防止你出醜，而不是把不該發表的結果變得能發表。」經濟學家 Ronald Coase 的名言：「只要你拷問資料夠久，它就會招供。」這就是「P-hacking」（湊出 p < 0.05）的核心問題——大量事後檢定總會找到偶然的「顯著」關聯。

案例：替代醫療的「顯著性」幻象#

自然療法（naturopathy）支持者經常宣稱「臨床試驗顯示效果統計顯著」：

但這些「正面研究」幾乎都是小樣本、低品質
樣本一旦放大、研究品質一旦提升，效益就消失
這就是「回歸均值」（regression toward the mean）的典型場景：人通常在症狀最嚴重時就醫，之後回到較平均的狀態，被誤認為療法有效

諾貝爾獎得主 Peter Medawar：「如果一個人 (a) 生病、(b) 接受了想讓他變好的治療、(c) 變好了——醫學界沒有任何推理能說服他『讓他康復的不是治療』。」要分辨「真有效」與「自然好轉」，必須有對照組與雙盲設計。

發表偏誤（Publication Bias）#

科學期刊偏好發表「正面結果」，這帶來幾個系統性問題：

研究者為了發表，被迫「找到關聯」，即使關聯薄弱
「publish or perish」（不發表就出局）的壓力，獎勵數量而非品質
陰性結果其實同樣有價值——知道「藥物 X 無效」與知道「藥物 X 有效」一樣重要

因此回應方式是：
開放近用（Open Access）與開放資料（Open Data）運動：所有結果（含陰性）都應提交
後設分析（meta-analysis）：橫跨多項研究進行品質與規模加權
永遠視單一研究為「初步、可被修正」——科學的力量正在於它自我修正

自然頻率報告（Natural Frequency Reporting）#

人對機率語言（10%）的理解能力，遠不如對自然頻率（「100 人中 10 人」）的理解：

大量醫師在「百分比形式」的貝氏定理 HIV 題目上算錯
同樣題目改用樹狀圖與自然頻率呈現後，幾乎所有人都答對

教訓#

永遠問：相對風險還是絕對風險？必須治療人數是多少？
顯著 ≠ 重要——統計術語與日常用語意義不同
單一研究的結論幾乎一定是初步的；長期累積與後設分析才是科學論斷的基礎
警覺發表偏誤——「找不到任何反例」可能只是反例不會被發表
數字本身沒有立場，但呈現數字的方式充滿選擇——選擇正是修辭
對統計的恐懼讓我們把判斷讓給聲稱看得懂數字的人；其實本書這些基本概念並不需要專家級的數學就能掌握