一份冷門期刊的爆炸聲明#
2015 年,名不見經傳的期刊《Basic and Applied Social Psychology》宣布:不再接受以「顯著性檢定」為依據的論文。學術圈一片譁然。
這不是學者間的小爭執,而是涉及科學研究可信度的根本問題。當研究者宣稱結果「統計顯著(statistically significant)」時,他們其實在用一套:
- 判準不可靠——容易把僥倖當作真效應
- 語意誤導——把「顯著」當作「重要」
- 多數人不懂背後邏輯
「消失的突破」現象#
數十年來,諸多科學主張在後續研究中無法重現:
- 手機與腦癌
- 高壓電線與兒童白血病
- 各種「基因關聯」
- 早餐對學習力、咖啡對某種癌症…
1995 年《Science》專題報導稱此為「消失突破之謎(Vanishing Breakthrough)」。2005 年史丹佛醫學統計學家 John Ioannidis 發表震撼論文〈Why most published research findings are false〉。
估計約 1/5 的「顯著」發現是偽陽性,部分學科更高。 全球每年科研經費約 $1.5 兆——這構成了驚天醜聞。
病根:條件機率亂翻轉#
問題核心仍是貝葉斯警告的:
$\Pr(A \mid B) \neq \Pr(B \mid A)$
範例:頭痛與腦瘤#
- $\Pr(\text{頭痛} \mid \text{腦瘤}) ≈ 50\text{–}60%$
- 直覺亂翻 → $\Pr(\text{腦瘤} \mid \text{頭痛})$ 也是 50–60%?
- 錯:頭痛非常常見、腦瘤非常罕見 → 真實機率極低
要從證據反推假設,必須加入先驗機率。否則就是「條件機率亂翻轉」的謬誤。
p 值的真面目#
1925 年費雪(Ronald Fisher)在《Statistical Methods for Research Workers》中引入 p 值:
p 值定義:假設結果只是僥倖,得到至少這麼極端結果的機率。 費雪規則:p < 5% → 稱為「統計顯著」。
為何這個定義很怪?#
研究者真正想知道的是:
- $\Pr(\text{結果是僥倖} \mid \text{觀察到的數據})$ 是否 < 5%?
- 或 $\Pr(\text{真實效應} \mid \text{觀察到的數據})$ 是否 > 95%?
但 p 值算的是相反方向!
p 值假設「結果就是僥倖」算出來,不能反過來宣稱僥倖機率就是 p 值本身。 這正是「條件機率亂翻轉」謬誤——和「頭痛 → 腦瘤」如出一轍。
費雪為何發明這怪定義?#
費雪本人深諳貝葉斯定理與條件機率,但他極度厭惡將「主觀先驗信念」帶入科學評估。 為了避開不可避免的問題,他造出了這個迂迴的 p 值。 之後幾年連他自己都警告過誤用,但為時已晚。
為何這個錯誤積重難返?#
- 1950 年代起 p 值已成為「研究革命」的標誌
- 1986 年麻州大學羅斯曼(Kenneth Rothman)擔任《American Journal of Public Health》主編期間禁用單獨使用 p 值——論文比例從 60% 銳減至 5%;他卸任後立刻反彈
- 學術社群多次想改革,都因擔心會員分裂而打退堂鼓
「可重現性危機」逼出共識#
近年「可重現性危機(replication crisis)」終於迫使整個學界正視:
- 醫學、物理、心理學、經濟學的「顯著」結論在重做時頻頻消失
- 2016 年 **美國統計學會(ASA)**史無前例呼籲學界進入「post p < 0.05 era」
- 但實際進展緩慢,期刊仍刊登搶眼但難以重現的「顯著」結論
- 教科書仍在傳授有缺陷的 p 值定義;研究指出許多自認懂 p 值的學生其實根本不懂
在採取決定性行動之前,p 值唯一可靠的「推論」就是: 它將繼續浪費研究者的時間、金錢、心力,並蛀蝕公眾對科學的信任。
結語#
為了判斷一個實驗結果是否值得當真,科學家慣用「顯著性檢定」—— 但這套方法早被多次警告為根本性瑕疵且具誤導性。 結果是一連串不可靠的「突破」,與研究者及社會大眾對科學主張的信任感持續流失。