一份冷門期刊的爆炸聲明#

2015 年,名不見經傳的期刊《Basic and Applied Social Psychology》宣布:不再接受以「顯著性檢定」為依據的論文。學術圈一片譁然。

這不是學者間的小爭執,而是涉及科學研究可信度的根本問題。當研究者宣稱結果「統計顯著(statistically significant)」時,他們其實在用一套:

  • 判準不可靠——容易把僥倖當作真效應
  • 語意誤導——把「顯著」當作「重要」
  • 多數人不懂背後邏輯

「消失的突破」現象#

數十年來,諸多科學主張在後續研究中無法重現:

  • 手機與腦癌
  • 高壓電線與兒童白血病
  • 各種「基因關聯」
  • 早餐對學習力、咖啡對某種癌症…

1995 年《Science》專題報導稱此為「消失突破之謎(Vanishing Breakthrough)」。2005 年史丹佛醫學統計學家 John Ioannidis 發表震撼論文〈Why most published research findings are false〉。

估計約 1/5 的「顯著」發現是偽陽性,部分學科更高。 全球每年科研經費約 $1.5 兆——這構成了驚天醜聞。

病根:條件機率亂翻轉#

問題核心仍是貝葉斯警告的:

$\Pr(A \mid B) \neq \Pr(B \mid A)$

範例:頭痛與腦瘤#

  • $\Pr(\text{頭痛} \mid \text{腦瘤}) ≈ 50\text{–}60%$
  • 直覺亂翻 → $\Pr(\text{腦瘤} \mid \text{頭痛})$ 也是 50–60%?
  • :頭痛非常常見、腦瘤非常罕見 → 真實機率極低

要從證據反推假設,必須加入先驗機率。否則就是「條件機率亂翻轉」的謬誤。

p 值的真面目#

1925 年費雪(Ronald Fisher)在《Statistical Methods for Research Workers》中引入 p 值

p 值定義:假設結果只是僥倖,得到至少這麼極端結果的機率。 費雪規則:p < 5% → 稱為「統計顯著」。

為何這個定義很怪?#

研究者真正想知道的是:

  • $\Pr(\text{結果是僥倖} \mid \text{觀察到的數據})$ 是否 < 5%?
  • 或 $\Pr(\text{真實效應} \mid \text{觀察到的數據})$ 是否 > 95%?

但 p 值算的是相反方向!

p 值假設「結果就是僥倖」算出來,不能反過來宣稱僥倖機率就是 p 值本身。 這正是「條件機率亂翻轉」謬誤——和「頭痛 → 腦瘤」如出一轍。

費雪為何發明這怪定義?#

費雪本人深諳貝葉斯定理與條件機率,但他極度厭惡將「主觀先驗信念」帶入科學評估。 為了避開不可避免的問題,他造出了這個迂迴的 p 值。 之後幾年連他自己都警告過誤用,但為時已晚。

為何這個錯誤積重難返?#

  • 1950 年代起 p 值已成為「研究革命」的標誌
  • 1986 年麻州大學羅斯曼(Kenneth Rothman)擔任《American Journal of Public Health》主編期間禁用單獨使用 p 值——論文比例從 60% 銳減至 5%;他卸任後立刻反彈
  • 學術社群多次想改革,都因擔心會員分裂而打退堂鼓

「可重現性危機」逼出共識#

近年「可重現性危機(replication crisis)」終於迫使整個學界正視:

  • 醫學、物理、心理學、經濟學的「顯著」結論在重做時頻頻消失
  • 2016 年 **美國統計學會(ASA)**史無前例呼籲學界進入「post p < 0.05 era
  • 但實際進展緩慢,期刊仍刊登搶眼但難以重現的「顯著」結論
  • 教科書仍在傳授有缺陷的 p 值定義;研究指出許多自認懂 p 值的學生其實根本不懂

在採取決定性行動之前,p 值唯一可靠的「推論」就是: 它將繼續浪費研究者的時間、金錢、心力,並蛀蝕公眾對科學的信任。

結語#

為了判斷一個實驗結果是否值得當真,科學家慣用「顯著性檢定」—— 但這套方法早被多次警告為根本性瑕疵且具誤導性。 結果是一連串不可靠的「突破」,與研究者及社會大眾對科學主張的信任感持續流失。