顯著性的醜聞

一份冷門期刊的爆炸聲明#

2015 年，名不見經傳的期刊《Basic and Applied Social Psychology》宣布：不再接受以「顯著性檢定」為依據的論文。學術圈一片譁然。

這不是學者間的小爭執，而是涉及科學研究可信度的根本問題。當研究者宣稱結果「統計顯著（statistically significant）」時，他們其實在用一套：

數十年來，諸多科學主張在後續研究中無法重現：

1995 年《Science》專題報導稱此為「消失突破之謎（Vanishing Breakthrough）」。2005 年史丹佛醫學統計學家 John Ioannidis 發表震撼論文〈Why most published research findings are false〉。

估計約 1/5 的「顯著」發現是偽陽性，部分學科更高。全球每年科研經費約 $1.5 兆——這構成了驚天醜聞。

問題核心仍是貝葉斯警告的：

$\Pr(A \mid B) \neq \Pr(B \mid A)$

要從證據反推假設，必須加入先驗機率。否則就是「條件機率亂翻轉」的謬誤。

1925 年費雪（Ronald Fisher）在《Statistical Methods for Research Workers》中引入 p 值：

p 值定義：假設結果只是僥倖，得到至少這麼極端結果的機率。費雪規則：p < 5% → 稱為「統計顯著」。

研究者真正想知道的是：

但 p 值算的是相反方向！

p 值假設「結果就是僥倖」算出來，不能反過來宣稱僥倖機率就是 p 值本身。這正是「條件機率亂翻轉」謬誤——和「頭痛 → 腦瘤」如出一轍。

費雪本人深諳貝葉斯定理與條件機率，但他極度厭惡將「主觀先驗信念」帶入科學評估。為了避開不可避免的問題，他造出了這個迂迴的 p 值。之後幾年連他自己都警告過誤用，但為時已晚。

1950 年代起 p 值已成為「研究革命」的標誌
1986 年麻州大學羅斯曼（Kenneth Rothman）擔任《American Journal of Public Health》主編期間禁用單獨使用 p 值——論文比例從 60% 銳減至 5%；他卸任後立刻反彈
學術社群多次想改革，都因擔心會員分裂而打退堂鼓

近年「可重現性危機（replication crisis）」終於迫使整個學界正視：

在採取決定性行動之前，p 值唯一可靠的「推論」就是： 它將繼續浪費研究者的時間、金錢、心力，並蛀蝕公眾對科學的信任。

為了判斷一個實驗結果是否值得當真，科學家慣用「顯著性檢定」—— 但這套方法早被多次警告為根本性瑕疵且具誤導性。結果是一連串不可靠的「突破」，與研究者及社會大眾對科學主張的信任感持續流失。