抱歉教授，我不買單

「無前例」的研究怎麼辦？#

媒體幾乎每週報導某項奇怪研究：吃蛋會延壽或致死、看色情片讓男性大腦縮水、人類有「gaydar（偵測同性戀的雷達）」⋯⋯ 這些研究往往是史上第一次探討此問題，因此沒有過往知識可作貝葉斯先驗。

英國 NHS 為此設立 Behind the Headlines 網站，由專家分析每則健康新聞——而結論常是「沒什麼可信度」。

「研究問題前所未聞 + 樣本不大 + 證據單薄」——這正是「胡扯機器」最容易出毛病的場合。但要使用貝葉斯，又陷入老問題：先驗從何而來？

宣稱「對所有結果毫無偏好，全部視為等可能」——但這實質上等同把貝葉斯引擎打回胡扯機器。

讓專家估出一個「最可能的效應 + 合理上下界」，組成先驗。但專家經常錯得離譜，且若日後被打臉，怎麼撇清？

不從先驗 → 結論，改從期待的結論 → 反推所需的先驗信念。引擎告訴你：「要相信這個結論，你必須事前已相信什麼。」然後你自問：「這個先驗信念合理嗎？」

GREAT 研究宣稱「死亡率減半」（p < 4%）。把引擎反過來開：

要把這個 50% 結果視為可信，你必須事前已相信至少 90% 的死亡率減幅。這顯然太離譜——所以 GREAT 在自己的條件下都站不住腳。

七年後綜合 6,000 名病患的分析顯示真實減幅約 17%。把這個結果反推：你只要事前相信「至少 28% 減幅是合理的」就足以採信。證據已經夠強，不需要先驗扛重活。

2012 年邁阿密大學研究宣稱：每天喝低糖汽水者中風風險增加 43%。

但研究自己也指出：

把引擎反過來開：要採信 43% 的結論，你必須事前就相信實際風險至少 60%。但這是首次研究，這個信念從何而來？結論：證據過於薄弱，「統計顯著」標籤其實毫無分量。該做的是「等待更多研究」，並暫時忽略媒體報導。

顯著性檢定與 p 值自 1920 年代問世以來：
困擾學生
誤導研究者
讓社會誤以為「顯著 = 重要」
它原本是用來「篩掉明顯僥倖」的，卻變成宣告「金子或垃圾」的二元判官。

科學進步從來不是靠 true / false 二分，而是靠累積證據、漸進精修。從宇宙膨脹到 DNA 的遺傳角色到夸克結構，都是不同色階的證據合成的全景。

1920 年代起，多位數學家——包括法國的 Émile Borel、英國的 Frank Ramsey、義大利的 Bruno de Finetti——研究「如何從證據合理形成信念」：

貝葉斯推論引擎讓我們把新證據放進脈絡中，更新已知。它也能在「前所未見」的研究中告訴我們：證據其實多麼薄弱。該被送進廢鐵場的不是「明確指引」這個概念，而是簡單通過/失敗的二分法。從讀者到研究者，我們都應該擁抱對證據更細緻的態度。