「無前例」的研究怎麼辦?#

媒體幾乎每週報導某項奇怪研究:吃蛋會延壽或致死、看色情片讓男性大腦縮水、人類有「gaydar(偵測同性戀的雷達)」⋯⋯ 這些研究往往是史上第一次探討此問題,因此沒有過往知識可作貝葉斯先驗。

英國 NHS 為此設立 Behind the Headlines 網站,由專家分析每則健康新聞——而結論常是「沒什麼可信度」。

「研究問題前所未聞 + 樣本不大 + 證據單薄」——這正是「胡扯機器」最容易出毛病的場合。 但要使用貝葉斯,又陷入老問題:先驗從何而來

處理「無先驗」的三種選擇#

選項 1:使用「無資訊先驗」#

宣稱「對所有結果毫無偏好,全部視為等可能」——但這實質上等同把貝葉斯引擎打回胡扯機器。

選項 2:請專家做「先驗引出(prior elicitation)」#

讓專家估出一個「最可能的效應 + 合理上下界」,組成先驗。但專家經常錯得離譜,且若日後被打臉,怎麼撇清?

選項 3:把貝葉斯引擎「反過來開#

不從先驗 → 結論,改從期待的結論 → 反推所需的先驗信念。 引擎告訴你:「要相信這個結論,你必須事前已相信什麼。」 然後你自問:「這個先驗信念合理嗎?

案例:GREAT 研究反推#

GREAT 研究宣稱「死亡率減半」(p < 4%)。把引擎反過來開:

要把這個 50% 結果視為可信,你必須事前已相信至少 90% 的死亡率減幅。 這顯然太離譜——所以 GREAT 在自己的條件下都站不住腳。

七年後綜合 6,000 名病患的分析顯示真實減幅約 17%。把這個結果反推:你只要事前相信「至少 28% 減幅是合理的」就足以採信。 證據已經夠強,不需要先驗扛重活。

案例:低糖飲料與中風#

2012 年邁阿密大學研究宣稱:每天喝低糖汽水者中風風險增加 43%

但研究自己也指出:

  • 雖整體研究人多,但這個 43% 數字來自不到 10% 的子群
  • 這是史上第一個做此宣稱的研究

把引擎反過來開:要採信 43% 的結論,你必須事前就相信實際風險至少 60%。 但這是首次研究,這個信念從何而來? 結論:證據過於薄弱,「統計顯著」標籤其實毫無分量。 該做的是「等待更多研究」,並暫時忽略媒體報導。

為何不能單純依靠胡扯機器#

顯著性檢定與 p 值自 1920 年代問世以來:

  • 困擾學生
  • 誤導研究者
  • 讓社會誤以為「顯著 = 重要」

它原本是用來「篩掉明顯僥倖」的,卻變成宣告「金子或垃圾」的二元判官。

科學進步從來不是靠 true / false 二分,而是靠累積證據、漸進精修。從宇宙膨脹到 DNA 的遺傳角色到夸克結構,都是不同色階的證據合成的全景。

貝葉斯與「合理推論」的數學基礎#

1920 年代起,多位數學家——包括法國的 Émile Borel、英國的 Frank Ramsey、義大利的 Bruno de Finetti——研究「如何從證據合理形成信念」:

  • 結論:任何理性可靠的推論方式都必須遵循機率法則
  • 而貝葉斯定理正是更新信念的核心
  • 近年研究更進一步證明:這個連結不只是合理,而是無可逃避

結語#

貝葉斯推論引擎讓我們把新證據放進脈絡中,更新已知。 它也能在「前所未見」的研究中告訴我們:證據其實多麼薄弱。 該被送進廢鐵場的不是「明確指引」這個概念,而是簡單通過/失敗的二分法。 從讀者到研究者,我們都應該擁抱對證據更細緻的態度。