為何學界仍離不開「胡扯機器」?#

貝葉斯推論引擎能對「結果是不是僥倖」這類問題給出直接答案,那為什麼大家還在用 p 值——一位資深研究者口中**「在學生訓練中被制度化的最腦殘程序」**?

兩個原因:

  1. 貝葉斯方法數學常需電腦輔助,曾長期是高門檻
  2. **「先驗難題」**仍讓研究者覺得棘手——主觀會不會混入科學?

但回頭想:在累積數十年知識後,讓新研究與既有知識對話究竟是「問題」,還是優勢?

案例:藥物業的不便真相#

2003 年 12 月,葛蘭素史克(GSK)資深主管 Allen Roses 上頭條:他承認多數藥物對多數人無效。對藥物研究者而言這不是新聞——「奇蹟療法」其實少之又少。

但藥品審核機構仍依賴顯著性檢定,不給「過去經驗」表達的位置。貝葉斯推論引擎則能容納兩者——當新主張違背過往經驗時,它會發出警報。

案例:GREAT 試驗#

1992 年蘇格蘭研究團隊發表 GREAT(Grampian Region Early Anistreplase Trial)

  • 研究心臟病溶栓藥 anistreplase 在「到院前」就由醫師注射的效果
  • 結果:死亡率減半
  • p 值 4%,「統計顯著」
  • 媒體當作重大突破

但專家觀感保守:「和過去經驗差距太大」。

Bayesian 預測:減幅將縮水#

英國醫學統計學家 Pocock 與 Spiegelhalter 為 BMJ 撰文,把 GREAT 結果與既有知識結合:

  • 用「可信先驗區間(credible prior interval)」表達現有知識
  • 結合後預測真實減幅約 25%

七年後的驗證#

2000 年的綜合分析(涵蓋 6,000 名病患,是 GREAT 的 20 倍)顯示:

  • 真實減幅約 17%
  • 雖然 GREAT 結果褪色,但貝葉斯預測非常接近實際結果
  • 由於預測在多年前就發表,無法被指控事後諸葛

Pocock 與 Spiegelhalter 證明:把新研究擺進既有知識的脈絡中,會大幅改變對結論的解讀

信賴區間(CI)也好不到哪去#

GREAT 報告中提供「95% 信賴區間」:相對死亡風險 0.47(0.23 至 0.97):

  • 看似砍掉 53% 死亡風險,下界 3%、上界 77%
  • 解讀的「正確」前提卻包含兩個大條件:
    1. 完全無視先驗
    2. 唯一不確定來源是隨機波動

CI 比 p 值資訊量多——尤其區間寬度反映證據強弱。 但若不結合貝葉斯,仍可能誤導大眾。

「主觀先驗」的批評可成立嗎?#

質疑:「如果有人故意挑選對自己有利的先驗呢?」

研究者從來都會用主觀經驗評斷新發現——午餐時間的「我就是不信這結果」、「這聽起來合理」屢見不鮮。 顯著性檢定根本沒有阻止這種主觀,只是把它藏在陰影裡,讓人用搖頭與手勢取代量化討論。 貝葉斯定理則強迫每個人公開列出自己採用的先驗,把主觀晾在陽光下。

證據累積會稀釋先驗#

貝葉斯引擎的內建機制保證:資料越多,初始先驗越不重要。 除非用了荒謬的先驗,否則懷疑論者與信徒最終會被導向同一結論——這是任何午餐爭論都做不到的。

結語#

評估新發現的合理性,本質上就是把它擺進「我們已知的脈絡」中。 過去這個過程往往只比「這聽起來合理」好一點。 貝葉斯定理提供一致、透明、量化的方式,讓我們嚴謹地衡量新發現的可信度。