為何學界仍離不開「胡扯機器」?#
貝葉斯推論引擎能對「結果是不是僥倖」這類問題給出直接答案,那為什麼大家還在用 p 值——一位資深研究者口中**「在學生訓練中被制度化的最腦殘程序」**?
兩個原因:
- 貝葉斯方法數學常需電腦輔助,曾長期是高門檻
- **「先驗難題」**仍讓研究者覺得棘手——主觀會不會混入科學?
但回頭想:在累積數十年知識後,讓新研究與既有知識對話究竟是「問題」,還是優勢?
案例:藥物業的不便真相#
2003 年 12 月,葛蘭素史克(GSK)資深主管 Allen Roses 上頭條:他承認多數藥物對多數人無效。對藥物研究者而言這不是新聞——「奇蹟療法」其實少之又少。
但藥品審核機構仍依賴顯著性檢定,不給「過去經驗」表達的位置。貝葉斯推論引擎則能容納兩者——當新主張違背過往經驗時,它會發出警報。
案例:GREAT 試驗#
1992 年蘇格蘭研究團隊發表 GREAT(Grampian Region Early Anistreplase Trial):
- 研究心臟病溶栓藥 anistreplase 在「到院前」就由醫師注射的效果
- 結果:死亡率減半
- p 值 4%,「統計顯著」
- 媒體當作重大突破
但專家觀感保守:「和過去經驗差距太大」。
Bayesian 預測:減幅將縮水#
英國醫學統計學家 Pocock 與 Spiegelhalter 為 BMJ 撰文,把 GREAT 結果與既有知識結合:
- 用「可信先驗區間(credible prior interval)」表達現有知識
- 結合後預測真實減幅約 25%
七年後的驗證#
2000 年的綜合分析(涵蓋 6,000 名病患,是 GREAT 的 20 倍)顯示:
- 真實減幅約 17%
- 雖然 GREAT 結果褪色,但貝葉斯預測非常接近實際結果
- 由於預測在多年前就發表,無法被指控事後諸葛
Pocock 與 Spiegelhalter 證明:把新研究擺進既有知識的脈絡中,會大幅改變對結論的解讀。
信賴區間(CI)也好不到哪去#
GREAT 報告中提供「95% 信賴區間」:相對死亡風險 0.47(0.23 至 0.97):
- 看似砍掉 53% 死亡風險,下界 3%、上界 77%
- 解讀的「正確」前提卻包含兩個大條件:
- 完全無視先驗
- 唯一不確定來源是隨機波動
CI 比 p 值資訊量多——尤其區間寬度反映證據強弱。 但若不結合貝葉斯,仍可能誤導大眾。
「主觀先驗」的批評可成立嗎?#
質疑:「如果有人故意挑選對自己有利的先驗呢?」
研究者從來都會用主觀經驗評斷新發現——午餐時間的「我就是不信這結果」、「這聽起來合理」屢見不鮮。 顯著性檢定根本沒有阻止這種主觀,只是把它藏在陰影裡,讓人用搖頭與手勢取代量化討論。 貝葉斯定理則強迫每個人公開列出自己採用的先驗,把主觀晾在陽光下。
證據累積會稀釋先驗#
貝葉斯引擎的內建機制保證:資料越多,初始先驗越不重要。 除非用了荒謬的先驗,否則懷疑論者與信徒最終會被導向同一結論——這是任何午餐爭論都做不到的。
結語#
評估新發現的合理性,本質上就是把它擺進「我們已知的脈絡」中。 過去這個過程往往只比「這聽起來合理」好一點。 貝葉斯定理提供一致、透明、量化的方式,讓我們嚴謹地衡量新發現的可信度。