健康新聞為何總是反覆?#

媒體上的「健康警訊」似乎沒完沒了:人工甜味劑會增加糖尿病風險、失業可能誘發氣喘、安眠藥提高阿茲海默症風險 ⋯⋯ 而且這些訊息常常彼此矛盾。咖啡曾經被指控導致胰臟癌,後來又被宣稱對肝癌有保護效果。

要解開謎團,理應求助於黃金標準——隨機對照試驗(RCT)。但 RCT 並非萬能。

想用 RCT 研究「素食是否更健康」、「電磁波是否致癌」? 你必須故意讓一半受試者長期暴露於可能有害的因子下,這在倫理與法律上根本走不通。

觀察性研究:替代但充滿陷阱#

少了隨機化,研究者改用觀察性研究(observational study)。常見有兩大類:

案例對照研究(case-control study)#

  • 做法:找一群已患病者(cases)+ 一群相似的健康人(controls),比較兩組在「疑似風險因子」上的曝露差異
  • 優點:便宜、快速,適合罕見疾病
  • 缺點:無法隨機化,配對標準難拿捏;標準太寬等於沒比,太嚴又找不到對照

前瞻性世代研究(prospective cohort study)#

  • 做法:找一大群現在還健康的人(cohort),長期追蹤,觀察哪些人發病
  • 優點:時間順序明確,較少回想偏誤
  • 缺點:耗時極久、成本高昂

案例:吸菸與肺癌#

1950 年代著名的醫學統計學家希爾(Austin Bradford Hill)與多爾(Richard Doll):

  1. 先做案例對照研究(1,000+ 受試者)→ 顯示吸菸者罹患肺癌風險明顯升高,且具劑量-風險關係
  2. 接著建立英國醫師研究:追蹤 34,000+ 名男醫師與 6,000+ 名女醫師,持續至 2001 年 → 證實吸菸者罹患肺癌風險約增 10 倍,重度吸菸者甚至 20 倍以上

這是觀察性研究最輝煌的成果之一。但要注意:劑量-風險關係不能直接證明因果——只能說「與因果一致」。

觀察性研究的反覆與失敗#

許多觀察性研究結論前後矛盾,讓媒體報導反覆來去:

  • 一項分析 166 個「疾病-基因」關聯的回顧研究發現,僅 4% 在後續研究中被一致重現
  • 2009 年美國 50 萬人世代研究:紅肉與癌症、心血管疾病風險相關
  • 2012 年日本研究:未發現此關聯
  • 2013 年歐洲研究:結果參差

最具殺傷力的證據來自 2011 年美國國家統計科學研究所的研究:

在 12 項觀察性研究中提出的 52 項主張,後續以 RCT 驗證——確認的數量為零

評估健康新聞的清單#

希爾爵士在 1960 年代提出一系列判讀準則,可整理成以下清單:

  • 研究類型為何:案例對照型偏誤較多;前瞻性世代型較可靠
  • 發現有多突兀:對「無預警冒出來」、生物學上難以解釋的關聯保持高度懷疑
  • 樣本規模:1,000 人聽起來大,但切分成各種子群後可能只剩數十人
  • 效應大小:許多流行病學家忽略「風險未增加為兩倍以上」的單一觀察性研究
  • 一致性:劑量與效應是否呈合理對應?
  • 發表場所:忽略會議發表,等同行評審期刊,但即使頂級期刊也會刊登錯誤

案例:電磁場與兒童白血病#

1970 年代末期出現「家電與電線發出的電磁場(EMF)會增加兒童白血病風險」的傳聞:

  • 多項案例對照研究合計分析似乎指向風險增加
  • 但「最高暴露組」實際上只有幾十名案例與對照
  • 缺乏可信的生物機制
  • 多種干擾因素可造成假相關

2007 年美國疾病管制中心(CDC)團隊的回顧排除 EMF 為兒童白血病的重大環境風險因子。

大型前瞻性研究:百萬婦女研究#

牛津大學自 1990 年代中期起追蹤 50 歲以上婦女,到 2000 年代中期發現特定種類荷爾蒙補充療法(HRT)與乳癌風險有強烈且合理的關聯。樣本龐大,足以校正多項干擾因素。

這類規模龐大、管理嚴謹的前瞻性研究,雖不及 RCT 黃金標準,但已是觀察性研究中的最高水準,未來可能拯救數百萬人。

結語#

觀察性研究永遠無法達到雙盲 RCT 的可靠度,但常是回答關鍵問題的唯一途徑。 規模大、管理好、結論不過度延伸的觀察性研究,仍可能相當可信。 但下次讀到「小型案例對照研究指出某不太可能的風險」時——深呼吸,等它被打臉。