健康新聞為何總是反覆?#
媒體上的「健康警訊」似乎沒完沒了:人工甜味劑會增加糖尿病風險、失業可能誘發氣喘、安眠藥提高阿茲海默症風險 ⋯⋯ 而且這些訊息常常彼此矛盾。咖啡曾經被指控導致胰臟癌,後來又被宣稱對肝癌有保護效果。
要解開謎團,理應求助於黃金標準——隨機對照試驗(RCT)。但 RCT 並非萬能。
想用 RCT 研究「素食是否更健康」、「電磁波是否致癌」? 你必須故意讓一半受試者長期暴露於可能有害的因子下,這在倫理與法律上根本走不通。
觀察性研究:替代但充滿陷阱#
少了隨機化,研究者改用觀察性研究(observational study)。常見有兩大類:
案例對照研究(case-control study)#
- 做法:找一群已患病者(cases)+ 一群相似的健康人(controls),比較兩組在「疑似風險因子」上的曝露差異
- 優點:便宜、快速,適合罕見疾病
- 缺點:無法隨機化,配對標準難拿捏;標準太寬等於沒比,太嚴又找不到對照
前瞻性世代研究(prospective cohort study)#
- 做法:找一大群現在還健康的人(cohort),長期追蹤,觀察哪些人發病
- 優點:時間順序明確,較少回想偏誤
- 缺點:耗時極久、成本高昂
案例:吸菸與肺癌#
1950 年代著名的醫學統計學家希爾(Austin Bradford Hill)與多爾(Richard Doll):
- 先做案例對照研究(1,000+ 受試者)→ 顯示吸菸者罹患肺癌風險明顯升高,且具劑量-風險關係
- 接著建立英國醫師研究:追蹤 34,000+ 名男醫師與 6,000+ 名女醫師,持續至 2001 年 → 證實吸菸者罹患肺癌風險約增 10 倍,重度吸菸者甚至 20 倍以上
這是觀察性研究最輝煌的成果之一。但要注意:劑量-風險關係不能直接證明因果——只能說「與因果一致」。
觀察性研究的反覆與失敗#
許多觀察性研究結論前後矛盾,讓媒體報導反覆來去:
- 一項分析 166 個「疾病-基因」關聯的回顧研究發現,僅 4% 在後續研究中被一致重現
- 2009 年美國 50 萬人世代研究:紅肉與癌症、心血管疾病風險相關
- 2012 年日本研究:未發現此關聯
- 2013 年歐洲研究:結果參差
最具殺傷力的證據來自 2011 年美國國家統計科學研究所的研究:
在 12 項觀察性研究中提出的 52 項主張,後續以 RCT 驗證——確認的數量為零。
評估健康新聞的清單#
希爾爵士在 1960 年代提出一系列判讀準則,可整理成以下清單:
- 研究類型為何:案例對照型偏誤較多;前瞻性世代型較可靠
- 發現有多突兀:對「無預警冒出來」、生物學上難以解釋的關聯保持高度懷疑
- 樣本規模:1,000 人聽起來大,但切分成各種子群後可能只剩數十人
- 效應大小:許多流行病學家忽略「風險未增加為兩倍以上」的單一觀察性研究
- 一致性:劑量與效應是否呈合理對應?
- 發表場所:忽略會議發表,等同行評審期刊,但即使頂級期刊也會刊登錯誤
案例:電磁場與兒童白血病#
1970 年代末期出現「家電與電線發出的電磁場(EMF)會增加兒童白血病風險」的傳聞:
- 多項案例對照研究合計分析似乎指向風險增加
- 但「最高暴露組」實際上只有幾十名案例與對照
- 缺乏可信的生物機制
- 多種干擾因素可造成假相關
2007 年美國疾病管制中心(CDC)團隊的回顧排除 EMF 為兒童白血病的重大環境風險因子。
大型前瞻性研究:百萬婦女研究#
牛津大學自 1990 年代中期起追蹤 50 歲以上婦女,到 2000 年代中期發現特定種類荷爾蒙補充療法(HRT)與乳癌風險有強烈且合理的關聯。樣本龐大,足以校正多項干擾因素。
這類規模龐大、管理嚴謹的前瞻性研究,雖不及 RCT 黃金標準,但已是觀察性研究中的最高水準,未來可能拯救數百萬人。
結語#
觀察性研究永遠無法達到雙盲 RCT 的可靠度,但常是回答關鍵問題的唯一途徑。 規模大、管理好、結論不過度延伸的觀察性研究,仍可能相當可信。 但下次讀到「小型案例對照研究指出某不太可能的風險」時——深呼吸,等它被打臉。