接續第 8 章#

第 8 章談了直覺、個人經驗、案例、見證、訴諸權威。這一章續談三種更常見、份量更重的證據:

本章關鍵問題:個人觀察、研究、類比這三種證據有多好?

第六類:個人觀察(Personal Observation)#

「目擊者」常被當成最強的證據之一 —— 我們相信「親眼所見」。但人類的觀察並不像鏡子那樣客觀:

我們「看到」的內容會被自己的價值、偏見、態度、預期過濾。我們傾向看到我們想看到的。

加上糟糕的觀察條件(注意力不足、事件太快、處於壓力情境),目擊報告經常出錯。想像你站在搶劫銀行的歹徒旁邊 —— 你的描述會有多扭曲?

最可信的觀察報告通常符合:

  • 觀察時間接近事件發生時。
  • 多人同時觀察。
  • 觀察條件良好。
  • 觀察者沒有強烈的預期或偏見。

第七類:研究(Research Studies)#

研究顯示 ⋯⋯ 研究人員在最近一份調查中發現 ⋯⋯ 一份刊登在《新英格蘭醫學期刊》的報告指出 ⋯⋯

研究是一種特殊的「權威」—— 由受過訓練的人系統性地進行觀察。

科學方法的三大特色#

  • 公開可驗證(publicly verifiable):其他合格的研究者重做實驗應能得到相似結果(重複驗證 / replication)。
  • 控制(control):透過特殊程序減少觀察與詮釋的誤差,例如多位觀察者、實驗室環境。
  • 語言精確(precision in language):對概念使用一致、不模糊的定義。

研究的八項常見問題#

研究是強力的證據 —— 但研究 ≠ 真理。引用研究時,記住:

  1. 研究品質落差很大:即使刊登在學術期刊,仍可能有重大缺陷。
  2. 研究結論常彼此衝突:單一研究脫離整個研究家族,常產生誤導。要追問「有其他研究者重複驗證過嗎?」 —— Atlantic 2010 年〈Lies, Damned Lies, and Medical Science〉指出,41% 的高知名度醫學介入研究經重測後發現原結論被推翻或大幅誇大。
  3. 研究結果不能「證明」結論,只能支持結論:所有資料都需研究者解讀,而解讀方式不只一種。把「研究顯示 ⋯⋯」翻譯成「研究者把他們的發現解讀為 ⋯⋯」更準確。
  4. 研究者也是人:他們有預期、價值、需求。當美國糖業協會贊助你做研究時,你很難得出「青少年糖份攝取過量」的結論。
  5. 轉述者常扭曲或簡化結論:原作者刻意加上的條件,到了二手轉述常被去掉。
  6. 「事實」會隨時間更替,特別是人類行為的研究。例如:百憂解優於安慰劑、魚油預防失智、麻疹疫苗導致自閉 —— 這些「事實」後來都被推翻或大幅修正。
  7. 研究人為性(artificiality):為了控制變項,研究情境常與真實世界脫節。社會行為研究尤其容易過於抽離。
  8. 誘因會扭曲結果與發表決定:經費、終身職、聲望都可能左右研究者的詮釋。藥廠贊助的研究比獨立研究更常得到「對藥物有利」的結果。

但「對任何不確定就拒絕」也是一種推理錯誤 —— 不可能的確定性謬誤(Impossible Certainty Fallacy):因為某結論不是絕對確定就拒絕它。確定常常不可得,但這不代表所有結論都同樣不可信。

評估研究的十個提問#

  1. 來源品質如何?同儕審查的期刊通常較可靠。
  2. 報告中是否有特殊的研究強項?
  3. 研究做於多久之前?結論可能已過時嗎?
  4. 結果是否被其他研究重複驗證?
  5. 作者是否選擇性引用 —— 有沒有忽略反向研究?
  6. 是否表現出強意義批判性思考的態度?是否願意對自己的結論加上限定?
  7. 是否有人有理由扭曲研究?
  8. 研究條件是否人為到失去推論力?
  9. 樣本支持多廣的概化?(下一節)
  10. 問卷、調查、評量是否帶有偏誤?(下下節)

從樣本到人群:別把結論吹得太大#

把「研究中 75% 病人有效」說成「這個藥能治胰臟癌」是過度概化。樣本決定能推到多廣:

  • 大小:通常樣本越大、結論越穩。1000 名 vs. 100 名大學生。
  • 廣度:要含納足夠多元的對象。研究全美大學生喝酒,不能只在一所學校做。
  • 隨機性:所有候選對象都應有相同被選中的機會。

哪些樣本明顯有偏?

  • 自願受訪「性活動頻率」的人。
  • 只用市內電話的人。
  • 心理學概論的學生。
  • 只看 Fox 或 MSNBC 的觀眾。

沒注意樣本就把結論誇大,就會犯倉促概化(hasty generalization)。

例:

用網路交友的人多半能找到好對象。研究做了 229 名 18-65 歲線上交友者問卷。94% 與「網友」見了第二次面,平均交往超過七個月。

問題:只調查了一個網站、229 人,且不知如何抽樣。能否推到所有交友網站使用者?不能。

從研究工具到結論:測量的限制#

任何研究都需要決定怎麼測。但每種測量方法都會限定結論的適用範圍。

例:以「立刻吃 1 顆棉花糖 vs. 等 15 分鐘吃 2 顆」測量兒童的延遲享受能力。要問:棉花糖選擇是不是這個概念的好指標?換成「父母評估」會得到不同結果嗎?

評估時要追問:

  • 怎麼測的?(問卷、檢核表、行為觀察 ⋯⋯)
  • 這個測量能多準確地反映概念?
  • 如果換一種測量,結果會不會不一樣?

研究結果只能推論到它實際使用的測量方式。例如「結婚的人比較幸福」如果只憑一次問卷自評,那它就只能說:「以一次性自評為定義時,已婚的人較幸福。」

問卷與調查的偏誤#

「根據近期民調 ⋯⋯」幾乎是日常用語。但要照單全收很危險:

三種常見偏誤:

  • 回答不誠實:受訪者給「應該給」的答案、對問卷有敵意、隨便填。
  • 題目含糊:「你覺得電視上有沒有優質節目?」每個人想的都不一樣。
  • 題目用詞偏頗:「你怎麼看總統把『歐巴馬式社會主義』強加給全國的誤導行為?」與「你怎麼看總統試圖擴大健保覆蓋、降低成本的努力?」結果天差地遠。

題目脈絡也很有威力。例如先問「投票權是否該保留給 18 歲以上?」再問「應否降低飲酒年齡?」會明顯改變答題。問卷越長,後段疲勞效應越強。

對任何問卷數據都要先問:「題目怎麼問的?怎麼編排的?」評估完偏誤後,可以自己做出有條件的概化,而不是照單全收。

第八類:類比(Analogies)#

不必擔心網路會讓報紙雜誌消失 —— 畢竟微波料理也沒讓烹飪消失。 教育者必須早期挑出問題學生,因為一顆壞蛋毀整鍋蛋捲。

類比是用「我們較熟悉的 X」去推論「較陌生的 Y」 —— 假設兩者在某些重要面向相似,所以在其他面向也會相似

類比在科學與法律中極具創造力:以鼠類研究推論人類、原子結構的行星模型、法庭以先例做判決,都是類比推理。

識別類比論證#

留意:作者用一個有公認特徵的事物,來解釋一個有部分相似特徵的事物。

「重新學幾何就像騎腳踏車,一旦開始就回來了。」 —— 從一項相似(兩者皆是技能學習)推論到另一項相似(重溫即恢復)。

評估類比的兩個重點#

  • 兩者的相似與差異有哪些?
  • 這些相似與差異與類比要傳達的「底層原則」是否相關?

任何兩物總能找到某些相似 —— 強類比的條件是:相關相似多、相關差異少。

例:

我不允許家中的狗在街上亂跑,所以我憑什麼不對 16 歲女兒實施 8 點宵禁?

相似:兩者都未享有完全成人權利、都需父母保障安全。 差異(且高度相關):女兒擁有判斷對錯的高階思考能力,是人,享有自主權與被尊重的權利。這個差異破壞了類比

自我檢驗的好方法:構造對立類比#

如果你能想到另一個類比,導向相反結論,就揭露了原類比的弱點。

自製類比的步驟:

  1. 列出你研究對象的重要特徵。
  2. 腦力激盪有相似特徵的其他熟悉情境。
  3. 看那情境能否提供洞見。

例如思考色情,可以對照種族/性別玩笑、雇用歧視,或暴力電玩、動作片是否導致兒童暴力 —— 這些對照可能讓你重新看到原議題。

錯誤類比謬誤(Faulty Analogy Fallacy):類比中存在重要的、相關的差異,使類比無法成立。

嚴格說,所有類比都「不完美」 —— 視為從很弱到很強的光譜。即使是強類比也只是「啟發」,作者仍應提供其他證據支持其底層原則。

何時最能信任專家#

結合本章與第 8 章,能信任專家意見的條件是:

  • 你以系統二(慢思)而非系統一審視該意見。
  • 你讓思考帶頭、情緒跟在後 —— 不是因為「感覺對」「有趣」「能贏辯論」就採信。
  • 它通過了你已學會的關鍵問題(樣本、測量、利益衝突等)。
  • 附帶限定條件,不過度概化。
  • 它放在一個更大的研究脈絡中(不是單一吸睛研究)。
  • 它經過其他專家的批判性審視。
  • 來源是支持深入分析的書籍、期刊、嚴謹網站。

網路時代的研究警覺#

網路像「沒有警長的西部」—— 任何人都能架網站、寫部落格。看起來像權威網站的,可能背後有政治、商業、藝術目的。

即使作者可信,內容也未必可信。Stephen Colbert 曾示範在維基百科塗改條目五小時不被察覺;社運團體 The Yes Men 曾架站冒充 Dow 公司來諷刺其環境政策。

學術寫作的紀律:不要引用沒有清楚原始出處的資訊。看到引述片段,就回頭找原文 —— 因為轉述者可能誤解或斷章。