接續第 8 章#
第 8 章談了直覺、個人經驗、案例、見證、訴諸權威。這一章續談三種更常見、份量更重的證據:
本章關鍵問題:個人觀察、研究、類比這三種證據有多好?
第六類:個人觀察(Personal Observation)#
「目擊者」常被當成最強的證據之一 —— 我們相信「親眼所見」。但人類的觀察並不像鏡子那樣客觀:
我們「看到」的內容會被自己的價值、偏見、態度、預期過濾。我們傾向看到我們想看到的。
加上糟糕的觀察條件(注意力不足、事件太快、處於壓力情境),目擊報告經常出錯。想像你站在搶劫銀行的歹徒旁邊 —— 你的描述會有多扭曲?
最可信的觀察報告通常符合:
- 觀察時間接近事件發生時。
- 多人同時觀察。
- 觀察條件良好。
- 觀察者沒有強烈的預期或偏見。
第七類:研究(Research Studies)#
研究顯示 ⋯⋯ 研究人員在最近一份調查中發現 ⋯⋯ 一份刊登在《新英格蘭醫學期刊》的報告指出 ⋯⋯
研究是一種特殊的「權威」—— 由受過訓練的人系統性地進行觀察。
科學方法的三大特色#
- 公開可驗證(publicly verifiable):其他合格的研究者重做實驗應能得到相似結果(重複驗證 / replication)。
- 控制(control):透過特殊程序減少觀察與詮釋的誤差,例如多位觀察者、實驗室環境。
- 語言精確(precision in language):對概念使用一致、不模糊的定義。
研究的八項常見問題#
研究是強力的證據 —— 但研究 ≠ 真理。引用研究時,記住:
- 研究品質落差很大:即使刊登在學術期刊,仍可能有重大缺陷。
- 研究結論常彼此衝突:單一研究脫離整個研究家族,常產生誤導。要追問「有其他研究者重複驗證過嗎?」 —— Atlantic 2010 年〈Lies, Damned Lies, and Medical Science〉指出,41% 的高知名度醫學介入研究經重測後發現原結論被推翻或大幅誇大。
- 研究結果不能「證明」結論,只能支持結論:所有資料都需研究者解讀,而解讀方式不只一種。把「研究顯示 ⋯⋯」翻譯成「研究者把他們的發現解讀為 ⋯⋯」更準確。
- 研究者也是人:他們有預期、價值、需求。當美國糖業協會贊助你做研究時,你很難得出「青少年糖份攝取過量」的結論。
- 轉述者常扭曲或簡化結論:原作者刻意加上的條件,到了二手轉述常被去掉。
- 「事實」會隨時間更替,特別是人類行為的研究。例如:百憂解優於安慰劑、魚油預防失智、麻疹疫苗導致自閉 —— 這些「事實」後來都被推翻或大幅修正。
- 研究人為性(artificiality):為了控制變項,研究情境常與真實世界脫節。社會行為研究尤其容易過於抽離。
- 誘因會扭曲結果與發表決定:經費、終身職、聲望都可能左右研究者的詮釋。藥廠贊助的研究比獨立研究更常得到「對藥物有利」的結果。
但「對任何不確定就拒絕」也是一種推理錯誤 —— 不可能的確定性謬誤(Impossible Certainty Fallacy):因為某結論不是絕對確定就拒絕它。確定常常不可得,但這不代表所有結論都同樣不可信。
評估研究的十個提問#
- 來源品質如何?同儕審查的期刊通常較可靠。
- 報告中是否有特殊的研究強項?
- 研究做於多久之前?結論可能已過時嗎?
- 結果是否被其他研究重複驗證?
- 作者是否選擇性引用 —— 有沒有忽略反向研究?
- 是否表現出強意義批判性思考的態度?是否願意對自己的結論加上限定?
- 是否有人有理由扭曲研究?
- 研究條件是否人為到失去推論力?
- 樣本支持多廣的概化?(下一節)
- 問卷、調查、評量是否帶有偏誤?(下下節)
從樣本到人群:別把結論吹得太大#
把「研究中 75% 病人有效」說成「這個藥能治胰臟癌」是過度概化。樣本決定能推到多廣:
- 大小:通常樣本越大、結論越穩。1000 名 vs. 100 名大學生。
- 廣度:要含納足夠多元的對象。研究全美大學生喝酒,不能只在一所學校做。
- 隨機性:所有候選對象都應有相同被選中的機會。
哪些樣本明顯有偏?
- 自願受訪「性活動頻率」的人。
- 只用市內電話的人。
- 心理學概論的學生。
- 只看 Fox 或 MSNBC 的觀眾。
沒注意樣本就把結論誇大,就會犯倉促概化(hasty generalization)。
例:
用網路交友的人多半能找到好對象。研究做了 229 名 18-65 歲線上交友者問卷。94% 與「網友」見了第二次面,平均交往超過七個月。
問題:只調查了一個網站、229 人,且不知如何抽樣。能否推到所有交友網站使用者?不能。
從研究工具到結論:測量的限制#
任何研究都需要決定怎麼測。但每種測量方法都會限定結論的適用範圍。
例:以「立刻吃 1 顆棉花糖 vs. 等 15 分鐘吃 2 顆」測量兒童的延遲享受能力。要問:棉花糖選擇是不是這個概念的好指標?換成「父母評估」會得到不同結果嗎?
評估時要追問:
- 怎麼測的?(問卷、檢核表、行為觀察 ⋯⋯)
- 這個測量能多準確地反映概念?
- 如果換一種測量,結果會不會不一樣?
研究結果只能推論到它實際使用的測量方式。例如「結婚的人比較幸福」如果只憑一次問卷自評,那它就只能說:「以一次性自評為定義時,已婚的人較幸福。」
問卷與調查的偏誤#
「根據近期民調 ⋯⋯」幾乎是日常用語。但要照單全收很危險:
三種常見偏誤:
- 回答不誠實:受訪者給「應該給」的答案、對問卷有敵意、隨便填。
- 題目含糊:「你覺得電視上有沒有優質節目?」每個人想的都不一樣。
- 題目用詞偏頗:「你怎麼看總統把『歐巴馬式社會主義』強加給全國的誤導行為?」與「你怎麼看總統試圖擴大健保覆蓋、降低成本的努力?」結果天差地遠。
題目脈絡也很有威力。例如先問「投票權是否該保留給 18 歲以上?」再問「應否降低飲酒年齡?」會明顯改變答題。問卷越長,後段疲勞效應越強。
對任何問卷數據都要先問:「題目怎麼問的?怎麼編排的?」評估完偏誤後,可以自己做出有條件的概化,而不是照單全收。
第八類:類比(Analogies)#
不必擔心網路會讓報紙雜誌消失 —— 畢竟微波料理也沒讓烹飪消失。 教育者必須早期挑出問題學生,因為一顆壞蛋毀整鍋蛋捲。
類比是用「我們較熟悉的 X」去推論「較陌生的 Y」 —— 假設兩者在某些重要面向相似,所以在其他面向也會相似。
類比在科學與法律中極具創造力:以鼠類研究推論人類、原子結構的行星模型、法庭以先例做判決,都是類比推理。
識別類比論證#
留意:作者用一個有公認特徵的事物,來解釋一個有部分相似特徵的事物。
「重新學幾何就像騎腳踏車,一旦開始就回來了。」 —— 從一項相似(兩者皆是技能學習)推論到另一項相似(重溫即恢復)。
評估類比的兩個重點#
- 兩者的相似與差異有哪些?
- 這些相似與差異與類比要傳達的「底層原則」是否相關?
任何兩物總能找到某些相似 —— 強類比的條件是:相關相似多、相關差異少。
例:
我不允許家中的狗在街上亂跑,所以我憑什麼不對 16 歲女兒實施 8 點宵禁?
相似:兩者都未享有完全成人權利、都需父母保障安全。 差異(且高度相關):女兒擁有判斷對錯的高階思考能力,是人,享有自主權與被尊重的權利。這個差異破壞了類比。
自我檢驗的好方法:構造對立類比#
如果你能想到另一個類比,導向相反結論,就揭露了原類比的弱點。
自製類比的步驟:
- 列出你研究對象的重要特徵。
- 腦力激盪有相似特徵的其他熟悉情境。
- 看那情境能否提供洞見。
例如思考色情,可以對照種族/性別玩笑、雇用歧視,或暴力電玩、動作片是否導致兒童暴力 —— 這些對照可能讓你重新看到原議題。
錯誤類比謬誤(Faulty Analogy Fallacy):類比中存在重要的、相關的差異,使類比無法成立。
嚴格說,所有類比都「不完美」 —— 視為從很弱到很強的光譜。即使是強類比也只是「啟發」,作者仍應提供其他證據支持其底層原則。
何時最能信任專家#
結合本章與第 8 章,能信任專家意見的條件是:
- 你以系統二(慢思)而非系統一審視該意見。
- 你讓思考帶頭、情緒跟在後 —— 不是因為「感覺對」「有趣」「能贏辯論」就採信。
- 它通過了你已學會的關鍵問題(樣本、測量、利益衝突等)。
- 它附帶限定條件,不過度概化。
- 它放在一個更大的研究脈絡中(不是單一吸睛研究)。
- 它經過其他專家的批判性審視。
- 來源是支持深入分析的書籍、期刊、嚴謹網站。
網路時代的研究警覺#
網路像「沒有警長的西部」—— 任何人都能架網站、寫部落格。看起來像權威網站的,可能背後有政治、商業、藝術目的。
即使作者可信,內容也未必可信。Stephen Colbert 曾示範在維基百科塗改條目五小時不被察覺;社運團體 The Yes Men 曾架站冒充 Dow 公司來諷刺其環境政策。
學術寫作的紀律:不要引用沒有清楚原始出處的資訊。看到引述片段,就回頭找原文 —— 因為轉述者可能誤解或斷章。