證據之二：觀察、研究、類比

接續第 8 章#

第 8 章談了直覺、個人經驗、案例、見證、訴諸權威。這一章續談三種更常見、份量更重的證據：

本章關鍵問題：個人觀察、研究、類比這三種證據有多好？

第六類：個人觀察（Personal Observation）#

「目擊者」常被當成最強的證據之一 —— 我們相信「親眼所見」。但人類的觀察並不像鏡子那樣客觀：

我們「看到」的內容會被自己的價值、偏見、態度、預期過濾。我們傾向看到我們想看到的。
加上糟糕的觀察條件（注意力不足、事件太快、處於壓力情境），目擊報告經常出錯。想像你站在搶劫銀行的歹徒旁邊 —— 你的描述會有多扭曲？

最可信的觀察報告通常符合：
觀察時間接近事件發生時。
多人同時觀察。
觀察條件良好。
觀察者沒有強烈的預期或偏見。

第七類：研究（Research Studies）#

研究顯示 ⋯⋯ 研究人員在最近一份調查中發現 ⋯⋯ 一份刊登在《新英格蘭醫學期刊》的報告指出 ⋯⋯

研究是一種特殊的「權威」—— 由受過訓練的人系統性地進行觀察。

科學方法的三大特色#

公開可驗證（publicly verifiable）：其他合格的研究者重做實驗應能得到相似結果（重複驗證 / replication）。
控制（control）：透過特殊程序減少觀察與詮釋的誤差，例如多位觀察者、實驗室環境。
語言精確（precision in language）：對概念使用一致、不模糊的定義。

研究的八項常見問題#

研究是強力的證據 —— 但研究 ≠ 真理。引用研究時，記住：

研究品質落差很大：即使刊登在學術期刊，仍可能有重大缺陷。
研究結論常彼此衝突：單一研究脫離整個研究家族，常產生誤導。要追問「有其他研究者重複驗證過嗎？」 —— Atlantic 2010 年〈Lies, Damned Lies, and Medical Science〉指出，41% 的高知名度醫學介入研究經重測後發現原結論被推翻或大幅誇大。
研究結果不能「證明」結論，只能支持結論：所有資料都需研究者解讀，而解讀方式不只一種。把「研究顯示 ⋯⋯」翻譯成「研究者把他們的發現解讀為 ⋯⋯」更準確。
研究者也是人：他們有預期、價值、需求。當美國糖業協會贊助你做研究時，你很難得出「青少年糖份攝取過量」的結論。
轉述者常扭曲或簡化結論：原作者刻意加上的條件，到了二手轉述常被去掉。
「事實」會隨時間更替，特別是人類行為的研究。例如：百憂解優於安慰劑、魚油預防失智、麻疹疫苗導致自閉 —— 這些「事實」後來都被推翻或大幅修正。
研究人為性（artificiality）：為了控制變項，研究情境常與真實世界脫節。社會行為研究尤其容易過於抽離。
誘因會扭曲結果與發表決定：經費、終身職、聲望都可能左右研究者的詮釋。藥廠贊助的研究比獨立研究更常得到「對藥物有利」的結果。

但「對任何不確定就拒絕」也是一種推理錯誤 —— 不可能的確定性謬誤（Impossible Certainty Fallacy）：因為某結論不是絕對確定就拒絕它。確定常常不可得，但這不代表所有結論都同樣不可信。

評估研究的十個提問#

來源品質如何？同儕審查的期刊通常較可靠。
報告中是否有特殊的研究強項？
研究做於多久之前？結論可能已過時嗎？
結果是否被其他研究重複驗證？
作者是否選擇性引用 —— 有沒有忽略反向研究？
是否表現出強意義批判性思考的態度？是否願意對自己的結論加上限定？
是否有人有理由扭曲研究？
研究條件是否人為到失去推論力？
樣本支持多廣的概化？（下一節）
問卷、調查、評量是否帶有偏誤？（下下節）

從樣本到人群：別把結論吹得太大#

把「研究中 75% 病人有效」說成「這個藥能治胰臟癌」是過度概化。樣本決定能推到多廣：

大小：通常樣本越大、結論越穩。1000 名 vs. 100 名大學生。
廣度：要含納足夠多元的對象。研究全美大學生喝酒，不能只在一所學校做。
隨機性：所有候選對象都應有相同被選中的機會。

哪些樣本明顯有偏？

自願受訪「性活動頻率」的人。
只用市內電話的人。
心理學概論的學生。
只看 Fox 或 MSNBC 的觀眾。

沒注意樣本就把結論誇大，就會犯倉促概化（hasty generalization）。

例：

用網路交友的人多半能找到好對象。研究做了 229 名 18-65 歲線上交友者問卷。94% 與「網友」見了第二次面，平均交往超過七個月。

問題：只調查了一個網站、229 人，且不知如何抽樣。能否推到所有交友網站使用者？不能。

從研究工具到結論：測量的限制#

任何研究都需要決定怎麼測。但每種測量方法都會限定結論的適用範圍。

例：以「立刻吃 1 顆棉花糖 vs. 等 15 分鐘吃 2 顆」測量兒童的延遲享受能力。要問：棉花糖選擇是不是這個概念的好指標？換成「父母評估」會得到不同結果嗎？

評估時要追問：

怎麼測的？（問卷、檢核表、行為觀察 ⋯⋯）
這個測量能多準確地反映概念？
如果換一種測量，結果會不會不一樣？

研究結果只能推論到它實際使用的測量方式。例如「結婚的人比較幸福」如果只憑一次問卷自評，那它就只能說：「以一次性自評為定義時，已婚的人較幸福。」

問卷與調查的偏誤#

「根據近期民調 ⋯⋯」幾乎是日常用語。但要照單全收很危險：

三種常見偏誤：
回答不誠實：受訪者給「應該給」的答案、對問卷有敵意、隨便填。
題目含糊：「你覺得電視上有沒有優質節目？」每個人想的都不一樣。
題目用詞偏頗：「你怎麼看總統把『歐巴馬式社會主義』強加給全國的誤導行為？」與「你怎麼看總統試圖擴大健保覆蓋、降低成本的努力？」結果天差地遠。

題目脈絡也很有威力。例如先問「投票權是否該保留給 18 歲以上？」再問「應否降低飲酒年齡？」會明顯改變答題。問卷越長，後段疲勞效應越強。

對任何問卷數據都要先問：「題目怎麼問的？怎麼編排的？」評估完偏誤後，可以自己做出有條件的概化，而不是照單全收。

第八類：類比（Analogies）#

不必擔心網路會讓報紙雜誌消失 —— 畢竟微波料理也沒讓烹飪消失。教育者必須早期挑出問題學生，因為一顆壞蛋毀整鍋蛋捲。

類比是用「我們較熟悉的 X」去推論「較陌生的 Y」 —— 假設兩者在某些重要面向相似，所以在其他面向也會相似。

類比在科學與法律中極具創造力：以鼠類研究推論人類、原子結構的行星模型、法庭以先例做判決，都是類比推理。

識別類比論證#

留意：作者用一個有公認特徵的事物，來解釋一個有部分相似特徵的事物。

「重新學幾何就像騎腳踏車，一旦開始就回來了。」 —— 從一項相似（兩者皆是技能學習）推論到另一項相似（重溫即恢復）。

評估類比的兩個重點#

兩者的相似與差異有哪些？
這些相似與差異與類比要傳達的「底層原則」是否相關？
任何兩物總能找到某些相似 —— 強類比的條件是：相關相似多、相關差異少。

例：

我不允許家中的狗在街上亂跑，所以我憑什麼不對 16 歲女兒實施 8 點宵禁？

相似：兩者都未享有完全成人權利、都需父母保障安全。差異（且高度相關）：女兒擁有判斷對錯的高階思考能力，是人，享有自主權與被尊重的權利。這個差異破壞了類比。

自我檢驗的好方法：構造對立類比#

如果你能想到另一個類比，導向相反結論，就揭露了原類比的弱點。

自製類比的步驟：
列出你研究對象的重要特徵。
腦力激盪有相似特徵的其他熟悉情境。
看那情境能否提供洞見。
例如思考色情，可以對照種族／性別玩笑、雇用歧視，或暴力電玩、動作片是否導致兒童暴力 —— 這些對照可能讓你重新看到原議題。

錯誤類比謬誤（Faulty Analogy Fallacy）：類比中存在重要的、相關的差異，使類比無法成立。
嚴格說，所有類比都「不完美」 —— 視為從很弱到很強的光譜。即使是強類比也只是「啟發」，作者仍應提供其他證據支持其底層原則。

何時最能信任專家#

結合本章與第 8 章，能信任專家意見的條件是：
你以系統二（慢思）而非系統一審視該意見。
你讓思考帶頭、情緒跟在後 —— 不是因為「感覺對」「有趣」「能贏辯論」就採信。
它通過了你已學會的關鍵問題（樣本、測量、利益衝突等）。
它附帶限定條件，不過度概化。
它放在一個更大的研究脈絡中（不是單一吸睛研究）。
它經過其他專家的批判性審視。
來源是支持深入分析的書籍、期刊、嚴謹網站。

網路時代的研究警覺#

網路像「沒有警長的西部」—— 任何人都能架網站、寫部落格。看起來像權威網站的，可能背後有政治、商業、藝術目的。
即使作者可信，內容也未必可信。Stephen Colbert 曾示範在維基百科塗改條目五小時不被察覺；社運團體 The Yes Men 曾架站冒充 Dow 公司來諷刺其環境政策。

學術寫作的紀律：不要引用沒有清楚原始出處的資訊。看到引述片段，就回頭找原文 —— 因為轉述者可能誤解或斷章。