本書以「預測」為核心,把資訊、科技、科學進步、自由市場與人類認知放在同一張地圖上,探討為什麼有些預測成功、有些慘敗,以及我們如何在資訊爆炸的時代學會分辨訊號與雜訊。

資訊愈多,問題愈多#

人類最早一次的資訊技術革命,不是來自微晶片,而是古騰堡(Johannes Gutenberg)在 1440 年發明的活字印刷術。

  • 印刷術之前,書籍由抄寫員手工複製,五頁約值一枚弗羅林金幣(約等於今日 200 美元),一本書動輒兩萬美元,且充滿反覆抄錄造成的訛誤。
  • 知識的累積近乎徒勞——書籍腐朽的速度往往比抄寫的速度更快,正如《傳道書》所言「日光之下並無新事」,許多智慧只是被遺忘。
  • 印刷術讓書本成本驟降約三百倍,從歐洲一城傳至另一城;發明後第一個世紀,書籍產量增加了約三十倍。

Figure I-1: 歐洲書本產量

印刷術帶來的並非立刻是啟蒙,而是一場長達三百多年的混亂。

從 1524 年的德國農民戰爭、三十年戰爭,到法國宗教戰爭、英格蘭內戰,宗教改革讓歐洲血流成河。馬丁路德(Martin Luther)的《九十五條論綱》之所以引爆動盪,並非觀點原創,而是因為它在古騰堡印刷機下被複製了至少三十萬份。

席佛(Nate Silver)借用莎士比亞《凱撒大帝》中的場景指出:凱撒對種種徵兆(他稱之為「預測」)視而不見,正反映了人類面對巨量資訊時的本能——選擇性閱讀、確認偏誤,把雜訊當成訊號。

  • 印刷術也悄悄改變了「預測」這個詞的內涵。
  • 在莎士比亞時代,predict(預言) 來自拉丁文,帶有占卜、宿命的意味;forecast(預測) 則源自日耳曼語,意味著在不確定下審慎規劃。
  • 後者契合新教倫理——馬克斯・韋伯(Max Weber)認為,這種勤勉、遠見的世俗精神催生了資本主義與工業革命。

生產力悖論#

資訊爆炸並不必然帶來進步,特別是當我們處理資訊的能力跟不上資訊增長速度時。

  • 工業革命之前,人類經濟成長率長期維持在每年約 0.1%,僅夠維持人口微增,並無生活水準的提升。
  • 印刷術帶來的紅利,足足等了 330 年才在工業革命中爆發。
  • 1970 年代電腦進入學界與實驗室後,又出現一段「生產力悖論」期。

Figure I-2: 全球人均 GDP, 1000–2010

經濟學家梭羅(Robert Solow)在 1987 年留下名言:「電腦時代隨處可見,唯獨在生產力統計中看不見。」

1969 至 1982 年間,美國經歷了四次衰退;1971 年甚至有人宣稱十年內可預測地震,四十年過去仍不可得。

席佛以「研究投入 / 專利申請數」作為科學生產力的指標:

  • 1960 年代,每件美國專利約耗費 150 萬美元(已調整通膨)。
  • 進入資訊時代後反而上升,1986 年達到約 300 萬美元的高峰。
  • 1990 年代起,當人們對新科技抱持更務實的期待,這個比值才再度下降。

Figure I-3: 研發投入 / 專利申請數比值

預測的故事常常是「長期進步、短期退步」。

許多事在長時間尺度上看似可預測,實際執行時卻屢屢落空。

「大數據」的承諾與陷阱#

當代版本的同一個問題,叫做「大數據(Big Data)」。

  • IBM 估計人類每天產出 2.5 quintillion(10^18)位元組的資料,其中超過九成是過去兩年產生的。
  • 《Wired》前主編克里斯・安德森(Chris Anderson)2008 年甚至宣稱資料量本身將取代理論與科學方法。

席佛認為這種樂觀論「嚴重錯誤」。

數字不會自己說話,是我們在替它們說話、賦予意義;當我們否認自身在預測中的角色時,失敗的機率才會飆升。

席佛以自身經歷說明:

  • 2003 年他設計的棒球預測系統 PECOTA,採用機率式預測,輸出每位球員的可能表現區間。
  • 2008 年他創立 FiveThirtyEight,正確預測了 50 州中 49 州的總統選舉結果,以及全部 35 場參議員選舉。
  • 即便如此,他坦言自己「選戰選得好」、「曾犯下本書描述的多數錯誤」,棒球之所以能預測得好,是「特別豐富、特別具啟示性的例外」。

預測表現好的領域中,他特別點名:

  • 棒球統計(Sabermetrics)與球探的合作。
  • 氣象預測——颶風登陸位置的精度比 25 年前提升了三倍。
  • 撲克玩家、運動下注者、IBM 深藍等程式設計師。

但他同時列出更長的失敗清單:

  • 911 與珍珠港:訊號都在,只是沒有正確的理論去拼起來,恐攻成了「未知的未知(unknown unknown)」。
  • 2008 金融危機:對模型的盲目信任、對假設脆弱性的忽視。
  • 總統選舉:政治科學家在 2000 年預測高爾大勝 11 點,結果輸給小布希。
  • 地震:福島核電廠以 8.6 級為設計上限,2011 年來了 9.1 級。
  • 生醫研究:Ioannidis 2005 年論文〈為何多數已發表研究結論是錯的〉,後來被拜耳實驗室證實——他們無法重現約三分之二的醫學期刊正向結論。

為什麼未來令我們震驚#

我們在生物學上仍是石器時代的獵人。

MIT 神經科學家波吉歐(Tomaso Poggio)指出,人類遠勝其他動物的能力是「辨識模式」——但這項本能在資料雜訊中往往會「看見不存在的模式」。

  • 人腦約能儲存 3 TB 的資訊,僅佔 IBM 估計每日新生資料量的百萬分之一,因此我們必須極度選擇性地記憶。
  • 杜佛勒(Alvin Toffler)在 1970 年的《未來的衝擊》中已預言:面對「資訊過載」,人們會用簡化世界、強化偏見的方式自保。
  • 印刷術後的歐洲走向宗派分裂;今日的網際網路與政治極化,重演相同戲碼。
  • 一份《Nature》研究發現,黨派立場越強的選民,對全球暖化議題了解越多,反而越無法達成共識。

雜訊增長的速度,遠快於訊號。

每天 2.5 quintillion 位元組的資料中,「客觀真實的數量」幾乎不變;複雜系統一旦失敗,會像 2008 年的信評模型一樣,把整個全球金融體系拖下水。

預測即解方#

預測是本書的核心問題,也是它的解方。

  • 我們每天都在做預測:選擇上班路線、是否再赴一次約、為雨天存錢——只是常常未察覺。
  • 因此,預測不是一小群專家的工作,而是社會共同的課題;嘲笑專家失敗,並不能讓我們自己變得更準。
  • 預測在科學中佔有特殊地位:哲學家波柏(Karl Popper)主張,可被預測檢證的命題才稱得上是科學的。

席佛並不採取虛無主義立場。

他認為「相信客觀真理存在、並承諾追求之」是做出更好預測的第一步;下一步則是承認自己對真理的感知必定有偏差。

本書的轉折點,是貝氏定理(Bayes’s theorem):

  • 表面上是個機率公式,實質是一種思考態度。
  • 它要求我們重新看待自身的信念與假設,並在新證據出現時更新它們。
  • 我們必須學會與機率與不確定性共處,主動檢視帶進問題裡的先驗。

全書地圖#

全書依「先診斷、後解方」的順序鋪陳:

  • 第 1–3 章:金融危機、棒球、政治預測——一些常見成敗案例。
  • 第 4–7 章:氣象、地震、總體經濟、傳染病等動態系統,預測為何特別困難。
  • 第 8–10 章:透過貝氏定理,以及運動投注、西洋棋、撲克等規則明確的「實驗室」,呈現解方雛型。
  • 第 11–13 章:把貝氏思維延伸到全球暖化、恐怖主義、金融泡沫等更巨大、更難測的問題。

席佛最後寫道:「訊號是真理;雜訊是讓我們偏離真理的東西。這是一本關於訊號與雜訊的書。」