總得在某處劃下界線

線性迴歸的奇蹟與危險#

NASA 能讓 New Horizons 探測器飛行 9 年、跨越 45 億公里，僅誤差 72 秒就抵達冥王星。地球上的問題卻遠比真空中的航行複雜：「若 X 發生，Y 會如何？」

最常用的工具誕生於 200 多年前：高斯（Carl Gauss）用「最小平方法」幫助發現第一顆小行星穀神星——也就是現代所稱的「線性迴歸（linear regression）」。

線性迴歸做的事很簡單：穿過雜亂資料找一條最佳直線。接著就能：
補資料缺口
看斜率知變動影響
找曲線何處為零
甚至「預測未來」

把上一章 Cage 電影 vs 溺斃資料丟給試算表跑迴歸：

$$ \text{溺斃人數} = 5.8 \times \text{Cage 電影數} + 87 $$

相關係數 +0.67，p = 0.025「統計顯著」。字面上意味著：每多一部 Cage 電影就多 6 人溺斃。

這當然是胡扯。但迴歸軟體不會告訴你「你這分析根本不該做」。它就像 Frankenstein 醫師的助手 Igor，你叫它做什麼它就做。

許多被忽略的關鍵假設：

時間序列分析（time series analysis）是處理後者的專門領域，需要專業知識——但即使專家也常出錯。

2009 年 Google 與 CDC 合作的 Google Flu Trends（GFT）發表於《Nature》：

結果：

「資料夠多就讓數字自己說話」是徹底的胡說。 Big Data 仍受同樣的 T&C 約束，且還有額外陷阱。連 Google 的精英都能挖到「愚人金（fool’s gold）」——其他公司更要小心。

2014 年全球調查顯示，到 2016 年約 75% 企業會投資 Big Data，市場規模約 $1,250 億。但：

業內人警告，許多企業打算「挖任何資料」——必失敗
Netflix 2006 年祭出 $100 萬獎金徵求更好推薦演算法，三年後得獎隊伍勝率提升 10%—— Netflix 卻從未上線——因為太複雜，IT 升級成本過高，效益不划算

業務主管或許不懂自相關，但他們很清楚自己的銷售預測是不是亂七八糟。

數據挖掘不是「越多越好」——而是要在偏差與變異間取得平衡。

1980 年代起，研究者用線性迴歸（在對數座標下）尋找冪次律：

$$ \text{某現象} = k \times (\text{某可量測量})^N $$

從市場波動到螞蟻覓食、信天翁飛行、海豹捕獵都出現「Lévy 飛行」式冪次律。1990 年代中還有專書《How Nature Works》問世。

但 2005 年生態數學家 Andrew Edwards 用更穩健的方法重新檢驗 17 篇宣稱發現此模式的論文——

沒有一篇站得住腳。 信天翁案例後續用先進方法重做，可能仍存在類似模式——但原始論文的論證理由是錯的。

任何資料集都有「模式」——但多數是幻覺。找出「最佳擬合線」不會改變這件事。不論宣傳多盛，Big Data 仍逃不過 GIGO（Garbage In, Garbage Out）。把資料挖掘的「使用條款」忽略到底，你會得到一台「21 世紀產製古典荒謬」的機器。