「Petabytes 讓我們可以說:『相關性就夠了』。」——Chris Anderson, Wired, 2008

重新框架真正該問的問題#

「相關性夠不夠?」其實是錯的問題。對大數據的消費者而言,正確問題是:

我能根據一個相關性的發現「採取行動」嗎?

答案是「看情況」,主要取決於兩個因素:

  • 相關會在未來重複發生的信心程度——信心越高,越合理採取行動
  • 行動的風險與報酬權衡——若採取行動且錯誤的代價極高,即使相關很強也未必該行動

信心的兩個來源:頻率 + 因果清晰度#

「相關會重複發生的信心」其實由兩件事構成:

  • 頻率(frequency):歷史上這兩件事多常一起出現?越常 → 越可能真的相關
  • 因果清晰度(clarity of causality):這個相關背後的可能解釋越少 → 兩件事真的相連的機率越高

把這兩者一起看,比單看一個更可靠。「因果」並沒有過時——對它的理解可以直接抬升你採取行動的信心

BCG 的決策框架#

把「信心」與「行動的風險/報酬」交叉比對,就得到一個簡單的判斷框架。

高報酬 + 低錯誤代價 → 即使相關不強也該行動#

例:過馬路前左右看看。看的成本極低,沒看的代價極高(「非對稱損失函數(asymmetric loss function)」)。

Figure 11-1: When to act on a correlation in your data

案例對照#

紐約市下水道感測器(值得行動)#

  • 感測器偵測下水道某點的油脂濃度,異常時派車過去檢查
  • 是否真有違法餐廳,信心不算高——可能還有許多其他解釋
  • 但檢查的成本很低,發現沒事也沒損失
  • 即使信心不高,也該行動

例行 PSA 攝護腺癌篩檢(不值得行動)#

  • 相關本身很弱:許多無癌男性 PSA 也偏高
  • 沒有清楚的因果解釋
  • 預防性手術並未提升長期存活率
  • 偽陽性導致不必要、嚴重後遺症的治療
  • → 美國醫學會撤回對 50 歲以上男性例行 PSA 檢查的建議

案例:超市忠誠卡 vs. 車險理賠#

澳洲一家超市與車險公司合作分析資料,發現:

  • 買紅肉與牛奶的人:較低車險風險
  • 買義大利麵、烈酒、晚上加油的人:較高風險

這也許暗示風險行為(例如酒駕),但也可能有其他解釋

兩個可能的行動方案:

方案風險報酬
對低風險顧客做行銷
依購買模式定價車險高(曝光後品牌反彈)

在沒有更高信心之前,第一個方案明顯較佳——這就是 BCG 框架的價值。

Figure 11-2: If supermarket purchases correlate with auto insurance claims, what should an insurer do?

增加因果清晰度可解鎖更高價值的行動#

如果能找到清楚的因果解釋——例如「高風險購買模式,是失業或離婚等人生轉折的領先指標」——並用更多資料驗證,就能:

  • 把這個行動「往框架的上方移」
  • 解鎖原本被排除的高風險高報酬選項(例如差別定價)
  • 同時也能監控「相關何時會減弱或消失」,並提早調整策略

案例:美國陸軍的影像辨識#

軍方開發了一套用閃光定位狙擊手位置的影像處理系統。但相機閃光也會產生相同的閃光——當「同一現象有兩個可能解釋」時,信心就降低,可接受的風險水準也跟著下降

結語#

在大數據的世界裡:

  • 有時候,相關性就夠了
  • 有時候,理解因果至關重要

真正的關鍵是——你要知道現在屬於哪一種,以及不夠時該怎麼補