為什麼資料越多,思考越要警覺#
作者 Eric Haller(Experian DataLabs)與 Greg Satell 指出,量化資料可以幫助我們:
- 評估過去發生的事
- 理解當前表現
- 對未來做預測
但問題在於:螢幕上的數字會自動帶上一層權威感。當資料經過巨型資料庫匯入、複雜分析軟體處理後,幾乎沒人會回頭問:
- 它從哪裡來?
- 中間做了什麼修改?
- 它真的適合這個用途嗎?
要從資料中得到有用答案,你不能只看表面值。你必須學會對眼前的資訊提出有思考的問題。本章圍繞三個核心提問展開,並指出最重要的一點:不要把資料只用來最佳化現況,要把它用來想像新的可能。
問題一:資料是怎麼來的?#
「資料(data)就是『軼事(anecdote)』的複數形」 — 真實事件被記錄、儲存到伺服器農場。但少有人去問資料來源,而資料蒐集的品質與用心程度差異極大。
- Gartner 研究指出:企業每年因資料品質不佳,平均損失 1,500 萬美元
- 一份零售業研究發現:65% 的庫存資料是不準確的
錯誤來源不只人為:
- 動機不足、報酬不高的店員執行庫存盤點
- 自動化資料蒐集中的訊號中斷(如基地台停電)
- 金融交易清算過程中的錯誤
- 資料收集時是否有適當的同意(consent)
品質差或被用在錯誤情境的資料,可能比沒有資料更糟。我們需要把資料交易像金融交易一樣審計。
問題二:它是怎麼被分析的?#
即使資料準確、維護良好,分析模型的品質仍可能差距巨大。常見問題:
- 從 GitHub 等開源平台抓現成模型,重新用途化(repurpose)後,沒人記得它原本的設定
- 模型訓練錯誤
- 過擬合(overfitting):用太多變數會讓模型失去普遍適用性
- 資料外洩(data leakage):訓練資料與測試資料混在一起
學術警鐘案例:兩位知名經濟學家 Reinhart 與 Rogoff 發表工作論文,警告美國國債逼近臨界水準,引發政治風暴。後來發現他們犯了一個簡單的 Excel 錯誤,誇大了負債對 GDP 的影響。即使最頂尖的研究者也會犯這類錯誤;Amazon 與 Google 都曾因為模型偏誤爆出公開醜聞。
要持續對你的模型問艱難問題:
- 它適合我此刻的用途嗎?
- 它考慮了正確的因素嗎?
- 它的輸出真的反映現實世界嗎?
問題三:資料沒告訴你什麼?#
資料模型和人類一樣,傾向根據最容易取得的資訊做判斷。我們稱人類版的這種偏誤為可得性偏誤(availability bias),但設計者常常把它傳遞到自動化系統中。
金融業案例:信用記錄豐富的人很容易取得信用;而所謂的「薄檔案客戶(thin-file clients)」 — 缺乏信用記錄者 — 即使財務狀況良好,也可能難以買車、租房、辦信用卡。
但「薄檔案」不必然代表高信用風險。Greg 在海外住了 15 年回到美國時,自己就遇到過這個問題。
Experian 的 Boost 計畫提供解法:把電信費、公用事業費等規律支付納入考量,幫助消費者提升信用分數。數百萬人已經使用這個計畫。
要主動問:
- 我的資料模型可能漏掉了什麼?
- 我衡量的是真實世界,還是「最容易蒐集的資料」?
- 「你管理你所衡量的東西」 — 那麼,你衡量的東西真的是該被管理的嗎?
從找答案到問新問題#
有人說「資料是新的石油」 — 但 Haller 與 Satell 認為它遠比石油有價值。
- 不要把資料當成被動的資產類別
- 善用它能帶來真正的競爭優勢,並把企業帶到全新方向
- 但要做到這點,你不能只用它來找答案 — 你必須學會用它問新問題
三個提問,一個工作清單#
| 提問 | 你需要做的事 |
|---|---|
| 資料怎麼來的? | 追溯來源、評估蒐集品質、確認是否取得同意 |
| 它怎麼被分析的? | 檢驗模型適用性、檢查過擬合、追蹤資料外洩風險 |
| 它沒告訴我什麼? | 對抗可得性偏誤,主動找尋被排除的群體與情境 |