Think About Data • 哈佛商業評論：批判性思考指南

為什麼資料越多，思考越要警覺#

作者 Eric Haller（Experian DataLabs）與 Greg Satell 指出，量化資料可以幫助我們：

評估過去發生的事
理解當前表現
對未來做預測

但問題在於：螢幕上的數字會自動帶上一層權威感。當資料經過巨型資料庫匯入、複雜分析軟體處理後，幾乎沒人會回頭問：

它從哪裡來？
中間做了什麼修改？
它真的適合這個用途嗎？

要從資料中得到有用答案，你不能只看表面值。你必須學會對眼前的資訊提出有思考的問題。本章圍繞三個核心提問展開，並指出最重要的一點：不要把資料只用來最佳化現況，要把它用來想像新的可能。

問題一：資料是怎麼來的？#

「資料（data）就是『軼事（anecdote）』的複數形」 — 真實事件被記錄、儲存到伺服器農場。但少有人去問資料來源，而資料蒐集的品質與用心程度差異極大。

Gartner 研究指出：企業每年因資料品質不佳，平均損失 1,500 萬美元
一份零售業研究發現：65% 的庫存資料是不準確的

錯誤來源不只人為：

動機不足、報酬不高的店員執行庫存盤點
自動化資料蒐集中的訊號中斷（如基地台停電）
金融交易清算過程中的錯誤
資料收集時是否有適當的同意（consent）

品質差或被用在錯誤情境的資料，可能比沒有資料更糟。我們需要把資料交易像金融交易一樣審計。

問題二：它是怎麼被分析的？#

即使資料準確、維護良好，分析模型的品質仍可能差距巨大。常見問題：

從 GitHub 等開源平台抓現成模型，重新用途化（repurpose）後，沒人記得它原本的設定
模型訓練錯誤
過擬合（overfitting）：用太多變數會讓模型失去普遍適用性
資料外洩（data leakage）：訓練資料與測試資料混在一起

學術警鐘案例：兩位知名經濟學家 Reinhart 與 Rogoff 發表工作論文，警告美國國債逼近臨界水準，引發政治風暴。後來發現他們犯了一個簡單的 Excel 錯誤，誇大了負債對 GDP 的影響。即使最頂尖的研究者也會犯這類錯誤；Amazon 與 Google 都曾因為模型偏誤爆出公開醜聞。

要持續對你的模型問艱難問題：

它適合我此刻的用途嗎？
它考慮了正確的因素嗎？
它的輸出真的反映現實世界嗎？

問題三：資料沒告訴你什麼？#

資料模型和人類一樣，傾向根據最容易取得的資訊做判斷。我們稱人類版的這種偏誤為可得性偏誤（availability bias），但設計者常常把它傳遞到自動化系統中。

金融業案例：信用記錄豐富的人很容易取得信用；而所謂的「薄檔案客戶（thin-file clients）」 — 缺乏信用記錄者 — 即使財務狀況良好，也可能難以買車、租房、辦信用卡。
但「薄檔案」不必然代表高信用風險。Greg 在海外住了 15 年回到美國時，自己就遇到過這個問題。
Experian 的 Boost 計畫提供解法：把電信費、公用事業費等規律支付納入考量，幫助消費者提升信用分數。數百萬人已經使用這個計畫。

要主動問：

我的資料模型可能漏掉了什麼？
我衡量的是真實世界，還是「最容易蒐集的資料」？
「你管理你所衡量的東西」 — 那麼，你衡量的東西真的是該被管理的嗎？

從找答案到問新問題#

有人說「資料是新的石油」 — 但 Haller 與 Satell 認為它遠比石油有價值。
不要把資料當成被動的資產類別
善用它能帶來真正的競爭優勢，並把企業帶到全新方向
但要做到這點，你不能只用它來找答案 — 你必須學會用它問新問題

三個提問，一個工作清單#

提問	你需要做的事
資料怎麼來的？	追溯來源、評估蒐集品質、確認是否取得同意
它怎麼被分析的？	檢驗模型適用性、檢查過擬合、追蹤資料外洩風險
它沒告訴我什麼？	對抗可得性偏誤，主動找尋被排除的群體與情境