為什麼提需求這件事這麼難#
大數據與商業的交界正在快速擴張。雖然企業研究分析已有數十年歷史,但「資料科學(data science)」是相對年輕的能力,融入新文化對非專家來說格外吃力。
許多經理人共同的困境:
- 不知道該問哪些問題
- 不熟悉專業術語
- 沒考慮到該想清楚的因素
最終分析師不知該怎麼動手、經理人也對拿到的結果失望。本章整理出與資料科學家溝通時——尤其是資料搜尋階段——應思考的關鍵面向。
一、我們該問哪個問題?#
提需求前先想清楚:期望這份資料帶來什麼商業影響?公司有沒有能力據此行動?
把這些目的告訴資料科學家,他們才能與你協作,定義出真正該回答的問題。
一個微小但致命的歧義#
廣告主管常問分析師:
「用廣告增加銷售最有效的方式是什麼?」
這聽起來很合理,但多數公司真正想最大化的是獲利而不是銷售。Institute of Practitioners in Advertising 的研究顯示:「用廣告降低消費者價格敏感度」通常比「衝銷售量」多賺一倍以上。
請把問題盡可能具體、具行動性——洞察的價值會大幅取決於你問了什麼。
二、我們需要哪些資料?#
定義好問題後,與資料科學家一起評估資料的可得性與充足性。
是否已有人做過類似分析?#
- 公開資料愈來愈豐富,往往能直接回答常見問題
- Cerner(醫療 IT 解決方案)使用美國衛生部資料補強自有資料
- iMedicare 利用 Medicare/Medicaid 服務中心的資料挑選保單
- 組織內部其他分析師可能也曾因類似目的查過相同資料
既有資料夠用嗎?#
資料可能受**隱性因素(latent factors)**影響卻難以察覺。
範例:私人放貸資料的「年份效應(vintage effect)」——表面看起來條件相同的兩筆貸款,發行時點不同,表現可能完全不一樣,因為承作標準會隨時間波動,但這項資訊通常不會出現在貸款資料裡。
也要追問:
- 樣本是否有偏(樣本大不代表沒偏)?
- 資料量是否足以回答問題?
三、我們怎麼取得資料?#
如果需要新資料,資料科學家必須在兩條路之間選擇:
| 取得方式 | 觀察性研究(observational study) | 實驗(experiment) |
|---|---|---|
| 成本 | 較低 | 較高 |
| 執行難度 | 較低 | 較高 |
| 可建立的關係 | 相關性(correlation) | 因果關係(causation) |
| 可靠度 | 較低 | 較高 |
即便看似無害的實驗,也可能帶來倫理或品牌風險。Facebook 曾為了測試情緒在社群上的傳播而操弄使用者的動態消息(newsfeed),雖然合法,但引發大量使用者反彈。
在投入資源前先驗證可行性#
- 公司是否真的能把分析洞察轉化為行動?
- 是否需要與既有技術專案、自動化系統整合?
- 是否需建立新流程?
理解資料的成本#
資料的代價遠不只是金錢,還有隱私、法律、聲譽風險。
- 醫療業的隨機對照試驗(RCT)動輒上百萬美元,資料儲存每年也可能花掉數百萬
- 隱私違規:即便已匿名化(anonymized),結合其他資料集仍可能反推出個人身分
- 經典案例:Carnegie Mellon 研究人員只用「郵遞區號 + 生日 + 性別」便還原前麻州州長的醫療紀錄
- Gartner 預測(截至 2016 年),超過 25% 使用消費者資料的企業會因隱私問題受到聲譽傷害
四、資料是否乾淨、易於分析?#
結構化 vs. 非結構化#
- 結構化資料(structured data):易進資料庫、操作快
- 非結構化資料(unstructured data):自由格式,難以放進關聯式資料庫;Ryerson University 的 Gandomi 與 Haider 估計佔全球資料的 95%,但要從中萃取資訊往往需大量投資
資料品質#
即使是結構化資料,仍可能殘缺或錯誤。
Ascend2 在 2014 年的調查中,將近 54% 的受訪者將「資料品質/完整性不足」列為最主要的阻礙。盡量讓分析師從乾淨的資料開始,否則時間都耗在補資料上。
五、模型是不是太複雜?#
開源的統計工具與技術琳瑯滿目,但「簡單往往是最好的選擇」。
- 越彈性、越複雜的工具越容易過擬合(overfitting),開發時間也更長(詳見第 15 章 Pitfalls of Data-Driven Decisions)
- 從簡單方法開始,證明不夠用才升級
- 遵守 KISS 原則:Keep It Simple, Stupid!
結論#
資料蒐集與分析不可能完全沒成本與風險,但你可以透過提對的問題降低它們。本章五個面向就是一個簡單檢核表:問對問題 → 評估可得性 → 選擇取得方式 → 確認品質 → 控制複雜度。