How to Ask Your Data Scientists for Data and Analytics • 哈佛商業評論：管理者資料分析基礎指南

為什麼提需求這件事這麼難#

大數據與商業的交界正在快速擴張。雖然企業研究分析已有數十年歷史，但「資料科學（data science）」是相對年輕的能力，融入新文化對非專家來說格外吃力。

許多經理人共同的困境：

最終分析師不知該怎麼動手、經理人也對拿到的結果失望。本章整理出與資料科學家溝通時——尤其是資料搜尋階段——應思考的關鍵面向。

提需求前先想清楚：期望這份資料帶來什麼商業影響？公司有沒有能力據此行動？

把這些目的告訴資料科學家，他們才能與你協作，定義出真正該回答的問題。

廣告主管常問分析師：

「用廣告增加銷售最有效的方式是什麼？」

這聽起來很合理，但多數公司真正想最大化的是獲利而不是銷售。Institute of Practitioners in Advertising 的研究顯示：「用廣告降低消費者價格敏感度」通常比「衝銷售量」多賺一倍以上。

請把問題盡可能具體、具行動性——洞察的價值會大幅取決於你問了什麼。

定義好問題後，與資料科學家一起評估資料的可得性與充足性。

公開資料愈來愈豐富，往往能直接回答常見問題
- Cerner（醫療 IT 解決方案）使用美國衛生部資料補強自有資料
- iMedicare 利用 Medicare/Medicaid 服務中心的資料挑選保單
組織內部其他分析師可能也曾因類似目的查過相同資料

資料可能受**隱性因素（latent factors）**影響卻難以察覺。

範例：私人放貸資料的「年份效應（vintage effect）」——表面看起來條件相同的兩筆貸款，發行時點不同，表現可能完全不一樣，因為承作標準會隨時間波動，但這項資訊通常不會出現在貸款資料裡。

也要追問：

如果需要新資料，資料科學家必須在兩條路之間選擇：

即便看似無害的實驗，也可能帶來倫理或品牌風險。Facebook 曾為了測試情緒在社群上的傳播而操弄使用者的動態消息（newsfeed），雖然合法，但引發大量使用者反彈。

資料的代價遠不只是金錢，還有隱私、法律、聲譽風險。

醫療業的隨機對照試驗（RCT）動輒上百萬美元，資料儲存每年也可能花掉數百萬
隱私違規：即便已匿名化（anonymized），結合其他資料集仍可能反推出個人身分
- 經典案例：Carnegie Mellon 研究人員只用「郵遞區號 + 生日 + 性別」便還原前麻州州長的醫療紀錄
Gartner 預測（截至 2016 年），超過 25% 使用消費者資料的企業會因隱私問題受到聲譽傷害

結構化資料（structured data）：易進資料庫、操作快
非結構化資料（unstructured data）：自由格式，難以放進關聯式資料庫；Ryerson University 的 Gandomi 與 Haider 估計佔全球資料的 95%，但要從中萃取資訊往往需大量投資

即使是結構化資料，仍可能殘缺或錯誤。

Ascend2 在 2014 年的調查中，將近 54% 的受訪者將「資料品質／完整性不足」列為最主要的阻礙。盡量讓分析師從乾淨的資料開始，否則時間都耗在補資料上。

開源的統計工具與技術琳瑯滿目，但「簡單往往是最好的選擇」。

越彈性、越複雜的工具越容易過擬合（overfitting），開發時間也更長（詳見第 15 章 Pitfalls of Data-Driven Decisions）
從簡單方法開始，證明不夠用才升級
遵守 KISS 原則：Keep It Simple, Stupid!

資料蒐集與分析不可能完全沒成本與風險，但你可以透過提對的問題降低它們。本章五個面向就是一個簡單檢核表：問對問題 → 評估可得性 → 選擇取得方式 → 確認品質 → 控制複雜度。