為什麼提需求這件事這麼難#

大數據與商業的交界正在快速擴張。雖然企業研究分析已有數十年歷史,但「資料科學(data science)」是相對年輕的能力,融入新文化對非專家來說格外吃力。

許多經理人共同的困境:

  • 不知道該問哪些問題
  • 不熟悉專業術語
  • 沒考慮到該想清楚的因素

最終分析師不知該怎麼動手、經理人也對拿到的結果失望。本章整理出與資料科學家溝通時——尤其是資料搜尋階段——應思考的關鍵面向。

一、我們該問哪個問題?#

提需求前先想清楚:期望這份資料帶來什麼商業影響?公司有沒有能力據此行動?

把這些目的告訴資料科學家,他們才能與你協作,定義出真正該回答的問題。

一個微小但致命的歧義#

廣告主管常問分析師:

用廣告增加銷售最有效的方式是什麼?

這聽起來很合理,但多數公司真正想最大化的是獲利而不是銷售。Institute of Practitioners in Advertising 的研究顯示:「用廣告降低消費者價格敏感度」通常比「衝銷售量」多賺一倍以上

請把問題盡可能具體、具行動性——洞察的價值會大幅取決於你問了什麼。

二、我們需要哪些資料?#

定義好問題後,與資料科學家一起評估資料的可得性與充足性。

是否已有人做過類似分析?#

  • 公開資料愈來愈豐富,往往能直接回答常見問題
    • Cerner(醫療 IT 解決方案)使用美國衛生部資料補強自有資料
    • iMedicare 利用 Medicare/Medicaid 服務中心的資料挑選保單
  • 組織內部其他分析師可能也曾因類似目的查過相同資料

既有資料夠用嗎?#

資料可能受**隱性因素(latent factors)**影響卻難以察覺。

範例:私人放貸資料的「年份效應(vintage effect)」——表面看起來條件相同的兩筆貸款,發行時點不同,表現可能完全不一樣,因為承作標準會隨時間波動,但這項資訊通常不會出現在貸款資料裡。

也要追問:

  • 樣本是否有偏(樣本大不代表沒偏)?
  • 資料量是否足以回答問題?

三、我們怎麼取得資料?#

如果需要新資料,資料科學家必須在兩條路之間選擇:

取得方式觀察性研究(observational study)實驗(experiment)
成本較低較高
執行難度較低較高
可建立的關係相關性(correlation)因果關係(causation)
可靠度較低較高

即便看似無害的實驗,也可能帶來倫理或品牌風險。Facebook 曾為了測試情緒在社群上的傳播而操弄使用者的動態消息(newsfeed),雖然合法,但引發大量使用者反彈。

在投入資源前先驗證可行性#

  • 公司是否真的能把分析洞察轉化為行動?
  • 是否需要與既有技術專案、自動化系統整合?
  • 是否需建立新流程?

理解資料的成本#

資料的代價遠不只是金錢,還有隱私、法律、聲譽風險。

  • 醫療業的隨機對照試驗(RCT)動輒上百萬美元,資料儲存每年也可能花掉數百萬
  • 隱私違規:即便已匿名化(anonymized),結合其他資料集仍可能反推出個人身分
    • 經典案例:Carnegie Mellon 研究人員只用「郵遞區號 + 生日 + 性別」便還原前麻州州長的醫療紀錄
  • Gartner 預測(截至 2016 年),超過 25% 使用消費者資料的企業會因隱私問題受到聲譽傷害

四、資料是否乾淨、易於分析?#

結構化 vs. 非結構化#

  • 結構化資料(structured data):易進資料庫、操作快
  • 非結構化資料(unstructured data):自由格式,難以放進關聯式資料庫;Ryerson University 的 Gandomi 與 Haider 估計佔全球資料的 95%,但要從中萃取資訊往往需大量投資

資料品質#

即使是結構化資料,仍可能殘缺或錯誤。

Ascend2 在 2014 年的調查中,將近 54% 的受訪者將「資料品質/完整性不足」列為最主要的阻礙。盡量讓分析師從乾淨的資料開始,否則時間都耗在補資料上。

五、模型是不是太複雜?#

開源的統計工具與技術琳瑯滿目,但「簡單往往是最好的選擇」。

  • 越彈性、越複雜的工具越容易過擬合(overfitting),開發時間也更長(詳見第 15 章 Pitfalls of Data-Driven Decisions)
  • 從簡單方法開始,證明不夠用才升級
  • 遵守 KISS 原則:Keep It Simple, Stupid!

結論#

資料蒐集與分析不可能完全沒成本與風險,但你可以透過提對的問題降低它們。本章五個面向就是一個簡單檢核表:問對問題 → 評估可得性 → 選擇取得方式 → 確認品質 → 控制複雜度。