由 Eric Siegel 所撰。資料科學家薪資高、難留住,多數企業選擇培訓既有員工。但**預測分析(predictive analytics)**特別容易做錯——本章列出三個必須避開的陷阱。

何謂預測分析?#

預測分析是「從經驗(資料)學習,以預測個體未來行為,藉此推動更好決策」的技術。它能幫組織在大規模行銷、金融風險、詐欺偵測等領域標記出最可能點擊、購買、欺騙、死亡、犯詐、離職、退訂的個體。

在這些商業應用中,預測分析與機器學習(machine learning)幾乎是同義詞——機器學習從資料中學出預測模型(predictive model),把已知資訊轉換成「會發生某結果的機率」。

陷阱一:別被流行詞迷惑——先釐清目的#

「資料科學」本身不是業務目標,也不是學習目標。它意指「以聰明方式運用資料」的文化,不對應任何特定技術或方法。

在資料科學的大傘之下,預測分析才是能直接帶來可執行行動的工具。預測直接決定要對每個個體採取什麼行動——例如把行銷資源投到最可能購買的人身上、把稽核資源投到最可能詐欺的人身上。

當你開始部署預測分析時,需要新的領導角色:

  • 機器學習主管(machine learning leader)
  • 預測分析經理(predictive analytics manager)

這些頭銜比含糊的「資料科學家」更精準。

陷阱二:別讓軟體選型走在團隊技能之前#

2011 年 Thomas Davenport 在 Predictive Analytics World 大會上喊:「這不是數學的事——這是人的事!

分析軟體廠商會告訴你他們的工具就是「The Solution」。但解決什麼?真正要解的問題,是優化你的大規模營運;真正的解方,是一種整合機器學習的新業務方式。機器學習工具只佔整體組織流程的一小部分。

不要追隨廠商的步調。先讓員工準備好把機器學習作為企業級整合來管理,等專案進到後段再做更知情的軟體選擇。

陷阱三:別跳過部署規劃,直接埋頭算數字#

預測分析失敗的最常見原因,是還沒想清楚怎麼把模型整合到實際營運,就一頭栽進機器學習。預測分析不是買來插上去就能用的技術——它是個必須跨越「量化文化/業務文化」鴻溝的組織典範,需要策略、營運、分析三方利害關係人共同推進。

預測分析專案的標準五步驟(從業務目標反推到資料)#

  1. 訂出業務目標:模型如何整合進現行營運以產生正面影響(如更精準的客戶留存行銷)
  2. 定義具體的預測目標:須獲得業務利害關係人(如行銷團隊)認同,例如「哪些目前客齡至少一年、累積消費 500 美元以上的客戶,將在三個月內取消、且後續三個月不會回鍋?
  3. 準備訓練資料:通常佔整個專案 80% 的工作量——把現有資料重整成機器學習所需的格式,是個資料庫工程任務
  4. 套用機器學習產出預測模型:「火箭科學」的部分,但不是最耗時的階段;軟體選擇在此最關鍵,可先用免費試用版比較
  5. 部署模型:把預測整合到既有營運(如針對「最可能取消」的前 5% 客戶啟動留存活動)

在挑選培訓方案前,記得兩件事:

  • 這五步會大幅來回迭代——例如執行步驟 3 才發現步驟 2 定義的預測目標資料不夠,必須回頭修改
  • 首批試點專案要找外部機器學習顧問處理關鍵環節,特別是步驟 4。內部員工不該一開始就嘗試獨立操作核心機器學習,但專案主管必須掌握其運作原理,才能理解資料需求與機率輸出的意涵