沒人能擷取未來的資料,但可以用過去資料預測未來#
「預測分析(predictive analytics)」每天都在企業裡發生:
- 計算客戶終身價值(customer lifetime value, CLTV)——預測客戶長期會買多少
- 「下一個最佳推薦(next best offer)」——預測客戶接下來最可能買的產品
- 預估下季銷售
- 數位行銷模型決定哪一則廣告投放在哪個媒體上
預測分析不是魔法——它通常等於大量過去資料 + 一點統計巧勁 + 幾個重要假設。
一、資料(Data)#
缺少好的資料,是組織做預測分析時最常見的障礙。
要預測客戶未來購買行為,至少需要:
- 客戶買了什麼(可能需要會員制度,或大量分析信用卡資料)
- 過去買過什麼
- 商品屬性(屬性導向(attribute-based)的預測,往往比「買 A 的人也買 B」型模型更準確)
- 客戶人口統計屬性(年齡、性別、居住地、社會經濟地位等)
- 跨通路(multichannel):所有觸點蒐集資料的方式必須一致
建立一個有「唯一客戶 ID」、整合所有通路歷史的客戶資料倉儲是大工程。已經做完的公司,等於擁有預測客戶分析的稀有資產。
二、統計(Statistics)#
預測分析的主力工具是迴歸分析(regression analysis)。流程概略:
- 假設一組自變數(性別、收入、網站造訪次數)與某商品的購買行為相關
- 對樣本客戶跑迴歸,看相關性多強——通常需多次迭代找出最佳變數組合
- 確認模型解釋力強之後,用迴歸係數計算其他客戶的「得分」
- 對得分高的客戶推薦該商品
只要分析師統計做得夠好、資料品質夠高,得分高的客戶確實更可能購買——這就是預測模型的本質。
三、假設(Assumptions)#
每個模型都建立在假設之上,最大的假設是:「未來會延續過去」。
當人或環境的行為模式改變,原本的模型可能就失效。Charles Duhigg 在《The Power of Habit》中指出,人會建立穩定的行為模式並長期維持,但也會改變。
假設失效的兩個主要原因#
- 時間累積:模型愈舊愈不準。
- 例:Netflix 早期的預測模型來自網路先行者(年輕、技術導向),後期使用者幾乎涵蓋一般大眾,行為大不相同——舊模型必須退役。
- 遺漏關鍵變數:尤其當該變數長期偏離原本範圍時。
- 例:2008–2009 金融危機。房貸還款預測模型沒有納入「房價可能停止上漲、甚至下跌」的可能性。一旦房價下跌,模型就完全失準。「房價會永遠上漲」是隱藏在模型裡的假設。
錯誤或過時的假設可以拖垮整家銀行,甚至動搖整個經濟。經理人必須持續詢問與監控假設。
該問分析師的關鍵問題#
- 你用了哪裡來的資料?
- 樣本資料能代表母體嗎?
- 資料分布有離群值(outlier)嗎?它們如何影響結果?
- 分析背後有哪些假設?
- 什麼條件下這些假設會失效?
結論#
預測分析能讓我們真正用資料看見未來——只要:
- 蒐集對的資料
- 用對的統計模型
- 對假設保持警覺
比起算命師 Carnac the Magnificent 的預言,分析式預測通常準確得多——但前提是有人持續監督它的假設。