在跟風 AI、大數據、機器學習之前,先問清楚#

這些是當下最熱門的關鍵字,但怎麼判斷你公司的問題是否真的適合機器學習(machine learning)?

要回答這個問題,必須從三個角度切入:

  • 問題本身的特性
  • 可取得的資料
  • 對可行性、直覺與期望的提問

一、評估問題是否「需要學習」#

機器學習能協助自動化,但不是所有自動化問題都需要「學習」

不需學習的自動化#

當步驟清晰且預先定義時,傳統自動化就夠了。

範例:

  • 篩選外部資料供應商提供的明顯錯誤
    • 例如:避險基金自動過濾「負值」的成交量資料(成交量不可能為負)

必須使用機器學習的問題#

複雜、無法用簡單規則描述的問題,例如:

  • 把人類自然語言轉換成結構化資料

機器學習的本質:一組統計方法,用來在資料中找出可預測的模式。它擅長辨識「資料特徵」與「目標結果」之間的關係,但無法存取你提供的資料以外的知識

危險案例:肺炎死亡率預測#

匹茲堡大學 1990 年代後期評估機器學習演算法預測肺炎死亡率:

  • 演算法建議「有氣喘的肺炎病患風險較低,可送他們回家
  • 真相:氣喘病患被立即送進加護病房,因為得到更密集照護才存活率高
  • 演算法看不到「加護病房」這個背景資訊

機器學習只看你給它的資料。重要的脈絡如果沒進資料,它就是看不見

適合機器學習的兩條判準#

  1. 需要的是預測,不是因果推論(causal inference)
  2. 問題夠自我封閉、相對隔離於外部影響

舉例對照:

適合不適合
預測某類使用者點擊某類廣告的機率預測一個全新革命性產品線的獲利
評估一段文字與既有文本的相似度在重要新對手剛進入市場時,從歷史推估明年銷售

二、案例:Harley-Davidson 的 AI 行銷#

Asaf Jacobi 在紐約的 Harley-Davidson 經銷店冬天每週只賣 1–2 台。一次散步偶遇 Adgorithms 的 CEO Or Shani,建議他試用 AI 行銷平台 Albert 一個週末。結果:

  • 那個週末賣出 15 台——幾乎是史上最佳夏季週末紀錄(8 台)的兩倍
  • 每天合格名單從 1 人 → 40 人
  • 第三個月起,名單成長 2,930%50% 是「相似客群(lookalikes)」
  • 必須額外設立 6 人客服中心應付業績

Albert 怎麼做?#

  1. 分析 Jacobi CRM 裡的既有客戶資料,定義「高價值過去客戶」(曾完成購買、加入購物車、瀏覽內容、或網站停留時間前 25%)
  2. 找出與這些客戶相似的「相似客群(lookalikes)
  3. 在小型微區隔(micro-segment)跑測試廣告
  4. 預測哪些標題、視覺、其他數千個變數的組合最能轉換特定受眾
  5. 一旦確定有效,自動跨通路擴大投放並重新分配預算

一個具體洞察#

Albert 發現含「call」的廣告(「Call now!」)比含「buy」的廣告轉換率高 447%,於是立即把所有相關廣告中的「buy」全部改成「call」。

三、確認你有對的資料#

問題確認適合後,下一步檢查資料。

  • 資料可能來自你自己,也可能來自外部
  • 對外部資料源多問問題,搞清楚範圍與適配度

四、提問與找錯誤——別把方法當魔法#

機器學習的方法就是統計——可以用直覺解釋。不要相信看不懂的方法

讓自己對方法有直覺:

  • 它的原理是不是大致說得通?
  • 在你的情境裡概念上行得通嗎?
  • 為什麼這個方法特別適合你的問題?
    • 編碼一連串步驟 → 序列模型或決策樹(decision tree)可能合適
    • 二分類問題 → 二元支援向量機(binary support vector machine)

對結果保持實際的期望#

每個人都會犯錯,每個演算法也都會錯。除非問題極簡單,否則一定會有時候出錯。

機器學習引擎平均會做對,但會穩定地犯一定比例的錯——而這些錯經常以你料想不到的方式發生

五、決定怎麼往前走#

評估你能容忍多少錯誤:

  • 80% 對足夠了嗎?
  • 10% 的錯誤率可以接受嗎?5%?1%?
  • 是否有某些錯誤永遠不能犯(例如醫療、安全相關)?

對自己與供應商清楚明說需求與期望。雙方在同一頁時,再放手一搏。

帶著知識、理解與合理期望——耐心一點,機器學習的好處會回報你。