由 Kathryn Hume 與 Matthew E. Taylor 所撰。**強化學習(reinforcement learning)**過去多停留在學術界與遊戲、機器人的小眾應用——但本章說明,當你的問題是「依序決策、目標可量化、缺少標準答案」時,它已經準備好為商業效力。
AlphaGo 第 37 手:超越模式辨識#
2016 年世界級圍棋冠軍 Lee Sedol 對上 DeepMind 的 AlphaGo——第二局的第 37 手讓他困惑到花了將近 15 分鐘才回應。其他資深棋手也覺得詭異,一位評論員甚至認為是失誤。
事實證明這是 AI 演算法學到了超越資料模式辨識的東西——學到了策略性甚至創造性的下法。
除了餵入過去棋王的對局,DeepMind 還讓 AlphaGo 與自己對弈數百萬局——在過程中探索新招式、評估是否提升表現。透過大量試錯,它找出了讓世界頂尖棋手都驚訝的下棋方式。
強化學習與監督式學習的差別#
監督式學習(supervised learning):用歷史資料做預測。
- 預測:「股價接下來 6 小時可能漲 4 點」
- 給定真相:「實際漲了 3 點」
- 系統更新「輸入 → 輸出」的對應以更接近 ground truth
強化學習:沒有「正確答案」可學。
- 系統產出行動,不是預測
- 建議最可能**最大化(或最小化)**某指標的行動
- 觀察自己做得如何、是否比之前更快或更有效率
- 透過試錯學習,能在缺乏歷史資料時自己創造資料
適用條件:
- 頻繁、密集的行動——快速試錯與回饋
- 例如「每天執行數百個動作」的股市演算法 → 適合
- 「五年期間用稀疏互動點優化顧客終身價值」 → 不適合
強化學習的真實案例#
Google 資料中心冷卻#
伺服器密集排列產生大量熱,過熱影響效能或損壞設備。RL 系統如何運作:
- 輸入資料:氣壓、溫度等環境量測
- 行動:空調風扇轉速(控制氣流)、閥門開度(用水量)
- 規則:安全運轉守則
- 目標:在指定溫度下最小化能耗
資料中心的物理動態複雜且不斷變化(天氣影響溫濕度,每個物理位置的架構也獨特)——強化學習能捕捉用公式與規則難以描述的細微差異。
Aiden:加拿大皇家銀行的交易執行系統#
Borealis AI 與 RBC 資本市場合作開發的 RL 交易執行系統 Aiden:
- 目標:在指定時間內執行客戶股票委託(買或賣特定股數),追求接近基準的價格
- 依序決策原因:一次買賣太多股會造成市場衝擊
- 獎勵:最小化 Aiden 達成價格與市場成交量加權平均價(VWAP)的差距
這是強化學習的好機會——同時具備清晰性與動態複雜度:
- 可清楚列出 Aiden 的所有行動
- 可清楚定義要優化的獎勵
- 股市快速變動且資料量龐大,給演算法快速迭代學習的機會
上線前讓演算法做了無數次模擬——結果在 Covid-19 疫情初期最動盪的市場中,Aiden 表現優異(這類條件對預測型 AI 特別艱難)。
哪些問題適合用強化學習?#
若你的場景符合「依序決策(sequential decision tasks)、有可量化的最大化或最小化目標、無明確正確解答」,就有機會:
- 資料中心如何路由流量?哪些伺服器該關機?
- 開發新藥的分子模擬中,下一步該加哪個試劑?
- 想賣出大量股票時,如何全天分散小單以最小化價格衝擊?
如果你身為公司領導者,有許多想自動化或優化的流程,但太動態、有太多例外與邊界情況難以寫成軟體規則——強化學習有機會解決,開啟在快速變動環境中自動化與個人化的新管道。
如何發掘強化學習機會#
1. 列清單#
盤點包含「一系列步驟」的業務流程,明確說出要最大化或最小化的目標:
- 聚焦密集、頻繁的行動與容易得到回饋的流程
- 避開行動稀疏、難以觀察哪一個有效的流程
- 把目標訂對通常需要多次迭代
2. 考慮其他選項#
若能用其他機器學習或最佳化技術解決,就別從強化學習開始。
強化學習真正適用:歷史資料不足以訓練演算法,必須邊探索邊創造資料。
3. 小心你想要的東西#
若決定推進,領域專家應與技術團隊緊密合作設計:
- 輸入:能做出好決策的最小資訊集
- 行動:給系統多少彈性?先簡單再擴大
- 獎勵:仔細思考結果——避免孤立看單一變數或短期得利長期受害的陷阱
4. 問值不值得#
收益是否抵得過開發成本?許多公司必須先做數位轉型才能讓 RL 真正發揮:
- 計算資源:要支援大量試驗讓系統探索與識別最佳序列(可先建立模擬環境測試)
- 軟體:若打算用於顧客互動,系統必須支援 A/B 測試——演算法需要探索不同選項才能鎖定最佳解
- 發布機制:若技術棧只能對全體用戶釋出新功能,可能要先升級才能開始優化
5. 準備好耐心#
如同許多學習演算法,初期必須容忍錯誤。系統不會在第一天就找到最佳路徑——但隨時間推進它會找到,甚至找到人類想像不到的、令人驚奇的創意解方。
結語#
強化學習已是成熟技術,但才剛開始進入商業應用。它在「自動化或優化能產出密集資料、且可能出現規則與公式無法捕捉的非預期變化」的業務流程中最有威力。
若你能發現機會——靠內部技術團隊或與該領域專家合作——你可能擁有一個搶在競爭對手前部署這項技術的時間窗口。