Reinforcement Learning Is Ready for Business • 哈佛商業評論：管理者AI基礎指南

由 Kathryn Hume 與 Matthew E. Taylor 所撰。**強化學習（reinforcement learning）**過去多停留在學術界與遊戲、機器人的小眾應用——但本章說明，當你的問題是「依序決策、目標可量化、缺少標準答案」時，它已經準備好為商業效力。

AlphaGo 第 37 手：超越模式辨識#

2016 年世界級圍棋冠軍 Lee Sedol 對上 DeepMind 的 AlphaGo——第二局的第 37 手讓他困惑到花了將近 15 分鐘才回應。其他資深棋手也覺得詭異，一位評論員甚至認為是失誤。

事實證明這是 AI 演算法學到了超越資料模式辨識的東西——學到了策略性甚至創造性的下法。
除了餵入過去棋王的對局，DeepMind 還讓 AlphaGo 與自己對弈數百萬局——在過程中探索新招式、評估是否提升表現。透過大量試錯，它找出了讓世界頂尖棋手都驚訝的下棋方式。

強化學習與監督式學習的差別#

監督式學習（supervised learning）：用歷史資料做預測。
預測：「股價接下來 6 小時可能漲 4 點」
給定真相：「實際漲了 3 點」
系統更新「輸入 → 輸出」的對應以更接近 ground truth
強化學習：沒有「正確答案」可學。
系統產出行動，不是預測
建議最可能**最大化（或最小化）**某指標的行動
觀察自己做得如何、是否比之前更快或更有效率
透過試錯學習，能在缺乏歷史資料時自己創造資料

適用條件：
頻繁、密集的行動——快速試錯與回饋
例如「每天執行數百個動作」的股市演算法 → 適合
「五年期間用稀疏互動點優化顧客終身價值」 → 不適合

強化學習的真實案例#

Google 資料中心冷卻#

伺服器密集排列產生大量熱，過熱影響效能或損壞設備。RL 系統如何運作：

輸入資料：氣壓、溫度等環境量測
行動：空調風扇轉速（控制氣流）、閥門開度（用水量）
規則：安全運轉守則
目標：在指定溫度下最小化能耗

資料中心的物理動態複雜且不斷變化（天氣影響溫濕度，每個物理位置的架構也獨特）——強化學習能捕捉用公式與規則難以描述的細微差異。

Aiden：加拿大皇家銀行的交易執行系統#

Borealis AI 與 RBC 資本市場合作開發的 RL 交易執行系統 Aiden：

目標：在指定時間內執行客戶股票委託（買或賣特定股數），追求接近基準的價格
依序決策原因：一次買賣太多股會造成市場衝擊
獎勵：最小化 Aiden 達成價格與市場成交量加權平均價（VWAP）的差距

這是強化學習的好機會——同時具備清晰性與動態複雜度：
可清楚列出 Aiden 的所有行動
可清楚定義要優化的獎勵
股市快速變動且資料量龐大，給演算法快速迭代學習的機會

上線前讓演算法做了無數次模擬——結果在 Covid-19 疫情初期最動盪的市場中，Aiden 表現優異（這類條件對預測型 AI 特別艱難）。

哪些問題適合用強化學習？#

若你的場景符合「依序決策（sequential decision tasks）、有可量化的最大化或最小化目標、無明確正確解答」，就有機會：
資料中心如何路由流量？哪些伺服器該關機？
開發新藥的分子模擬中，下一步該加哪個試劑？
想賣出大量股票時，如何全天分散小單以最小化價格衝擊？

如果你身為公司領導者，有許多想自動化或優化的流程，但太動態、有太多例外與邊界情況難以寫成軟體規則——強化學習有機會解決，開啟在快速變動環境中自動化與個人化的新管道。

如何發掘強化學習機會#

1. 列清單#

盤點包含「一系列步驟」的業務流程，明確說出要最大化或最小化的目標：

聚焦密集、頻繁的行動與容易得到回饋的流程
避開行動稀疏、難以觀察哪一個有效的流程
把目標訂對通常需要多次迭代

2. 考慮其他選項#

若能用其他機器學習或最佳化技術解決，就別從強化學習開始。
強化學習真正適用：歷史資料不足以訓練演算法，必須邊探索邊創造資料。

3. 小心你想要的東西#

若決定推進，領域專家應與技術團隊緊密合作設計：

輸入：能做出好決策的最小資訊集
行動：給系統多少彈性？先簡單再擴大
獎勵：仔細思考結果——避免孤立看單一變數或短期得利長期受害的陷阱

4. 問值不值得#

收益是否抵得過開發成本？許多公司必須先做數位轉型才能讓 RL 真正發揮：
計算資源：要支援大量試驗讓系統探索與識別最佳序列（可先建立模擬環境測試）
軟體：若打算用於顧客互動，系統必須支援 A/B 測試——演算法需要探索不同選項才能鎖定最佳解
發布機制：若技術棧只能對全體用戶釋出新功能，可能要先升級才能開始優化

5. 準備好耐心#

如同許多學習演算法，初期必須容忍錯誤。系統不會在第一天就找到最佳路徑——但隨時間推進它會找到，甚至找到人類想像不到的、令人驚奇的創意解方。

結語#

強化學習已是成熟技術，但才剛開始進入商業應用。它在「自動化或優化能產出密集資料、且可能出現規則與公式無法捕捉的非預期變化」的業務流程中最有威力。
若你能發現機會——靠內部技術團隊或與該領域專家合作——你可能擁有一個搶在競爭對手前部署這項技術的時間窗口。