由 Manasi Vartak 所撰(Verta MLOps 平台創辦人,前 MIT ModelDB 開發者)。AI 在規模化作業時最有價值。本章說明如何透過 MLOps(machine learning operations)紀律,從流程、人、工具三個面向實現規模化。

為什麼規模化這麼困難?#

「規模」對商業領袖意味著:AI 多深、多廣地整合進組織核心產品、服務與業務流程。

把一兩個模型上線,與整個企業或產品靠 AI 運轉是完全不同的兩件事。AI 規模化時,問題也會跟著規模化。

真實案例:某金融公司在 10 分鐘內損失 2 萬美元——只因為其中一個機器學習模型開始「亂跑」。

沒有透視根本原因的能力、甚至無法辨識是哪個模型異常,公司只能拔插頭,所有模型回滾到很早之前的版本——嚴重拖累績效,抹去數週成果。

認真看待 AI 的組織開始採用 MLOps——一套建立最佳實踐與工具、加速安全且高效率的 AI 開發與作業化的紀律。實施得當,能顯著加快產品上市速度。

MLOps 需要在流程、人、工具三方面投入。

流程:標準化模型建構與作業化#

打造 AI 模型是個需要持續迭代精煉的創意過程:

  • 資料科學家:準備資料、建立特徵、訓練模型、調參、驗證
  • 軟體工程師與 IT:將模型上線、持續監測輸出與效能
  • 治理團隊:監督整個流程,確保 AI 模型在倫理與合規上站得住腳

AI 規模化的第一步是標準化——可重複的建模方式與明確的上線流程。建模和製造業很相似:第一個產品總是客製的;要規模化生產上千個並持續優化設計,可重複的開發與生產流程就成了關鍵。

客製流程天生低效,但許多組織每次模型上線都重造輪子。前述金融公司的失敗,正源自缺乏可重複的模型監控方式。

一次性流程一旦進入生產環境,就會釀成大麻煩。

標準化的具體做法#

  • 協作定義 AI 開發與作業化的「建議流程」並提供支持工具
  • 建立標準函式庫驗證 AI 模型,鼓勵一致的測試與驗證
  • 在生命週期的交接點(如資料科學交給 IT)格外重要——讓不同團隊獨立工作、聚焦核心專長,不必擔心對方的意外變動
  • MLOps 工具如 Model CatalogsFeature Stores 能支援標準化

人:讓團隊聚焦於最擅長的事#

過去 AI 開發是「資料科學團隊」的責任——但規模化的 AI 不是單一團隊能做的。所需技能多元,少有人全部精通:

  • 資料科學家:建立準確且一致預測行為的演算法模型
  • ML 工程師:優化、封裝、整合研究模型到產品,並持續監測品質
  • 合規/治理/風險:又是另一套截然不同的技能組合

成功的關鍵是建立並賦權於專業化、專責的團隊——讓資料科學家做資料科學、工程師做工程、IT 做基礎設施。

兩種團隊結構#

Pod model:由資料科學家、資料工程師、ML 或軟體工程師組成的小團隊一起做 AI 產品開發

  • 優點:執行快速
  • 缺點:容易形成知識孤島

Center of Excellence(COE)model:把所有資料科學專家集中,依需求與資源分派給不同產品團隊

  • 優點與缺點與 pod model 相反

不同於資料科學與 IT,治理團隊在獨立於 pod 與 COE 之外時最有效

工具:挑能支援創意、速度與安全的工具#

由於 AI/ML 標準化還很新,工具生態高度分散

  • 資料科學家建一個模型可能要串接約十多個專業工具
  • IT 與治理用的是另一套工具
  • 兩個工具鏈彼此不容易對話

結果:一次性作業容易,但要建立穩固、可重複的工作流程很困難——拖慢規模化速度,導致上市時間長、產品缺乏監督。

挑選 MLOps 工具的四個考量#

1. 互通性(Interoperability)#

  • 多半已有現有 AI 基礎建設——選能與現有生態系統互通的工具
  • 生產端的模型服務必須與 IT 已核可的 DevOps 工具(記錄、監控、治理)相容
  • 從地端轉雲端的組織,要找支援混合環境的工具——雲端遷移常持續多年

2. 同時友善於資料科學與 IT#

工具有三大使用者群體:建模的資料科學家、維運基礎設施與生產模型的 IT、監督受規管場景中模型使用的治理團隊。其中資料科學與 IT 的需求往往對立

  • 資料科學家需要平台「讓開」——能自由用偏好函式庫、獨立工作、不需 IT 不斷支援
  • IT 需要平台施加限制——確保部署遵循預定且 IT 核可的路徑

理想 MLOps 平台兩者兼顧。常見做法是選一個平台建模、另一個平台作業化

3. 協作(Collaboration)#

AI 是多利害關係人的工程:

  • MLOps 工具必須讓資料科學家與工程師、治理團隊輕鬆協作
  • 知識共享、面對員工流動的業務連續性都很關鍵
  • 資料科學與 IT 之間的協作速度決定上市速度;治理協作則確保這個產品到底該不該被建造

4. 治理(Governance)#

AI 治理的範圍遠大於應用程式的安全或存取控制,要確保:

  • 應用符合組織的倫理規範
  • 不會對受保護群體有偏見
  • AI 應用做出的決策值得信任

MLOps 工具必須內建負責任、合乎倫理 AI 的實踐能力,例如:

  • 上線前的負責任 AI 使用清單
  • 模型文件
  • 治理工作流程

結語#

在 AI 規模化的競賽中,領導者總在尋找領先方法。預訓練模型與授權 API 等捷徑各有價值,但為了最大 ROI 規模化 AI,組織必須聚焦於「怎麼把 AI 作業化」。

擁有最佳模型或最聰明資料科學家的公司,未必是最後贏家——勝出的,會是那些能聰明地實施與規模化、釋放 AI 全部潛能的公司。