由 Andrew Ng(吳恩達)所撰。本章指出:AI 在 Google、百度、Amazon 等消費網路巨頭已大放異彩,但在製造、農業、醫療等傳統產業卻遲遲未起飛。原因不在 AI 本身,而是這些產業需要不同的開發方法——從「軟體中心」轉向「資料中心」(data-centric)的思維。
為什麼 AI 在科技業之外難以普及?#
消費網路公司能用「一套通吃」的 AI 系統服務上億用戶,但傳統產業需要的是大量**客製化(bespoke)**解決方案。這帶來三大挑戰:
1. 小資料集#
- 消費網路公司有上百萬筆資料供 AI 學習
- 其他產業的資料集規模小得多
你能否打造一套 AI,只看 50 個範例就學會偵測有缺陷的汽車零件?或從 100 個診斷紀錄學會辨識罕見疾病?
為 5,000 萬筆資料設計的技術,在只有 50 筆資料時根本不適用。
2. 客製化成本高#
- 消費網路公司可投入幾十甚至上百位工程師打造一套年收破 10 億美元的廣告系統
- 其他產業多半是大量「100 萬到 500 萬美元」的小專案,每個都需要自己的客製 AI
例如:
- 每間生產不同產品的工廠,可能各自需要客製檢測系統
- 每家醫院因病歷編碼方式不同,可能各自需要 AI 處理病患資料
這些專案整體價值極為龐大,但任一專案的經濟規模都撐不起一支大型專責 AI 團隊——AI 人才短缺更加劇此問題。
3. 從概念驗證到上線的鴻溝#
- AI 在實驗室能跑通,離真正部署到生產環境還差一大段工程
- 團隊常為 PoC 成功歡呼,卻在 12–24 個月後才意識到還有大量部署工作未完成
Accenture 估計,80% 至 85% 的企業 AI 專案仍卡在概念驗證階段。
資料中心的 AI 開發#
AI 系統由兩部分組成:
- 軟體:包含 AI 模型的程式
- 資料:用來訓練模型的資訊
過去十年,研究多由「軟體中心(software-centric / model-centric)」驅動:資料固定,團隊不斷優化或設計新演算法。但在當前的成熟度下,多數應用的瓶頸已轉移到「拿到對的資料」。
大數據時代的迷思是「資料越多越好」。事實是:對許多應用而言,更值得追求的是好資料——清楚呈現我們希望 AI 學到的概念,覆蓋重要案例,且標註一致。
資料是 AI 的食物。現代 AI 系統需要的不只是熱量,而是高品質的營養。
資料中心思維的關鍵優勢#
把焦點從軟體轉到資料,能仰賴你已有的人——讓擁有產業知識的領域專家直接貢獻於 AI 系統的建立:
- 工廠裡最熟悉「0.2 mm 的刮痕算不算瑕疵」的,是工人本身
- 與其要求每間工廠的工人發明新 AI 軟體,不如提供工具讓他們用「資料」表達自身的領域知識
讓 AI 的建置與使用變得系統化、可重複#
這個轉變仰賴一個正在崛起的領域:MLOps(machine learning operations,機器學習維運)——提供工具讓 AI 系統的建置、部署與維護更容易。
MLOps 工具如何同時解決前述三大挑戰:
- 小資料集:高品質資料讓 AI 能從各產業普遍存在的小資料集中學到東西
- 客製化成本:讓領域專家而非 AI 專家來工程化資料,AI 能力得以普及到所有產業
- PoC 到上線:MLOps 平台提供大部分上線所需的工程鷹架,讓部署從「以年計」縮短到「以週或月計」
企業現在可以做的三件事#
- 重質重於重量:不只追求資料量,更要確保資料清楚體現你希望 AI 學到的概念
- 讓團隊改採資料中心思維:許多有強學術背景的 AI 工程師習慣軟體中心做法,鼓勵他們同時掌握資料中心技術
- 任何要上線的 AI 專案,都要事先規劃部署流程並提供 MLOps 工具——即便還在 PoC 階段,也要開始發展長期的資料管理、部署、監控與維護計畫
結語#
AI 完全有可能在資料量遠不如消費網路業的傳統產業成為珍貴資產,但前提是要建立新的資料中心思維,並善用 MLOps 工具讓產業領域專家參與 AI 系統的創造、部署與維護——唯有如此,所有產業才能真正享受到 AI 帶來的紅利。