全民自動駕駛 • AI來了，你還不開始準備嗎？

五年內，幾乎每個白領都將與 AI Copilot 共事#

在所有 AI 應用裡，對工作生活的衝擊最為立即。從會計、醫療到建築，幾乎每個專業在五年內都會配備 AI「Copilot」——一位數位同事。

正在路上的 Copilot 們：

Jasper（奧斯汀）：撰寫行銷文案、發展廣告活動。
GitHub Copilot：眾多 AI 程式助手中最具代表性的一個。
Google：為資安專業打造大型語言模型；同時推出 Med-PaLM（在醫療文本上微調的 PaLM）。
Abridge / Nabla / Abstractive Health / Epic：醫師問診時自動產出病歷摘要的 AI。
Hippocratic：協助醫療帳務與保險理賠的 LLM。
Bloomberg：訓練 BloombergGPT，理解金融語言。
Autodesk：以文字描述自動產生 3D 設計初稿，給建築師、室內設計師、總包商使用。
Runway：以自然語言指令生成短片乃至電影。

大規模導入也已開始：

Walmart：5 萬名員工可使用內部 Copilot「My Assistant」協助文件草稿。
McKinsey、PwC：為員工配備生成式 AI 助手。
JLL：自建 LLM 助手，開放給超過 10 萬員工使用。
OpenAI 與 University of Pennsylvania 的研究：80% 美國勞工至少會有 10% 任務受 LLM 影響；19% 勞工至少有一半任務受影響。

設計得當的 Copilot 將釋放空前的生產力，讓我們更快、更有效率，也更愉悅——卸下我們最不喜歡、最不刺激的雜務。

但設計不當的 Copilot，會成為懶散的幫手與平庸的助產士：助長技能退化，誘發人們不假思索地照單全收 AI 的建議。從醫療到建築，這份「順勢自滿」可能釀成嚴重後果。

Britney Spears 測試：Casetext 與 CoCounsel 的故事#

律師 Jake Heller 的不眠之夜#

凌晨四點，年輕律師 Jake Heller 正趕著一份數十億美元訴訟的訴狀。他來自史丹佛法學院、曾任聯邦法官書記官，但仍找不到要的判例。
他突然意識到一件事：「Google 上『附近哪間泰式餐廳深夜還營業？』可以瞬間給我答案，但對我真正重要的判例反而難找——瑣事輕鬆，要事困難。」
2013 年他與人共同創辦 Casetext，目標是把法律研究帶進 21 世紀。

三道測試：能不能勝任律師工作#

技術長 Pablo Arredondo 設計了幾道判斷 AI 是否堪用的測試：

Britney Spears 測試：給軟體一份併購合約，問「Britney Spears 何時發行首張專輯？」。早期 LLM 會自信地回答「2003 年」（正確答案是 1999），並虛構地引用合約第 7.3 條。
Scalia 測試：能正確解讀已故大法官 Antonin Scalia 慣用的諷刺語氣並摘要其意見，AI 才算到位。
特權郵件測試：辨認郵件中的「privilege」是律師-當事人特權，還是「昨天能與您見面是榮幸（it was a privilege）」這樣的閒話。

GPT-4 終於做到了#

2022 年 OpenAI 邀請 Casetext 測試 GPT-4。「在 24 小時內，我們就知道整個公司必須圍繞它重做。」
2023 年 2 月推出 CoCounsel：以 GPT-4 為核心、結合 Casetext 自家軟體的法律 AI 助手。
它不只是搜尋引擎，還能分析判例、檢視合約、深度問題如「即興舞蹈是否受第一修正案保障？」並附最高法院判例。
撰寫一份原本要花數小時甚至數天的法律備忘錄，CoCounsel 三分鐘內完成初稿。
Fisher Phillips（500 位律師的事務所）的管理合夥人 John Polson 表示：CoCounsel 立刻讓他們以更短時間為客戶做更多事。

但 CoCounsel 不寫訴狀。Arredondo 強調：「我們提供的是事實與法律。」說服法官的訴狀仰賴經驗與直覺；共同創辦人 Laura Safdie 也指出，寫訴狀是大多數律師覺得最享受的工作環節。

2023 年 6 月，Thomson Reuters 以 6.5 億美元收購 Casetext，足見這類助手的價值。

學徒制的回歸#

法律與顧問業仰賴「槓桿模式（leverage business model）」——資深合夥人帶領眾多初級律師，比例常為 3:1 或 4:1。事務所宣稱這讓新人累積專業，但實際上更在意每位初級律師「能為事務所創造的時數收入」。
AI Copilot 動搖了這個模式：客戶不會願意為一件 AI 已能完成的工作付給初階律師高昂時薪。

可能的轉變：

重新採行師徒制：初級律師的職責不是衝計費時數，而是在資深合夥人身邊學習。
Heller 認識的一家事務所，正考慮在新人前三年完全不向客戶收取其工時費，但提高資深律師的費率。
「現在許多 associate 心裡會問：『我念法學院難道就是為了這個？』」AI 應該讓專業變得較不耗神、較不蝕魂。

學徒制的回歸對人類是好消息——將技能從一個人傳給另一個人，本就是工作中最具滿足感的時刻之一。AI 能輔助，但無法完全取代人對人的指導。

我們都成了中階主管#

不能照單全收#

ChatGPT 等通用聊天機器人會虛構判例。已有律師（包括代表川普前律師 Michael Cohen 的人）因把 ChatGPT 編造的引用直接寫進法庭文書，被法官斥責並罰款。
未來許多工作的核心，將是監督 Copilot 的產出：AI 給初稿、概念草圖、會議紀錄、銷售話術，我們批判地審視、決定是否採用。

Wharton 教授 Ethan Mollick 的建議#

把 Copilot 當成「實習生（intern）」：可以指派任務「幫我把這份報告寫成執行摘要」，但絕不能未經審閱就交給客戶；同時也要回饋讓它進步。

「就像對待新進員工，你必須了解它的長處與短處，學會訓練它、與它合作，分辨它在哪裡有用、在哪裡只是惹人煩。」

反面警告：Tim Wu 的疑慮#

Columbia 法學者、曾任拜登白宮科技政策顧問的 Tim Wu 在《環球郵報》專欄指出：當 AI 讓任務更快完成，需求會反向擴張、期望也水漲船高——結果是「比以往更多事要做、但時間更少」。
與機器人共事，會讓我們自己變得更像機器人。

賽博格勞動力：藍領早已是 AI 的下屬#

對許多零工經濟（gig economy）的勞工而言，AI 已是他們的主管——這個「人類機器人化」的反烏托邦未來，已經到來。

Uber、外送員、Amazon 倉儲員工：表面上是彈性工作，實際上是被演算法的嚴苛要求壓榨。
Deliveroo（倫敦外送）：必須在 30 秒內接單，且接單後才知道地址；之後再被 AI 預測「應該花的時間」評分；達不到，演算法降評，未來派單變少。
Amazon 倉儲：演算法決定搬箱速度，員工因為跟不上節奏出現重複性勞損。

這個模式不必、也不應該擴張到白領工作。若我們把 Copilot 設計成真正協作——在多個階段需要人類輸入——並記住「工作不只追求利潤、也應有人性」，多數職業在可見的未來仍將仰賴人類判斷與表現，而最成功的企業會繼續給予員工高度自主。

AI 教練：不只是實習生#

客服中心的研究：菜鳥躍升最多#

Stanford 與 MIT 經濟學家分析超過 5000 名客服（多為菲律賓員工）使用 LLM Copilot 的成果：

AI 即時聽懂對話、建議回覆，並調出技術文件；建議的回覆模仿頂尖客服的風格，並偏好同理、得體的用語。
整體案件解決率上升 14%。
新手提升最大：最低技能客服的生產力暴增 35%。
新人達到正常水準的時間從 8–10 個月縮短至 2 個月。
客戶情緒回應更正面，「升級給主管」的請求下降 25%。
員工流動率平均下降 9%，新人甚至下降 10%。

GitHub Copilot 的隨機對照試驗#

程式設計師使用 Copilot 後寫程式速度最高提升 55%。
多數使用者覺得更有生產力、60–75% 表示寫程式時較不挫折、更有成就感。
即便建議不總是正確（接受率約 35%，Java 等語言可達 60% 以上），體驗仍明顯改善。

Copilot 不只是替我們做雜事的數位實習生，更能成為個人化教練——讓不熟練的員工迅速接近頂尖水準，過去需大量師徒指導的學習曲線被大幅壓縮。

角色扮演：PwC ChatPwC 的實例#

PwC AI Copilot 團隊負責人 Nathan Kobayashi 在受訪當天，已先用 ChatPwC 預演整場訪談：

他請 ChatPwC 扮演記者向他提問，幫他預想可能會被問到的問題。
也請 ChatPwC 點評他擬好的答案。
對內會議他也常用同樣的方式預演。

設計上的特色：

內建多個角色（CPA、法律分析師等）與預建任務（分析試算表、撰寫法律考量摘要）。
從公司內部資料庫檢索、摘要，降低幻覺風險——但仍提醒員工必須親自檢查。
對於常見任務（撰寫初稿、執行摘要），將 PwC 顧問原本可能花 40 小時的工作壓縮到幾分鐘。

設計很重要#

介面決定一切#

神經網路的「引擎」固然重要，**儀表板（介面）**才決定 AI 能否真正幫到人。
多數研究顯示，人機合作往往能超越單獨人類或單獨 AI。但並非總是如此。

放射科的反例#

2023 年 MIT 經濟學家研究：放射科醫師單獨判讀 vs 搭配胸部 X 光 AI 助手。AI 單獨表現可比擬合格放射科醫師，但配合人類後，平均準確度沒有提升。

問題出在介面：AI 對 14 種病徵分別給出機率。

醫師原本就不確定時，AI 提示有幫助。
醫師原本有把握沒有病徵時，AI 給的小機率反而動搖醫師判斷。
醫師有把握是某病徵，AI 卻認為是另一病徵時，醫師傾向忽略 AI（但平均上 AI 較常正確）。
AI 自己也不確定（20–60%）時，反而讓醫師決策變差。
不論哪種情況，醫師花更多時間檢視每張影像。

改善之道：
AI 只在高信心時才出建議，其餘時候保持沉默。
視覺化標示影像上的可疑區域，而非只給機率。
將病例直接分流給「人類」或「AI」獨立判讀，僅在第一輪不確定時才交給第二位（人或機器）。

飛行藍圖：航空業的歷史教訓#

自動駕駛已存在百年#

萊特兄弟首飛後 9 年，第一具飛機自動駕駛問世；二戰時期已普遍。
今天的自動駕駛涵蓋幾乎所有飛行階段（地面滑行與起飛除外）。

法航 447 號班機的悲劇（2009/5/31）#

從里約飛巴黎的 A330 從 35,000 英尺墜入南大西洋，228 人全數罹難。
黑盒子顯示：機外壓力感測器結冰，自動駕駛突然解除，fly-by-wire 線傳飛控也同時退出。
飛行員拉桿使飛機進入失速；「Stall！」警報持續響起，但他們持續錯誤地拉桿，未推桿降低機頭恢復升力，飛機就此墜落。

三大認知偏誤#

飛行員犯了三種常見的人機互動偏誤：

Automation bias（自動化偏誤）：盲目相信自動系統決策正確，即使有矛盾證據。
Automation surprise（自動化驚嚇）：自動系統失靈時人會困惑——因為系統複雜不透明，使用者並不真的理解它如何決策，故障時更難快速回到手動處理。
Automation neglect（自動化忽視）：與 bias 相反，使用者反而漠視 AI 的提示。

商業飛行員技能退化#

高度自動化讓飛行員親自操控的機會大幅減少，基本飛行技能退化。
雖仍須在模擬器內練習緊急程序，但平日多在「保姆式照看自動駕駛」。

NASA 的應對：人才訓練重於 AI#

NASA 人因工程師 Jessica Marquez 強調，訓練人而非 AI 才是關鍵。
重點是讓使用者建立正確的「心智模型（mental model）」：AI 吃什麼資料、從哪裡來、能做什麼、不能做什麼。
太空人在進入太空前已預演數百種情境，其他職業也應思考類似訓練：
- 業務員偶爾要不靠 AI 做模擬銷售。
- 建築師要不靠 AI 想出五個空間概念。

警報設計的兩難#

若 AI 多數時間正確，使用者很難對少見但致命的錯誤保持警覺。
模擬登月實驗中，故障頻率才是決定飛行員是否警覺的關鍵，與是否手動操控無關。
監測 AI 輸入輸出、適時警報是必要的，但設計上是兩難：太敏感造成「警報疲乏（alert fatigue）」，太遲鈍則錯失關鍵錯誤。

NASA HERA 與 Daphne 聊天機器人#

Houston 強森太空中心的 HERA（Human Research Exploration Analog） 模擬未來在火星衛星 Phobos 上的居住情境，志願者連續 45 天住在模擬艙內。
Texas A&M 開發的 Daphne 聊天機器人協助太空人修生命維持系統，提供異常的可能成因與機率。
多個成因機率相近時，反而讓人更難決定——出現 automation neglect。
加入解釋有助於建立信任，但會拖慢決策速度——又是新的權衡。

提供解釋：通往可信賴的 Copilot#

顯著圖（saliency map）的局限#

醫療影像 AI 常見的解釋方法是 saliency map，像熱圖一樣標示 AI 看重的區域。
2022 年《Lancet Digital Health》研究（MIT、Harvard School of Public Health、Australian Institute of Machine Learning）發現：熱圖只標出大塊區域，沒說明為什麼那裡重要。
醫師會自動套用「我會看的特徵」當解釋，反而被矇蔽了 AI 真正在看的東西。

更好的解釋：原型特徵#

把 AI 訓練成能識別「疾病的原型特徵」（如肺炎典型的 ground-glass 圖樣），再告訴醫師它在影像中找到了哪些。這種解釋本身就是可被理解、可被質疑的。

醫師可以追問：是不是該選的特徵？權重恰當嗎？
這正是兩位醫師在診斷意見不一致時會展開的對話。

走向產業標準#

NASA 的標準不只規範 AI 軟體本身，還規範人機互動。各產業都應比照辦理：Copilot 的能力固然重要，介面與訓練同等關鍵。
為品牌挑選顏色的 Copilot 與設計橋樑的 Copilot，標準理所當然不會一樣。

設計得當的 Copilot，會帶來：

生產力的飆升
每個人都能擁有專家教練
工作品質的全面提升
更具成就感的職業生活