五年內,幾乎每個白領都將與 AI Copilot 共事#

在所有 AI 應用裡,對工作生活的衝擊最為立即。從會計、醫療到建築,幾乎每個專業在五年內都會配備 AI「Copilot」——一位數位同事。

正在路上的 Copilot 們:

  • Jasper(奧斯汀):撰寫行銷文案、發展廣告活動。
  • GitHub Copilot:眾多 AI 程式助手中最具代表性的一個。
  • Google:為資安專業打造大型語言模型;同時推出 Med-PaLM(在醫療文本上微調的 PaLM)。
  • Abridge / Nabla / Abstractive Health / Epic:醫師問診時自動產出病歷摘要的 AI。
  • Hippocratic:協助醫療帳務與保險理賠的 LLM。
  • Bloomberg:訓練 BloombergGPT,理解金融語言。
  • Autodesk:以文字描述自動產生 3D 設計初稿,給建築師、室內設計師、總包商使用。
  • Runway:以自然語言指令生成短片乃至電影。

大規模導入也已開始:

  • Walmart:5 萬名員工可使用內部 Copilot「My Assistant」協助文件草稿。
  • McKinsey、PwC:為員工配備生成式 AI 助手。
  • JLL:自建 LLM 助手,開放給超過 10 萬員工使用。
  • OpenAI 與 University of Pennsylvania 的研究:80% 美國勞工至少會有 10% 任務受 LLM 影響;19% 勞工至少有一半任務受影響。

設計得當的 Copilot 將釋放空前的生產力,讓我們更快、更有效率,也更愉悅——卸下我們最不喜歡、最不刺激的雜務。

但設計不當的 Copilot,會成為懶散的幫手與平庸的助產士:助長技能退化,誘發人們不假思索地照單全收 AI 的建議。從醫療到建築,這份「順勢自滿」可能釀成嚴重後果。

Britney Spears 測試:Casetext 與 CoCounsel 的故事#

律師 Jake Heller 的不眠之夜#

  • 凌晨四點,年輕律師 Jake Heller 正趕著一份數十億美元訴訟的訴狀。他來自史丹佛法學院、曾任聯邦法官書記官,但仍找不到要的判例。
  • 他突然意識到一件事:「Google 上『附近哪間泰式餐廳深夜還營業?』可以瞬間給我答案,但對我真正重要的判例反而難找——瑣事輕鬆,要事困難。」
  • 2013 年他與人共同創辦 Casetext,目標是把法律研究帶進 21 世紀。

三道測試:能不能勝任律師工作#

技術長 Pablo Arredondo 設計了幾道判斷 AI 是否堪用的測試:

  • Britney Spears 測試:給軟體一份併購合約,問「Britney Spears 何時發行首張專輯?」。早期 LLM 會自信地回答「2003 年」(正確答案是 1999),並虛構地引用合約第 7.3 條。
  • Scalia 測試:能正確解讀已故大法官 Antonin Scalia 慣用的諷刺語氣並摘要其意見,AI 才算到位。
  • 特權郵件測試:辨認郵件中的「privilege」是律師-當事人特權,還是「昨天能與您見面是榮幸(it was a privilege)」這樣的閒話。

GPT-4 終於做到了#

  • 2022 年 OpenAI 邀請 Casetext 測試 GPT-4。「在 24 小時內,我們就知道整個公司必須圍繞它重做。」
  • 2023 年 2 月推出 CoCounsel:以 GPT-4 為核心、結合 Casetext 自家軟體的法律 AI 助手。
  • 它不只是搜尋引擎,還能分析判例、檢視合約、深度問題如「即興舞蹈是否受第一修正案保障?」並附最高法院判例。
  • 撰寫一份原本要花數小時甚至數天的法律備忘錄,CoCounsel 三分鐘內完成初稿。
  • Fisher Phillips(500 位律師的事務所)的管理合夥人 John Polson 表示:CoCounsel 立刻讓他們以更短時間為客戶做更多事。

但 CoCounsel 不寫訴狀。Arredondo 強調:「我們提供的是事實與法律。」說服法官的訴狀仰賴經驗與直覺;共同創辦人 Laura Safdie 也指出,寫訴狀是大多數律師覺得最享受的工作環節。

2023 年 6 月,Thomson Reuters 以 6.5 億美元收購 Casetext,足見這類助手的價值。

學徒制的回歸#

法律與顧問業仰賴「槓桿模式(leverage business model)」——資深合夥人帶領眾多初級律師,比例常為 3:1 或 4:1。事務所宣稱這讓新人累積專業,但實際上更在意每位初級律師「能為事務所創造的時數收入」。

AI Copilot 動搖了這個模式:客戶不會願意為一件 AI 已能完成的工作付給初階律師高昂時薪。

可能的轉變:

  • 重新採行師徒制:初級律師的職責不是衝計費時數,而是在資深合夥人身邊學習。
  • Heller 認識的一家事務所,正考慮在新人前三年完全不向客戶收取其工時費,但提高資深律師的費率。
  • 「現在許多 associate 心裡會問:『我念法學院難道就是為了這個?』」AI 應該讓專業變得較不耗神、較不蝕魂

學徒制的回歸對人類是好消息——將技能從一個人傳給另一個人,本就是工作中最具滿足感的時刻之一。AI 能輔助,但無法完全取代人對人的指導。

我們都成了中階主管#

不能照單全收#

  • ChatGPT 等通用聊天機器人會虛構判例。已有律師(包括代表川普前律師 Michael Cohen 的人)因把 ChatGPT 編造的引用直接寫進法庭文書,被法官斥責並罰款。
  • 未來許多工作的核心,將是監督 Copilot 的產出:AI 給初稿、概念草圖、會議紀錄、銷售話術,我們批判地審視、決定是否採用。

Wharton 教授 Ethan Mollick 的建議#

把 Copilot 當成「實習生(intern)」:可以指派任務「幫我把這份報告寫成執行摘要」,但絕不能未經審閱就交給客戶;同時也要回饋讓它進步。

  • 「就像對待新進員工,你必須了解它的長處與短處,學會訓練它、與它合作,分辨它在哪裡有用、在哪裡只是惹人煩。」

反面警告:Tim Wu 的疑慮#

Columbia 法學者、曾任拜登白宮科技政策顧問的 Tim Wu 在《環球郵報》專欄指出:當 AI 讓任務更快完成,需求會反向擴張、期望也水漲船高——結果是「比以往更多事要做、但時間更少」。

與機器人共事,會讓我們自己變得更像機器人

賽博格勞動力:藍領早已是 AI 的下屬#

對許多零工經濟(gig economy)的勞工而言,AI 已是他們的主管——這個「人類機器人化」的反烏托邦未來,已經到來。

  • Uber、外送員、Amazon 倉儲員工:表面上是彈性工作,實際上是被演算法的嚴苛要求壓榨。
  • Deliveroo(倫敦外送):必須在 30 秒內接單,且接單後才知道地址;之後再被 AI 預測「應該花的時間」評分;達不到,演算法降評,未來派單變少。
  • Amazon 倉儲:演算法決定搬箱速度,員工因為跟不上節奏出現重複性勞損。

這個模式不必、也不應該擴張到白領工作。若我們把 Copilot 設計成真正協作——在多個階段需要人類輸入——並記住「工作不只追求利潤、也應有人性」,多數職業在可見的未來仍將仰賴人類判斷與表現,而最成功的企業會繼續給予員工高度自主。

AI 教練:不只是實習生#

客服中心的研究:菜鳥躍升最多#

Stanford 與 MIT 經濟學家分析超過 5000 名客服(多為菲律賓員工)使用 LLM Copilot 的成果:

  • AI 即時聽懂對話、建議回覆,並調出技術文件;建議的回覆模仿頂尖客服的風格,並偏好同理、得體的用語。
  • 整體案件解決率上升 14%
  • 新手提升最大:最低技能客服的生產力暴增 35%
  • 新人達到正常水準的時間從 8–10 個月縮短至 2 個月。
  • 客戶情緒回應更正面,「升級給主管」的請求下降 25%
  • 員工流動率平均下降 9%,新人甚至下降 10%

GitHub Copilot 的隨機對照試驗#

  • 程式設計師使用 Copilot 後寫程式速度最高提升 55%
  • 多數使用者覺得更有生產力、60–75% 表示寫程式時較不挫折、更有成就感。
  • 即便建議不總是正確(接受率約 35%,Java 等語言可達 60% 以上),體驗仍明顯改善。

Copilot 不只是替我們做雜事的數位實習生,更能成為個人化教練——讓不熟練的員工迅速接近頂尖水準,過去需大量師徒指導的學習曲線被大幅壓縮。

角色扮演:PwC ChatPwC 的實例#

PwC AI Copilot 團隊負責人 Nathan Kobayashi 在受訪當天,已先用 ChatPwC 預演整場訪談:

  • 他請 ChatPwC 扮演記者向他提問,幫他預想可能會被問到的問題。
  • 也請 ChatPwC 點評他擬好的答案。
  • 對內會議他也常用同樣的方式預演。

設計上的特色:

  • 內建多個角色(CPA、法律分析師等)與預建任務(分析試算表、撰寫法律考量摘要)。
  • 從公司內部資料庫檢索、摘要,降低幻覺風險——但仍提醒員工必須親自檢查。
  • 對於常見任務(撰寫初稿、執行摘要),將 PwC 顧問原本可能花 40 小時的工作壓縮到幾分鐘。

設計很重要#

介面決定一切#

  • 神經網路的「引擎」固然重要,**儀表板(介面)**才決定 AI 能否真正幫到人。
  • 多數研究顯示,人機合作往往能超越單獨人類或單獨 AI。但並非總是如此

放射科的反例#

2023 年 MIT 經濟學家研究:放射科醫師單獨判讀 vs 搭配胸部 X 光 AI 助手。AI 單獨表現可比擬合格放射科醫師,但配合人類後,平均準確度沒有提升

問題出在介面:AI 對 14 種病徵分別給出機率。

  • 醫師原本就不確定時,AI 提示有幫助。
  • 醫師原本有把握沒有病徵時,AI 給的小機率反而動搖醫師判斷。
  • 醫師有把握是某病徵,AI 卻認為是另一病徵時,醫師傾向忽略 AI(但平均上 AI 較常正確)。
  • AI 自己也不確定(20–60%)時,反而讓醫師決策變差。
  • 不論哪種情況,醫師花更多時間檢視每張影像。

改善之道:

  • AI 只在高信心時才出建議,其餘時候保持沉默。
  • 視覺化標示影像上的可疑區域,而非只給機率。
  • 將病例直接分流給「人類」或「AI」獨立判讀,僅在第一輪不確定時才交給第二位(人或機器)。

飛行藍圖:航空業的歷史教訓#

自動駕駛已存在百年#

  • 萊特兄弟首飛後 9 年,第一具飛機自動駕駛問世;二戰時期已普遍。
  • 今天的自動駕駛涵蓋幾乎所有飛行階段(地面滑行與起飛除外)。

法航 447 號班機的悲劇(2009/5/31)#

  • 從里約飛巴黎的 A330 從 35,000 英尺墜入南大西洋,228 人全數罹難。
  • 黑盒子顯示:機外壓力感測器結冰,自動駕駛突然解除,fly-by-wire 線傳飛控也同時退出。
  • 飛行員拉桿使飛機進入失速;「Stall!」警報持續響起,但他們持續錯誤地拉桿,未推桿降低機頭恢復升力,飛機就此墜落。

三大認知偏誤#

飛行員犯了三種常見的人機互動偏誤:

  • Automation bias(自動化偏誤):盲目相信自動系統決策正確,即使有矛盾證據。
  • Automation surprise(自動化驚嚇):自動系統失靈時人會困惑——因為系統複雜不透明,使用者並不真的理解它如何決策,故障時更難快速回到手動處理。
  • Automation neglect(自動化忽視):與 bias 相反,使用者反而漠視 AI 的提示。

商業飛行員技能退化#

  • 高度自動化讓飛行員親自操控的機會大幅減少,基本飛行技能退化。
  • 雖仍須在模擬器內練習緊急程序,但平日多在「保姆式照看自動駕駛」。

NASA 的應對:人才訓練重於 AI#

  • NASA 人因工程師 Jessica Marquez 強調,訓練人而非 AI 才是關鍵。
  • 重點是讓使用者建立正確的「心智模型(mental model)」:AI 吃什麼資料、從哪裡來、能做什麼、不能做什麼。
  • 太空人在進入太空前已預演數百種情境,其他職業也應思考類似訓練:
    • 業務員偶爾要不靠 AI 做模擬銷售。
    • 建築師要不靠 AI 想出五個空間概念。

警報設計的兩難#

  • 若 AI 多數時間正確,使用者很難對少見但致命的錯誤保持警覺。
  • 模擬登月實驗中,故障頻率才是決定飛行員是否警覺的關鍵,與是否手動操控無關。
  • 監測 AI 輸入輸出、適時警報是必要的,但設計上是兩難:太敏感造成「警報疲乏(alert fatigue)」,太遲鈍則錯失關鍵錯誤。

NASA HERA 與 Daphne 聊天機器人#

  • Houston 強森太空中心的 HERA(Human Research Exploration Analog) 模擬未來在火星衛星 Phobos 上的居住情境,志願者連續 45 天住在模擬艙內。
  • Texas A&M 開發的 Daphne 聊天機器人協助太空人修生命維持系統,提供異常的可能成因與機率。
  • 多個成因機率相近時,反而讓人更難決定——出現 automation neglect。
  • 加入解釋有助於建立信任,但會拖慢決策速度——又是新的權衡。

提供解釋:通往可信賴的 Copilot#

顯著圖(saliency map)的局限#

  • 醫療影像 AI 常見的解釋方法是 saliency map,像熱圖一樣標示 AI 看重的區域。
  • 2022 年《Lancet Digital Health》研究(MIT、Harvard School of Public Health、Australian Institute of Machine Learning)發現:熱圖只標出大塊區域,沒說明為什麼那裡重要。
  • 醫師會自動套用「我會看的特徵」當解釋,反而被矇蔽了 AI 真正在看的東西。

更好的解釋:原型特徵#

把 AI 訓練成能識別「疾病的原型特徵」(如肺炎典型的 ground-glass 圖樣),再告訴醫師它在影像中找到了哪些。這種解釋本身就是可被理解、可被質疑的。

  • 醫師可以追問:是不是該選的特徵?權重恰當嗎?
  • 這正是兩位醫師在診斷意見不一致時會展開的對話。

走向產業標準#

NASA 的標準不只規範 AI 軟體本身,還規範人機互動。各產業都應比照辦理:Copilot 的能力固然重要,介面與訓練同等關鍵。

為品牌挑選顏色的 Copilot 與設計橋樑的 Copilot,標準理所當然不會一樣。

設計得當的 Copilot,會帶來:

  • 生產力的飆升
  • 每個人都能擁有專家教練
  • 工作品質的全面提升
  • 更具成就感的職業生活