五年內,幾乎每個白領都將與 AI Copilot 共事#
在所有 AI 應用裡,對工作生活的衝擊最為立即。從會計、醫療到建築,幾乎每個專業在五年內都會配備 AI「Copilot」——一位數位同事。
正在路上的 Copilot 們:
- Jasper(奧斯汀):撰寫行銷文案、發展廣告活動。
- GitHub Copilot:眾多 AI 程式助手中最具代表性的一個。
- Google:為資安專業打造大型語言模型;同時推出 Med-PaLM(在醫療文本上微調的 PaLM)。
- Abridge / Nabla / Abstractive Health / Epic:醫師問診時自動產出病歷摘要的 AI。
- Hippocratic:協助醫療帳務與保險理賠的 LLM。
- Bloomberg:訓練 BloombergGPT,理解金融語言。
- Autodesk:以文字描述自動產生 3D 設計初稿,給建築師、室內設計師、總包商使用。
- Runway:以自然語言指令生成短片乃至電影。
大規模導入也已開始:
- Walmart:5 萬名員工可使用內部 Copilot「My Assistant」協助文件草稿。
- McKinsey、PwC:為員工配備生成式 AI 助手。
- JLL:自建 LLM 助手,開放給超過 10 萬員工使用。
- OpenAI 與 University of Pennsylvania 的研究:80% 美國勞工至少會有 10% 任務受 LLM 影響;19% 勞工至少有一半任務受影響。
設計得當的 Copilot 將釋放空前的生產力,讓我們更快、更有效率,也更愉悅——卸下我們最不喜歡、最不刺激的雜務。
但設計不當的 Copilot,會成為懶散的幫手與平庸的助產士:助長技能退化,誘發人們不假思索地照單全收 AI 的建議。從醫療到建築,這份「順勢自滿」可能釀成嚴重後果。
Britney Spears 測試:Casetext 與 CoCounsel 的故事#
律師 Jake Heller 的不眠之夜#
- 凌晨四點,年輕律師 Jake Heller 正趕著一份數十億美元訴訟的訴狀。他來自史丹佛法學院、曾任聯邦法官書記官,但仍找不到要的判例。
- 他突然意識到一件事:「Google 上『附近哪間泰式餐廳深夜還營業?』可以瞬間給我答案,但對我真正重要的判例反而難找——瑣事輕鬆,要事困難。」
- 2013 年他與人共同創辦 Casetext,目標是把法律研究帶進 21 世紀。
三道測試:能不能勝任律師工作#
技術長 Pablo Arredondo 設計了幾道判斷 AI 是否堪用的測試:
- Britney Spears 測試:給軟體一份併購合約,問「Britney Spears 何時發行首張專輯?」。早期 LLM 會自信地回答「2003 年」(正確答案是 1999),並虛構地引用合約第 7.3 條。
- Scalia 測試:能正確解讀已故大法官 Antonin Scalia 慣用的諷刺語氣並摘要其意見,AI 才算到位。
- 特權郵件測試:辨認郵件中的「privilege」是律師-當事人特權,還是「昨天能與您見面是榮幸(it was a privilege)」這樣的閒話。
GPT-4 終於做到了#
- 2022 年 OpenAI 邀請 Casetext 測試 GPT-4。「在 24 小時內,我們就知道整個公司必須圍繞它重做。」
- 2023 年 2 月推出 CoCounsel:以 GPT-4 為核心、結合 Casetext 自家軟體的法律 AI 助手。
- 它不只是搜尋引擎,還能分析判例、檢視合約、深度問題如「即興舞蹈是否受第一修正案保障?」並附最高法院判例。
- 撰寫一份原本要花數小時甚至數天的法律備忘錄,CoCounsel 三分鐘內完成初稿。
- Fisher Phillips(500 位律師的事務所)的管理合夥人 John Polson 表示:CoCounsel 立刻讓他們以更短時間為客戶做更多事。
但 CoCounsel 不寫訴狀。Arredondo 強調:「我們提供的是事實與法律。」說服法官的訴狀仰賴經驗與直覺;共同創辦人 Laura Safdie 也指出,寫訴狀是大多數律師覺得最享受的工作環節。
2023 年 6 月,Thomson Reuters 以 6.5 億美元收購 Casetext,足見這類助手的價值。
學徒制的回歸#
法律與顧問業仰賴「槓桿模式(leverage business model)」——資深合夥人帶領眾多初級律師,比例常為 3:1 或 4:1。事務所宣稱這讓新人累積專業,但實際上更在意每位初級律師「能為事務所創造的時數收入」。
AI Copilot 動搖了這個模式:客戶不會願意為一件 AI 已能完成的工作付給初階律師高昂時薪。
可能的轉變:
- 重新採行師徒制:初級律師的職責不是衝計費時數,而是在資深合夥人身邊學習。
- Heller 認識的一家事務所,正考慮在新人前三年完全不向客戶收取其工時費,但提高資深律師的費率。
- 「現在許多 associate 心裡會問:『我念法學院難道就是為了這個?』」AI 應該讓專業變得較不耗神、較不蝕魂。
學徒制的回歸對人類是好消息——將技能從一個人傳給另一個人,本就是工作中最具滿足感的時刻之一。AI 能輔助,但無法完全取代人對人的指導。
我們都成了中階主管#
不能照單全收#
- ChatGPT 等通用聊天機器人會虛構判例。已有律師(包括代表川普前律師 Michael Cohen 的人)因把 ChatGPT 編造的引用直接寫進法庭文書,被法官斥責並罰款。
- 未來許多工作的核心,將是監督 Copilot 的產出:AI 給初稿、概念草圖、會議紀錄、銷售話術,我們批判地審視、決定是否採用。
Wharton 教授 Ethan Mollick 的建議#
把 Copilot 當成「實習生(intern)」:可以指派任務「幫我把這份報告寫成執行摘要」,但絕不能未經審閱就交給客戶;同時也要回饋讓它進步。
- 「就像對待新進員工,你必須了解它的長處與短處,學會訓練它、與它合作,分辨它在哪裡有用、在哪裡只是惹人煩。」
反面警告:Tim Wu 的疑慮#
Columbia 法學者、曾任拜登白宮科技政策顧問的 Tim Wu 在《環球郵報》專欄指出:當 AI 讓任務更快完成,需求會反向擴張、期望也水漲船高——結果是「比以往更多事要做、但時間更少」。
與機器人共事,會讓我們自己變得更像機器人。
賽博格勞動力:藍領早已是 AI 的下屬#
對許多零工經濟(gig economy)的勞工而言,AI 已是他們的主管——這個「人類機器人化」的反烏托邦未來,已經到來。
- Uber、外送員、Amazon 倉儲員工:表面上是彈性工作,實際上是被演算法的嚴苛要求壓榨。
- Deliveroo(倫敦外送):必須在 30 秒內接單,且接單後才知道地址;之後再被 AI 預測「應該花的時間」評分;達不到,演算法降評,未來派單變少。
- Amazon 倉儲:演算法決定搬箱速度,員工因為跟不上節奏出現重複性勞損。
這個模式不必、也不應該擴張到白領工作。若我們把 Copilot 設計成真正協作——在多個階段需要人類輸入——並記住「工作不只追求利潤、也應有人性」,多數職業在可見的未來仍將仰賴人類判斷與表現,而最成功的企業會繼續給予員工高度自主。
AI 教練:不只是實習生#
客服中心的研究:菜鳥躍升最多#
Stanford 與 MIT 經濟學家分析超過 5000 名客服(多為菲律賓員工)使用 LLM Copilot 的成果:
- AI 即時聽懂對話、建議回覆,並調出技術文件;建議的回覆模仿頂尖客服的風格,並偏好同理、得體的用語。
- 整體案件解決率上升 14%。
- 新手提升最大:最低技能客服的生產力暴增 35%。
- 新人達到正常水準的時間從 8–10 個月縮短至 2 個月。
- 客戶情緒回應更正面,「升級給主管」的請求下降 25%。
- 員工流動率平均下降 9%,新人甚至下降 10%。
GitHub Copilot 的隨機對照試驗#
- 程式設計師使用 Copilot 後寫程式速度最高提升 55%。
- 多數使用者覺得更有生產力、60–75% 表示寫程式時較不挫折、更有成就感。
- 即便建議不總是正確(接受率約 35%,Java 等語言可達 60% 以上),體驗仍明顯改善。
Copilot 不只是替我們做雜事的數位實習生,更能成為個人化教練——讓不熟練的員工迅速接近頂尖水準,過去需大量師徒指導的學習曲線被大幅壓縮。
角色扮演:PwC ChatPwC 的實例#
PwC AI Copilot 團隊負責人 Nathan Kobayashi 在受訪當天,已先用 ChatPwC 預演整場訪談:
- 他請 ChatPwC 扮演記者向他提問,幫他預想可能會被問到的問題。
- 也請 ChatPwC 點評他擬好的答案。
- 對內會議他也常用同樣的方式預演。
設計上的特色:
- 內建多個角色(CPA、法律分析師等)與預建任務(分析試算表、撰寫法律考量摘要)。
- 從公司內部資料庫檢索、摘要,降低幻覺風險——但仍提醒員工必須親自檢查。
- 對於常見任務(撰寫初稿、執行摘要),將 PwC 顧問原本可能花 40 小時的工作壓縮到幾分鐘。
設計很重要#
介面決定一切#
- 神經網路的「引擎」固然重要,**儀表板(介面)**才決定 AI 能否真正幫到人。
- 多數研究顯示,人機合作往往能超越單獨人類或單獨 AI。但並非總是如此。
放射科的反例#
2023 年 MIT 經濟學家研究:放射科醫師單獨判讀 vs 搭配胸部 X 光 AI 助手。AI 單獨表現可比擬合格放射科醫師,但配合人類後,平均準確度沒有提升。
問題出在介面:AI 對 14 種病徵分別給出機率。
- 醫師原本就不確定時,AI 提示有幫助。
- 醫師原本有把握沒有病徵時,AI 給的小機率反而動搖醫師判斷。
- 醫師有把握是某病徵,AI 卻認為是另一病徵時,醫師傾向忽略 AI(但平均上 AI 較常正確)。
- AI 自己也不確定(20–60%)時,反而讓醫師決策變差。
- 不論哪種情況,醫師花更多時間檢視每張影像。
改善之道:
- AI 只在高信心時才出建議,其餘時候保持沉默。
- 視覺化標示影像上的可疑區域,而非只給機率。
- 將病例直接分流給「人類」或「AI」獨立判讀,僅在第一輪不確定時才交給第二位(人或機器)。
飛行藍圖:航空業的歷史教訓#
自動駕駛已存在百年#
- 萊特兄弟首飛後 9 年,第一具飛機自動駕駛問世;二戰時期已普遍。
- 今天的自動駕駛涵蓋幾乎所有飛行階段(地面滑行與起飛除外)。
法航 447 號班機的悲劇(2009/5/31)#
- 從里約飛巴黎的 A330 從 35,000 英尺墜入南大西洋,228 人全數罹難。
- 黑盒子顯示:機外壓力感測器結冰,自動駕駛突然解除,fly-by-wire 線傳飛控也同時退出。
- 飛行員拉桿使飛機進入失速;「Stall!」警報持續響起,但他們持續錯誤地拉桿,未推桿降低機頭恢復升力,飛機就此墜落。
三大認知偏誤#
飛行員犯了三種常見的人機互動偏誤:
- Automation bias(自動化偏誤):盲目相信自動系統決策正確,即使有矛盾證據。
- Automation surprise(自動化驚嚇):自動系統失靈時人會困惑——因為系統複雜不透明,使用者並不真的理解它如何決策,故障時更難快速回到手動處理。
- Automation neglect(自動化忽視):與 bias 相反,使用者反而漠視 AI 的提示。
商業飛行員技能退化#
- 高度自動化讓飛行員親自操控的機會大幅減少,基本飛行技能退化。
- 雖仍須在模擬器內練習緊急程序,但平日多在「保姆式照看自動駕駛」。
NASA 的應對:人才訓練重於 AI#
- NASA 人因工程師 Jessica Marquez 強調,訓練人而非 AI 才是關鍵。
- 重點是讓使用者建立正確的「心智模型(mental model)」:AI 吃什麼資料、從哪裡來、能做什麼、不能做什麼。
- 太空人在進入太空前已預演數百種情境,其他職業也應思考類似訓練:
- 業務員偶爾要不靠 AI 做模擬銷售。
- 建築師要不靠 AI 想出五個空間概念。
警報設計的兩難#
- 若 AI 多數時間正確,使用者很難對少見但致命的錯誤保持警覺。
- 模擬登月實驗中,故障頻率才是決定飛行員是否警覺的關鍵,與是否手動操控無關。
- 監測 AI 輸入輸出、適時警報是必要的,但設計上是兩難:太敏感造成「警報疲乏(alert fatigue)」,太遲鈍則錯失關鍵錯誤。
NASA HERA 與 Daphne 聊天機器人#
- Houston 強森太空中心的 HERA(Human Research Exploration Analog) 模擬未來在火星衛星 Phobos 上的居住情境,志願者連續 45 天住在模擬艙內。
- Texas A&M 開發的 Daphne 聊天機器人協助太空人修生命維持系統,提供異常的可能成因與機率。
- 多個成因機率相近時,反而讓人更難決定——出現 automation neglect。
- 加入解釋有助於建立信任,但會拖慢決策速度——又是新的權衡。
提供解釋:通往可信賴的 Copilot#
顯著圖(saliency map)的局限#
- 醫療影像 AI 常見的解釋方法是 saliency map,像熱圖一樣標示 AI 看重的區域。
- 2022 年《Lancet Digital Health》研究(MIT、Harvard School of Public Health、Australian Institute of Machine Learning)發現:熱圖只標出大塊區域,沒說明為什麼那裡重要。
- 醫師會自動套用「我會看的特徵」當解釋,反而被矇蔽了 AI 真正在看的東西。
更好的解釋:原型特徵#
把 AI 訓練成能識別「疾病的原型特徵」(如肺炎典型的 ground-glass 圖樣),再告訴醫師它在影像中找到了哪些。這種解釋本身就是可被理解、可被質疑的。
- 醫師可以追問:是不是該選的特徵?權重恰當嗎?
- 這正是兩位醫師在診斷意見不一致時會展開的對話。
走向產業標準#
NASA 的標準不只規範 AI 軟體本身,還規範人機互動。各產業都應比照辦理:Copilot 的能力固然重要,介面與訓練同等關鍵。
為品牌挑選顏色的 Copilot 與設計橋樑的 Copilot,標準理所當然不會一樣。
設計得當的 Copilot,會帶來:
- 生產力的飆升
- 每個人都能擁有專家教練
- 工作品質的全面提升
- 更具成就感的職業生活