「不幸的是,大多數警報系統不會警告我們它們已經無法警告我們。」——查爾斯.佩羅(Charles Perrow)

開頭:Torrey Canyon 的「許多小事」#

1967 年 3 月 18 日,利比里亞籍油輪 Torrey Canyon 在英國康沃爾外海的 Seven Stones 礁石上撞毀,1,300 萬加侖原油外洩,至今仍是英國史上最大油污事件。船長 Pastrengo Rugiati 在事故調查時說了一句話,成了複雜失敗的經典定義:

「許多小事加總起來,造成一場大災難。」(Many little things added up to one big disaster.)

這些「小事」包括:

  • 原文《海峽領航指南》(The Channel Pilot)這本標準航海手冊在船上遺失
  • 高潮窗只剩一天,否則需再等六天
  • 大副自行修正航向,引起船長不滿,下令回到原航線(路徑會經過 Seven Stones 礁附近)
  • 突然出現的兩艘龍蝦船迫使他急轉彎
  • 舵機故障,使轉向延遲關鍵幾秒

任何單一因子被消除,事故可能就不會發生。複雜失敗的本質就是「多重因子在熟悉場景中異常組合」。

找代罪羔羊的本能#

調查委員會把全部責任歸於船長個人:他的執照被撤銷,從此無法航海。事後人們才慢慢認識到:

  • 一名船員測量並回報的航海數據其實有誤
  • 甲板上有人誤動了舵機側桿
  • 《海峽領航指南》的遺失沒被追究

歸責於單一個人雖然容易,也讓船東與保險公司省下約 1,700 萬美元賠償——但對於組織學習毫無幫助。

究責文化(blame culture)會讓人不敢及時指出問題,因此降低績效,而非提升。

無責回報(blameless reporting)+ 高績效標準才是真正能減少複雜失敗的搭配。

複雜失敗的四大特徵#

特徵說明
熟悉場景知識多半已存在,但「我做過很多次」反而帶來虛假的安全感
多重原因內部因子(程序、技能)與外部因子(天氣、第三方)相互作用
警訊先行事前通常有不被重視的微弱徵兆
外部因子加持通常包含一個看似不可控、運氣成分的變數

熟悉場景的陷阱#

  • 電影《Rust》槍擊案(2021/10/21):場地、流程、安全程序對劇組都是熟悉的——但安全規則沒被嚴格執行,導彈擊中攝影師 Halyna Hutchins
  • 「我可以閉著眼睛做」是複雜失敗的前奏

多重原因疊加#

  • Champlain Towers South 公寓崩塌(2021/06/24):沼澤地建城、紅樹林被砍除、海平面上升、住戶不願負擔 900 萬美元維修費 ⋯⋯ 一連串因素
  • Brian Bugge 潛水事件:他下水前忘了打開氧氣供應——表面看是基本失敗,但細究會發現:教練是新手、行程時程混亂、軍人階級文化讓人不敢質疑教練、伙伴互查程序未被執行

警訊被忽視#

  • 《Rust》劇組前一週就發生過兩次「走火」事件,工作人員提出安全疑慮但未被重視
  • Champlain Towers 一年半前的工程檢查報告就指出泳池甲板下方積水
  • 多數複雜失敗的事後分析都會發現「警訊一直都在」

雪上加霜:把事情搞得更糟#

Torrey Canyon 事故後的處理本身就是另一場複雜失敗:

  • 荷蘭打撈公司嘗試把船從礁石拖出,失敗
  • 英國石油(BP)倒入 70 萬加侖工業清潔劑 BP1002,毒性遠超原油本身
  • 約 15,000 隻海鳥死亡
  • 最後英國皇家海軍轟炸油輪(41 顆千磅炸彈中只有 23 顆命中),並投擲凝固汽油彈

海洋生物學家 Stephen Hawkins 後來說:「治療比疾病本身更糟。」

數十年累積的複雜失敗:Boeing 737 MAX#

  • 2018/10/29:Lion Air 610 班機起飛 13 分鐘後墜入爪哇海,肇因是 MCAS 失靈系統把機頭壓下
  • 2019/03:衣索比亞航空 302 班機因相同原因墜毀
  • 兩起事故導致 FAA 全球停飛 737 MAX 機隊;波音被起訴詐欺,賠償超過 25 億美元

但這個複雜失敗的真正源頭可以追溯到:

  • 1997 年波音併購麥道(McDonnell Douglas):總部從西雅圖搬到芝加哥;高階主管從工程背景轉為財務背景(記者稱為「bean counters」)
  • 2010 年 Airbus A320neo 推出:強迫波音以速度回應而非從零設計新機
  • MCAS 軟體:為了不需要昂貴的模擬器訓練,波音管理層刻意在飛行員手冊中弱化甚至不提這個系統
  • 「會讓你把家人放上 MAX 嗎?我不會。」——一位內部工程師的留言

為什麼複雜失敗在現代越來越多#

  • 資訊科技耦合度高:Equifax 2017 年資料外洩,駭客取得 1.5 億美國人個資,因為一處漏洞 76 天才被發現
  • 社群媒體:「病毒式」傳播放大失敗影響
  • 全球供應鏈:2020 年口罩需求飆升 → 中國工廠出貨 → 全球海運貨櫃失衡 → 中國出口口罩反而短缺貨櫃
  • 金融網路:每家銀行都互相連接,一處錯誤可在他國觸發連鎖反應

系統如何孕育複雜失敗#

Charles Perrow 的「正常意外」(Normal Accidents, 1984)#

兩個關鍵維度:

  • 互動複雜性(interactive complexity):多個元件以難以預測的方式互動
  • 緊密耦合(tight coupling):一處的動作會無可避免地觸發另一處的反應,無法中斷
互動複雜性 / 耦合度鬆耦合緊耦合
線性互動工廠(managed)鐵路(control)
複雜互動大學(negotiated)核電廠(danger)

Perrow 提出此模型時,「危險區」只有少數系統。今日大學、銀行、油田、社群網路都已被推進這個區。

Figure 4.1: Perrow 模型重訪——互動複雜性與耦合度的四象限

醫療系統的「鬆耦合 + 高互動複雜性」#

  • 開立處方 → 藥師調劑 → 他人配送 → 護理師給藥,多重環節有人類介入,因此屬鬆耦合
  • 鬆耦合不代表不會壞,只代表錯誤可以被攔截——前提是有人真的去攔截
  • Matthew 的嗎啡過量案例(七個小因子合流):
    1. ICU 滿床 → 男孩被安排到一般病房
    2. 值班是新護理師
    3. 輸液幫浦放在房間的暗角落
    4. 該護理師不熟悉裝置
    5. 求助的資深護理師趕時間
    6. 藥袋標籤纏繞遮住了濃度
    7. 第一位護理師沒獨立計算,只「在背後看一眼」

James Reason 的瑞士起司模型(Swiss Cheese Model, 1990)#

  • 每片防禦層都有「洞」(小錯誤),但通常不對齊
  • 偶爾洞排成一直線,失敗就「鑽過所有防線」
  • 醫院主管辦公桌上常擺一塊海綿瑞士起司,提醒大家——錯誤一定會發生,重要的是讓防線疊得夠多

如何降低複雜失敗#

1. 從過去的失敗學習#

  • Torrey Canyon 之後:油輪改用雙層船體;1990 年美國通過《油污染法》(Oil Pollution Act);環保運動誕生
  • Halyna Hutchins 的死促使電影業重新檢討片場槍枝管理;潛水社群也因 Brian Bugge 案開始建立更嚴格的安全文化

2. 注意「曖昧威脅」(ambiguous threats)#

  • 明確威脅(5 級颶風明天登陸)→ 容易觸發行動
  • 曖昧威脅(影像裡有個模糊光點、車子有怪聲、青少年參加可能有酒的派對)→ 容易被忽視

Columbia 太空梭(2003/02/01):升空隔天工程師 Rodney Rocha 看到影像中有黑點,懷疑泡棉撞擊機翼。他申請國防部間諜衛星拍照——被 NASA 主管駁回,因為他們相信「泡棉撞擊不嚴重」。15 天後 Columbia 在重返大氣層時解體,七名太空人罹難。

人類傾向用確認偏誤(confirmation bias)忽略曖昧威脅,這也是 2008 年金融海嘯前次貸抵押證券、2020 年 COVID-19 早期被低估的共通病理。

3. 善用「復原視窗」(recovery window)#

從察覺微弱訊號到失敗發生之間的時間,就是恢復視窗。Columbia 案例中,從第一份疑問到災難發生有 15 天;Boeing 兩次空難之間有 5 個月——但都被浪費掉了。

4. 歡迎假警報(welcome false alarms)#

豐田 Andon Cord 案例:12 次拉繩中只有 1 次是真的問題。但豐田不會把那 11 次當成浪費,反而視為練兵與訓練:

  • 每一次假警報都讓組長與成員一起學習如何判斷異常
  • 假警報是「煙」,比「火」更早出現

醫療版本:Rapid Response Team(RRT)。當床邊護理師覺得病人「臉色不對」、「情緒不對」時,可以呼叫專科團隊——不是等心跳停止才能叫。

史丹佛研究:實施 RRT 後 code blue(心跳停止急救)下降 71%,風險調整後死亡率下降 16%。

但前提是:假警報要被慶祝為練兵,而非懲罰

5. 想得比「眼前那件事」更遠(think beyond the thing)#

退役海軍飛官 Aaron Dimmock 在波多黎各的維護試飛中,連續遇上四個故障(起落架收不上、引擎重啟失敗、第二顆引擎故障、降落時起落架失靈),最後安全降落。他的方法:

  • catch:每一個異常都立即被注意到
  • correct:團隊四人輪流發言、不過度自信、共同決策
  • 他作為機長最重要的工作:「確保每個人都有發言權」(I have to ensure that everyone has a voice)

6. 預演(practicing)#

  • 火警演習、防身演習、模擬器訓練、RRT 練兵
  • Alcoa、航空業之所以有亮眼安全紀錄,不是因為消除人為錯誤,而是因為持續練習如何攔截與修正錯誤

本章重點#

  • 複雜失敗 = 熟悉場景 + 多重原因 + 警訊被忽視 + 外部因素加持
  • 究責文化會讓警訊更難被傳達;無責回報才是真正的解方
  • 工具:瑞士起司模型、HRO 五大特性、Andon Cord、RRT、catch and correct
  • 三個跨章節能力——自我覺察、情境覺察、系統覺察——將在 Part Two 中展開