SRE 原則是否只屬於 Google?訪談多位曾任職國防、救生員、雷射視力矯正、電信、醫材、汽車、航空、製造(合成鑽石)、金融交易、核能等領域的工程師後,可以總結為四大主題:

  • 準備與災難測試
  • 事後檢討文化
  • 自動化與運維開銷
  • 結構化與理性決策

訪談對象一覽#

跨足多個高可靠度產業:

  • 國防/GPS / 慣性導航:Peter Dahl
  • 救生員:Mike Doherty
  • 雷射視力矯正(LASIK):Erik Gross
  • 電信 / E911:Gus Hartmann、Kevin Greer
  • 手機、醫療設備、汽車:Ron Heiby
  • 軍航空、海軍 avionics、英國鐵路號誌:Adrian Hilton
  • 合成鑽石製造(Six Sigma):Eddie Kennedy
  • 自有金融交易:John Li
  • 英國民用核能:Dan Sheridan
  • 美國海軍核能潛艇:Jeff Stevenson
  • 航管軟體:Matthew Toia

主題 1:準備與災難測試#

SRE 信條:「希望不是策略。」

年度 DiRT(Disaster and Recovery Testing) 推系統到極限,找出隱患。

其他產業的對應做法:

  • 以安全為核心:製造業每場管理會議從「安全」開始;核能、軍航、鐵路號誌有明確 SIL 1–4 等級規範
  • 重視細節:核動力潛艇——小到潤滑油保養都直接關係到大事故
  • 彈性容量(swing capacity):電信業的 SOW(switch on wheels)——奧運或天災時可推到現場
  • 模擬與實演:航空業靠模擬器(成本高、不能用真乘客);電信業辦颶風實演;核海軍每週 2–3 天「真的弄壞東西但有控參」;救生員「mystery shopper」式假落水演練
  • 訓練與認證:救生員定期認證 + 場域特定訓練(泳池 vs. 湖泊 vs. 海邊)
  • 詳盡需求蒐集與設計:醫材與國防——「先設計一年、再寫程式三週」
  • Defense in Depth:核能設多層失效保護,最後一層是廠房物理屏障

主題 2:事後檢討文化#

工業界稱 CAPA(Corrective and Preventative Action),與 SRE 的 blameless postmortem 同源——著重根因分析、聚焦組織學習而非究責。

各產業驅動力不同:

  • 政府監管:FCC(電信)、FAA(航空)、OSHA(製造/化工)、FDA(醫材)、各國 NCA、核能與運輸業
  • 安全考量:製造/化工每天面對高溫高壓高毒性;Alcoa 前 CEO Paul O’Neill 要求 24 小時內被告知任何受傷事件,並把家裡電話給作業員
  • Near Miss(差點出事):化工業把「險些釀禍」當成事前事後檢討——英國的 CHIRP(Confidential Reporting Programme for Aviation and Maritime) 即匯集匿名近 miss 報告
  • 救生員:「腳一進水就有 paperwork」——必寫事件報告;嚴重事件全隊集體回顧、進行訓練、必要時帶輔導員入場處理創傷

主題 3:自動化與運維開銷#

各產業對自動化的態度不一:

信任「人」勝過機器的代表:

  • 美國核海軍:開閥需 operator + supervisor + 通話中的工程值勤官——靠「值得信任的人類決策鏈」而非自動化;擔心自動化太快無法回頭
  • 自有金融交易:Knight Capital 2012 年「軟體 glitch」幾小時虧 $440M;2010 年 Flash Crash 萬億美元蒸發 30 分鐘——產業對自動化趨於保守

信任「機器」勝過人類的代表:

  • 製造業:自動化更可靠、可重複,且效率高
  • 英國核能:30 分鐘內要回應的情境必須自動化
  • 航空:選擇性自動化——operational failover 自動,實際 ATC 系統部署仍需人工驗證
  • LASIK 雷射手術:自動化大幅減少資料輸入錯誤——
    • 自動化的合理性檢查(測量值落在預期外即警示)
    • 手術前拍虹膜,手術時自動比對 → 不會張冠李戴
    • 整類醫療錯誤從此消失

主題 4:結構化與理性決策#

SRE 的決策準則:

  • 決策基礎事前約定,不事後合理化
  • 輸入清楚
  • 假設明確說出
  • 資料優先於直覺、年資、HiPPO(Highest-Paid Person’s Opinion)

預設前提:團隊成員都把使用者利益放在心上,且能依資料判斷下一步。

各產業的決策模式:

  • 「If it ain’t broke, don’t fix it」:電信業 1980 年代的長途交換機仍在用,「子彈打不穿、大量冗餘」;核能業同樣保守——這類產業底層技術設計時投入巨大,所以非常不情願改
  • 以 playbook 與程序為主:每個可預見情境都進「the binder」——適合演進緩慢、工人技能有限的產業
  • 資料驅動的實驗文化:研究與製造做嚴格 hypothesis testing,控制實驗驗證
  • 拆分決策權:自有交易公司有獨立的 enforcement 團隊監督實時操作——出狀況先停「不交易就不會虧」,恢復也只能由 enforcement 啟動

結語#

多數 SRE 核心原則跨產業普遍適用——Google 的某些做法甚至直接受老產業啟發。

最大差別在「速度容忍度」

  • 核能 / 航空 / 醫療:人命關天 → 保守
  • Google 軟體:可在「使用者期待高可靠」與「快速創新」之間走鋼索

SRE 用工具(如錯誤預算)作為「資助創新文化」的方法——把老產業驗證過的可靠性原則改造為適合 Google 規模、複雜度與速度的版本。