SRE 原則是否只屬於 Google?訪談多位曾任職國防、救生員、雷射視力矯正、電信、醫材、汽車、航空、製造(合成鑽石)、金融交易、核能等領域的工程師後,可以總結為四大主題:
- 準備與災難測試
- 事後檢討文化
- 自動化與運維開銷
- 結構化與理性決策
訪談對象一覽#
跨足多個高可靠度產業:
- 國防/GPS / 慣性導航:Peter Dahl
- 救生員:Mike Doherty
- 雷射視力矯正(LASIK):Erik Gross
- 電信 / E911:Gus Hartmann、Kevin Greer
- 手機、醫療設備、汽車:Ron Heiby
- 軍航空、海軍 avionics、英國鐵路號誌:Adrian Hilton
- 合成鑽石製造(Six Sigma):Eddie Kennedy
- 自有金融交易:John Li
- 英國民用核能:Dan Sheridan
- 美國海軍核能潛艇:Jeff Stevenson
- 航管軟體:Matthew Toia
主題 1:準備與災難測試#
SRE 信條:「希望不是策略。」
年度 DiRT(Disaster and Recovery Testing) 推系統到極限,找出隱患。
其他產業的對應做法:
- 以安全為核心:製造業每場管理會議從「安全」開始;核能、軍航、鐵路號誌有明確 SIL 1–4 等級規範
- 重視細節:核動力潛艇——小到潤滑油保養都直接關係到大事故
- 彈性容量(swing capacity):電信業的 SOW(switch on wheels)——奧運或天災時可推到現場
- 模擬與實演:航空業靠模擬器(成本高、不能用真乘客);電信業辦颶風實演;核海軍每週 2–3 天「真的弄壞東西但有控參」;救生員「mystery shopper」式假落水演練
- 訓練與認證:救生員定期認證 + 場域特定訓練(泳池 vs. 湖泊 vs. 海邊)
- 詳盡需求蒐集與設計:醫材與國防——「先設計一年、再寫程式三週」
- Defense in Depth:核能設多層失效保護,最後一層是廠房物理屏障
主題 2:事後檢討文化#
工業界稱 CAPA(Corrective and Preventative Action),與 SRE 的 blameless postmortem 同源——著重根因分析、聚焦組織學習而非究責。
各產業驅動力不同:
- 政府監管:FCC(電信)、FAA(航空)、OSHA(製造/化工)、FDA(醫材)、各國 NCA、核能與運輸業
- 安全考量:製造/化工每天面對高溫高壓高毒性;Alcoa 前 CEO Paul O’Neill 要求 24 小時內被告知任何受傷事件,並把家裡電話給作業員
- Near Miss(差點出事):化工業把「險些釀禍」當成事前事後檢討——英國的 CHIRP(Confidential Reporting Programme for Aviation and Maritime) 即匯集匿名近 miss 報告
- 救生員:「腳一進水就有 paperwork」——必寫事件報告;嚴重事件全隊集體回顧、進行訓練、必要時帶輔導員入場處理創傷
主題 3:自動化與運維開銷#
各產業對自動化的態度不一:
信任「人」勝過機器的代表:
- 美國核海軍:開閥需 operator + supervisor + 通話中的工程值勤官——靠「值得信任的人類決策鏈」而非自動化;擔心自動化太快無法回頭
- 自有金融交易:Knight Capital 2012 年「軟體 glitch」幾小時虧 $440M;2010 年 Flash Crash 萬億美元蒸發 30 分鐘——產業對自動化趨於保守
信任「機器」勝過人類的代表:
- 製造業:自動化更可靠、可重複,且效率高
- 英國核能:30 分鐘內要回應的情境必須自動化
- 航空:選擇性自動化——operational failover 自動,實際 ATC 系統部署仍需人工驗證
- LASIK 雷射手術:自動化大幅減少資料輸入錯誤——
- 自動化的合理性檢查(測量值落在預期外即警示)
- 手術前拍虹膜,手術時自動比對 → 不會張冠李戴
- 整類醫療錯誤從此消失
主題 4:結構化與理性決策#
SRE 的決策準則:
- 決策基礎事前約定,不事後合理化
- 輸入清楚
- 假設明確說出
- 資料優先於直覺、年資、HiPPO(Highest-Paid Person’s Opinion)
預設前提:團隊成員都把使用者利益放在心上,且能依資料判斷下一步。
各產業的決策模式:
- 「If it ain’t broke, don’t fix it」:電信業 1980 年代的長途交換機仍在用,「子彈打不穿、大量冗餘」;核能業同樣保守——這類產業底層技術設計時投入巨大,所以非常不情願改
- 以 playbook 與程序為主:每個可預見情境都進「the binder」——適合演進緩慢、工人技能有限的產業
- 資料驅動的實驗文化:研究與製造做嚴格 hypothesis testing,控制實驗驗證
- 拆分決策權:自有交易公司有獨立的 enforcement 團隊監督實時操作——出狀況先停「不交易就不會虧」,恢復也只能由 enforcement 啟動
結語#
多數 SRE 核心原則跨產業普遍適用——Google 的某些做法甚至直接受老產業啟發。
最大差別在「速度容忍度」:
- 核能 / 航空 / 醫療:人命關天 → 保守
- Google 軟體:可在「使用者期待高可靠」與「快速創新」之間走鋼索
SRE 用工具(如錯誤預算)作為「資助創新文化」的方法——把老產業驗證過的可靠性原則改造為適合 Google 規模、複雜度與速度的版本。