章節導讀#
理論再多不如案例直觀。本章從電商、醫療、銀行、旅遊與保全等不同產業的真實 SDLC 場景出發,呈現組織如何辨識反模式並用 SRE 實踐解題。
章節重點#
- 共通術語複習
- 避免告警疲勞
- 提升可觀測性(包含可觀測性導向開發 ODD)
- 用自動化降低人工 toil
- 把根因分析(RCA)變成核心流程
- 建立強健的事件管理
- 改進缺陷分析與管理
- 明確 SRE 與運維分工以避免過勞
- 把守門(gatekeeping)內建在管線
- 找對指標、用對指標
- 讓 SRE 提早介入 SDLC,並把混沌與效能測試納入 SRE 職責
學習目標#
讀完本章,你會看到 SRE 各項實踐在真實環境中如何落地、如何被誤用,以及修正後的成效。每個案例都呼應前面章節的理論。
共通術語#
為了統一語彙,先簡述本章所用詞彙:
- SME(Subject Matter Expert):對某個系統、技術或業務流程具備深厚知識的資深成員,例如架構師、staff engineer、技術專案經理
- 工程團隊:開發、測試、品質分析、Agile Champion、PM、Scrum Master
- 產品團隊:業務與分析團隊,與工程團隊協作流程
- 基礎設施:伺服器、資料庫與其他工具
- 資源(Resources):人力與基礎設施雙關,後者如伺服器資源使用率
- SRE:Site Reliability Engineering
- DevOps:擔任開發與運維之間橋樑的工程角色
- CI/CD:持續整合 / 持續部署
後續案例中的 SDLC 階段不再每節重複描述,第一個案例會詳細展開供參考。