章節導讀#

理論再多不如案例直觀。本章從電商、醫療、銀行、旅遊與保全等不同產業的真實 SDLC 場景出發,呈現組織如何辨識反模式並用 SRE 實踐解題。

章節重點#

  • 共通術語複習
  • 避免告警疲勞
  • 提升可觀測性(包含可觀測性導向開發 ODD)
  • 用自動化降低人工 toil
  • 把根因分析(RCA)變成核心流程
  • 建立強健的事件管理
  • 改進缺陷分析與管理
  • 明確 SRE 與運維分工以避免過勞
  • 把守門(gatekeeping)內建在管線
  • 找對指標、用對指標
  • 讓 SRE 提早介入 SDLC,並把混沌與效能測試納入 SRE 職責

學習目標#

讀完本章,你會看到 SRE 各項實踐在真實環境中如何落地、如何被誤用,以及修正後的成效。每個案例都呼應前面章節的理論。

共通術語#

為了統一語彙,先簡述本章所用詞彙:

  • SME(Subject Matter Expert):對某個系統、技術或業務流程具備深厚知識的資深成員,例如架構師、staff engineer、技術專案經理
  • 工程團隊:開發、測試、品質分析、Agile Champion、PM、Scrum Master
  • 產品團隊:業務與分析團隊,與工程團隊協作流程
  • 基礎設施:伺服器、資料庫與其他工具
  • 資源(Resources):人力與基礎設施雙關,後者如伺服器資源使用率
  • SRE:Site Reliability Engineering
  • DevOps:擔任開發與運維之間橋樑的工程角色
  • CI/CD:持續整合 / 持續部署

後續案例中的 SDLC 階段不再每節重複描述,第一個案例會詳細展開供參考。