本部分聚焦於 SRE 如何「在團隊中工作」與「以團隊形式工作」。沒有 SRE 是孤島,而 SRE 的協作方式也有其鮮明特色。

章節概覽#

  • 第 28 章「加速 SRE 上手 On-Call」:認真經營 SRE 組織必須認真經營訓練;好的訓練計畫能讓新人在數週內具備過去需數年才能累積的最佳實踐
  • 第 29 章「處理中斷」:負責任何重要服務都會帶來大量中斷——產品瀕臨故障、bug 二進位檔需更新、長串諮詢請求……管理中斷是 SRE 必備技能
  • 第 30 章「嵌入式 SRE」:當動盪持續太久,團隊需要從運維過載中恢復;本章提供具體的恢復計畫
  • 第 31 章「溝通與協作」:討論 SRE 內部各種角色、跨團隊/跨地點/跨大陸的溝通、生產會議的運作,以及 SRE 協作良好的案例
  • 第 32 章「演進 SRE 合作模式」:檢視 SRE 工作的基石——生產就緒度評估(Production Readiness Review, PRR),並討論如何超越這個雖成功但有局限的模式

本部分的最佳實踐——訓練、溝通、會議規範——大多數可立即套用到非 Google 的組織中。

延伸閱讀#

  • 〈The Systems Engineering Side of Site Reliability Engineering〉[Hix15b]:從系統分析與工程角度看 SRE
  • 〈Hiring Site Reliability Engineers〉[Jon15]:SRE 招募的特殊挑戰;即使以 Google 標準衡量,SRE 候選人也比一般職缺更難尋找與面試