本部分檢視 SRE 團隊運作所依循的核心原則——影響整體 SRE 運維的模式、行為與關注領域。
章節概覽#
- 第 3 章「擁抱風險」:是本部分最重要的一章。透過「風險」的視角審視 SRE:如何評估、如何管理,以及如何用**錯誤預算(error budget)**作為服務管理中性而實用的取捨機制
- 第 4 章「服務水準目標」:解開業界常把指標(SLI)、目標(SLO)與協議(SLA)混為一談的迷霧,並提供如何為自家應用挑選有用指標的建議
- 第 5 章「消除瑣事」:定義瑣事(toil)為「平庸、重複、無持久價值、且隨服務成長線性放大的運維工作」,並提出消除策略
- 第 6 章「監控分散式系統」:監控是做對事情的必要前提;本章提出與實作無關的監控最佳實踐
- 第 7 章「Google 自動化的演進」:透過實際案例研究 SRE 的自動化方法,呈現成功與失敗的教訓
- 第 8 章「發佈工程」:多數公司把發佈工程當作事後考量,但大部分故障源自變更推送;本章說明為何發佈工程對穩定性至關重要
- 第 9 章「簡潔性」:簡潔一旦失去就很難找回——「複雜的可工作系統必然由簡單的可工作系統演進而來」
本部分定下後續章節的概念基礎:錯誤預算、SLO、瑣事、監控四大主題幾乎是本書其餘章節反覆引用的詞彙。
延伸閱讀#
- Google SRE 在 2014 年發表的〈Making Push On Green a Reality〉[Kle14]:移除人工發佈過程反而能在降低瑣事的同時提升可靠性