章節導讀#
本章把前兩章建立的 SRE 觀念延伸到實作層面:如何用 SRE 方法論打造高效、穩定、可演進的軟體系統。除了完整論述 SRE 各個面向的具體技巧,還會穿插真實案例,呈現 SRE 如何幫助組織達成業務目標。
近期一份產業調查顯示,導入 SRE 的組織當中有 75% 回報「服務可靠性顯著提升」。
章節重點#
- 設計可擴充、可靠、可用的系統三角
- 容量規劃與成本管理
- 測試在 SRE 視角下的關鍵地位
- 監控與可觀測性工具的選擇與整合
- 強健的事件管理流程
- 透過自動化降低 toil
- CAMS 模型與不可或缺的「分享」面向
- 不可知(Agnostic)方法的取捨與「沒有量測就沒有改進」的原則
學習目標#
讀完本章,你會掌握 SRE 設計與運維的整體方法論,理解跨團隊協作如何把這些原則落實到實際軟體交付中。