網站可靠性工作手冊 封面

網站可靠性工作手冊

👨‍💼: Betsy Beyer, Niall Richard Murphy, David K. Rensin, Kent Kawahara, Stephen Thorne
📅: August 1, 2018
Buy Now
📖:
Google SRE 實踐手冊,以具體案例展示網站可靠性工程的落地方法。
📘 深度概覽

作者背景#

本書由 Google 的 SRE 團隊核心成員共同撰寫,主要編輯包括 Betsy Beyer(Google 技術寫作者,曾參與多本 SRE 系列書籍的編撰)、Niall Richard Murphy(Google SRE 資深工程師,長期從事大規模分散式系統的可靠性工程)、David K. Rensin(Google 雲端平台 SRE 負責人)、Kent Kawahara 與 Stephen Thorne。本書是《Site Reliability Engineering》(2016 年出版)的實踐導向姊妹篇,前書定義了 SRE 的理論框架,本書則聚焦於如何將這些原則落地實施。

完整摘要#

本書以三大部分系統性地展開 SRE 的實踐方法。第一部分「基礎」建立核心概念:闡明 SRE 與 DevOps 的關係(SRE 實作了 DevOps 所描述的哲學)、詳述服務等級目標(SLO)的制定與實施方法、監控系統的設計原則、基於 SLO 的告警策略、苦差事(Toil)的識別與消除,以及系統簡化的工程實踐。第二部分「實踐」深入具體的操作領域:值班(On-Call)管理、事故回應流程、事後檢討(Postmortem)文化的建立、負載管理策略、大規模系統設計(Non-Abstract Large System Design)、資料處理管線的可靠性、配置管理的設計與最佳實踐,以及金絲雀發布(Canarying Releases)的方法。第三部分「流程」關注組織層面的議題:如何識別與應對團隊過載、SRE 團隊的參與模型與生命週期管理、向外部組織推廣 SRE 實踐,以及在組織中推動變革管理。全書始終以 Google 及其他公司的真實案例為基礎,強調 SRE 的核心信條:用軟體工程方法解決營運問題,以 SLO 作為決策的客觀依據。

本書的貢獻與定位#

本書填補了 SRE 理論與實踐之間的鴻溝。前作《Site Reliability Engineering》回答了「什麼是 SRE」,本書則回答「如何實施 SRE」。書中大量的具體案例、決策框架與實施步驟,使得非 Google 規模的組織也能借鑑其方法。適合正在建立或改進 SRE 實踐的工程團隊、基礎架構主管,以及希望將可靠性工程融入開發流程的技術領導者。