在 Part I 所涵蓋的 SRE 基礎原則之上,Part II 深入探討 Google 在大規模運維中發現的重要 SRE 相關活動。
部分主題如資料處理管線和負載管理可能不適用於所有組織;而其他主題如安全地透過配置和金絲雀發布處理變更、On-Call 實務、事件回應、事後檢討,以及出問題時該怎麼做,對任何 SRE 團隊都包含寶貴的經驗教訓。本部分也介紹了重要的 SRE 技能——Non-Abstract Large System Design (NALSD),並呈現了詳細的設計實踐範例。
在從基礎邁向實務的過程中,SRE 工作可概念化為兩大類別:運維工作(On-call、客戶請求、事件回應、事後檢討)和專案工作(提升穩定性、可靠性和可用性的長期工程)。Google 規定 SRE 應至少將 50% 的時間用於專案工作,實務上約三分之一用於運維、三分之二用於專案是理想的平衡。運維工作中發現的問題應回饋為專案工作,形成持續改善生產環境的正向循環。