章節導讀#

本章帶領讀者建立對網站可靠性工程(Site Reliability Engineering, SRE)的基本認識,說明這個角色在現代軟體開發中的位置,以及它如何從 Google 的內部實踐演變成跨產業的主流做法。

章節重點#

  • 釐清 SRE 的定義、起源與核心精神
  • 說明 SRE 如何嵌入軟體開發生命週期(Software Development Lifecycle, SDLC)的各階段
  • 探討為何現代 IT 組織需要 SRE 團隊
  • 介紹 SRE 的四大支柱:SLO/SLI、監控、緊急應變、變更管理
  • 闡述雲端原生(cloud-native)時代下 SRE 的關鍵角色

學習目標#

讀完本章,你會掌握 SRE 的基本含義與發展軌跡,並能從 SRE 視角描繪 SDLC 的全貌,理解為什麼網站可靠性在 IT 產業愈發重要。

本章作為全書基礎,後續章節會在這些概念上展開更深入的實踐與案例討論。