Google SRE 副總裁 Benjamin Lutch 的結語。

從 1990 年代 Excite 的「Software Operations」(一種原始版 SRE),到 2006 年加入 Google 時的數百位 SRE,到今天上千人跨十多個地點——SRE 規模成長飛快,且持續支撐世界最有趣的運算基建。

SRE 成功的核心#

SRE 把工程師的時間平均切到兩種同樣重要的工作:

  • On-Call:親手觀察系統如何運作與如何壞掉
  • 反思與打造:用程式碼把運維經驗封裝為解決方案,再交付給其他 SRE 與整個 Google(甚至外部,像 Google Cloud)使用

換言之,SRE 同時是飛行員與工程師/設計師

一致與演進#

兩種同時發生的動態:

  • 責任本質一致:規模放大 1,000 倍,系統仍要可靠、靈活、急難可管理、可監控、容量充足
  • 手段隨能力演進:從「為 20 台機器建儀表板」演進成「跨數萬台機器自動發現、自動建儀表板與告警」

Ben Treynor Sloss 在本書引言提出的責任清單——十年後依然準確。好的基礎是「一般到可立即套用、但又能撐過未來」的公理組合。

飛機產業的類比#

100 年前要兩座城市之間飛:

  • 一具引擎(運氣好兩具)、少量行李、一位飛行員(兼機械師、裝卸工)
  • 任何系統失效都可能是災難——甚至需要飛行員爬出座艙做空中維修

100 年後的 747:

  • 數百位乘客、雙層機艙、上噸貨物
  • 滿滿可靠且冗餘的系統
  • 全球 6,000 英里精準飛抵、誤差以分鐘計
  • 看一眼駕駛艙——還是只有兩位飛行員

為什麼安全、容量、速度、可靠性全部 scale up,但駕駛員仍是兩位?

答案是:駕駛艙的介面被精心設計,正常操作可學、緊急應變強韌且快速。背後的系統具備:

  • 可用度
  • 效能最佳化
  • 變更管理
  • 監控與告警
  • 容量規劃
  • 緊急應變

——本書討論過的所有要素。

SRE 的願景#

SRE 團隊應盡可能精簡並在高抽象層次運作——依靠大量備援系統作為 failsafe、用深思熟慮的 API 與系統溝通。

同時,SRE 對系統運作、失敗模式、應變方式了如指掌——這份知識來自日復一日的真實運維。

像 747 的駕駛艙一樣——簡單卻足夠靈活,背後是極為複雜但設計良好的工程體系。