結語 • 網站可靠性工程｜Google 的系統管理之道

Google SRE 副總裁 Benjamin Lutch 的結語。

從 1990 年代 Excite 的「Software Operations」（一種原始版 SRE），到 2006 年加入 Google 時的數百位 SRE，到今天上千人跨十多個地點——SRE 規模成長飛快，且持續支撐世界最有趣的運算基建。

SRE 成功的核心#

SRE 把工程師的時間平均切到兩種同樣重要的工作：

換言之，SRE 同時是飛行員與工程師／設計師。

兩種同時發生的動態：

Ben Treynor Sloss 在本書引言提出的責任清單——十年後依然準確。好的基礎是「一般到可立即套用、但又能撐過未來」的公理組合。

100 年前要兩座城市之間飛：

100 年後的 747：

為什麼安全、容量、速度、可靠性全部 scale up，但駕駛員仍是兩位？

答案是：駕駛艙的介面被精心設計，正常操作可學、緊急應變強韌且快速。背後的系統具備：
可用度
效能最佳化
變更管理
監控與告警
容量規劃
緊急應變
——本書討論過的所有要素。

SRE 團隊應盡可能精簡並在高抽象層次運作——依靠大量備援系統作為 failsafe、用深思熟慮的 API 與系統溝通。
同時，SRE 對系統運作、失敗模式、應變方式了如指掌——這份知識來自日復一日的真實運維。

像 747 的駕駛艙一樣——簡單卻足夠靈活，背後是極為複雜但設計良好的工程體系。