章節導讀#

本章整理當代 SRE 常用的工具與選型考量,並以速查表的形式整理日常職責。書中提到的工具不是「必學清單」,而是依不同問題類型可以選擇的選項。

章節重點#

  • 事件管理工具
  • 變更管理工具
  • 告警與監控工具
  • 發布與部署工具
  • 混沌測試工具
  • SRE 速查表:日常工作分類與最佳實踐

學習目標#

讀完本章,你會具備為自家專案挑選 SRE 工具的判斷力,也能用速查表檢視團隊既有的職責分布是否完整。

工具選型的通用考量#

挑工具前先問自己:

  • 我們要解決的問題是什麼?工具是否真的能解?
  • 誰會使用?評估成本與真實使用者
  • 是否需要與其他工具整合?或有同時涵蓋多功能的單一工具?
  • 重要產出是什麼?工具能否同時帶來這些產出?
  • 學習曲線如何?團隊是否已有經驗?是否需要認證或培訓?
  • 部署成本如何?是否每個功能都要客製?
  • 工具的市場熱度(不是唯一因素,但類似業務模式的同行採用是有用線索)

任何工具都該回答兩個問題:「它解決哪個 SRE 痛點?」「導入它的長期成本是否低於不導入?」