主流混沌測試工具#

Litmus#

  • 開源工具
  • 提供針對容器、主機、Azure、AWS、GCP 等多平台的測試案例庫
  • Web UI 方便檢視測試結果
  • 與可觀測性工具整合佳

AWS Fault Injection Simulator#

  • 底層平台為 AWS
  • 與 AWS 應用與基礎設施搭配最佳
  • 測試案例配置容易

Azure Chaos Studio#

  • 底層為 Azure 雲端
  • 與 Azure 應用最契合
  • 配置與使用有一定學習曲線

Chaos Monkey#

  • 早期混沌工程工具
  • 測試案例相對其他工具有限
  • 適合做最簡化的服務隨機關閉演練

SRE 開發常用工具#

混沌測試之外,SRE 工程師日常還會用到:

  • GitHub:原始碼倉
  • IntelliJ、VS Code、Sublime Text、Eclipse:開發 IDE
  • 語言:Python、Java、Golang 等

SRE 必備技能#

  • 容器化(Kubernetes、Docker)
  • 雲端運算
  • 微服務架構下的軟體開發
  • 網路(Networking)

工具導入前的檢查清單#

  • 工具能涵蓋幾成需求?
  • 配置與支援的成本?
  • 客製化的彈性?
  • 招募具備該技能的人才成本對比節省的長期成本?
  • 開源 vs 企業版?
  • 同一工具能否被組織內其他專案重用?
  • 與既有軟體整合容不容易?

混沌測試工具的真正考驗不在工具本身,而在「測試案例設計」是否反映真實 production 行為。沒有 SRE 視角,再好的工具都只能跑出表演級的混沌。