告警與監控的關鍵#

告警與監控工具的選擇對 SRE 攸關重要:愈早收到正確告警,排查越快,修復越快。前一節介紹的 ServiceNow、Jira、PagerDuty 也可作為告警工具,但組織通常會選擇更專注於「追蹤、日誌、告警、監控」的工具。

主流工具#

ELK Stack(Elasticsearch + Logstash + Kibana)#

  • 三件式可觀測性堆疊
    • Elasticsearch:以索引提供分析能力
    • Logstash:彙整資料
    • Kibana:視覺化呈現與告警設定
  • 雲端開源
  • Kibana 可整合 Slack 等通道發送告警
  • 應用與基礎設施監控皆可使用
  • 強健的儀表板提供應用健康度單一視圖

Splunk#

  • 專有的安全與可觀測性工具
  • 可吞吐多種機器資料、格式化並視覺化
  • 雲端付費版、儀表板更靈活
  • 可同時做應用與基礎設施監控

Dynatrace#

  • 雲端開源工具
  • 應用效能監控(Application Performance Monitoring, APM)為主
  • 主打應用日誌與監控、儀表板與追蹤鏈

AppDynamics#

  • 雲端付費 APM 工具,定位類似 Dynatrace
  • 多平台支援、易上手、易建立儀表板

其他熱門選項#

  • New Relic
  • Datadog
  • Prometheus
  • Grafana
  • Nagios

沒有單一工具能完美貼合所有需求。選擇前,務必比對「現有指標需求 + 整合能力 + 客製空間」三項條件。