告警與監控的關鍵#
告警與監控工具的選擇對 SRE 攸關重要:愈早收到正確告警,排查越快,修復越快。前一節介紹的 ServiceNow、Jira、PagerDuty 也可作為告警工具,但組織通常會選擇更專注於「追蹤、日誌、告警、監控」的工具。
主流工具#
ELK Stack(Elasticsearch + Logstash + Kibana)#
- 三件式可觀測性堆疊
- Elasticsearch:以索引提供分析能力
- Logstash:彙整資料
- Kibana:視覺化呈現與告警設定
- 雲端開源
- Kibana 可整合 Slack 等通道發送告警
- 應用與基礎設施監控皆可使用
- 強健的儀表板提供應用健康度單一視圖
Splunk#
- 專有的安全與可觀測性工具
- 可吞吐多種機器資料、格式化並視覺化
- 雲端付費版、儀表板更靈活
- 可同時做應用與基礎設施監控
Dynatrace#
- 雲端開源工具
- 應用效能監控(Application Performance Monitoring, APM)為主
- 主打應用日誌與監控、儀表板與追蹤鏈
AppDynamics#
- 雲端付費 APM 工具,定位類似 Dynatrace
- 多平台支援、易上手、易建立儀表板
其他熱門選項#
- New Relic
- Datadog
- Prometheus
- Grafana
- Nagios
沒有單一工具能完美貼合所有需求。選擇前,務必比對「現有指標需求 + 整合能力 + 客製空間」三項條件。