避免告警疲勞 • 網站可靠性工程師實務指南

案例情境：從零打造的電商平台#

從零開始建立電商網站，目標是用 SRE 從專案初期就把告警疲勞（alert fatigue）擋在門外。告警疲勞指的是充斥不必要、含資訊錯誤的告警，導致系統真正出問題時被淹沒。

後續以年度為時間軸，並依季度劃分階段，幫助讀者直覺理解時程。

基礎設施：AWS Web/應用伺服器、AWS LoadBalancer、AWS IAM、AWS NoSQL/RDBMS、AWS in-memory 儲存、事件串流、CDN
開發工具：GitHub、開發 IDE、Jira、Mural（資料流）
DevOps 工具：Jenkins、Terraform、Ansible
SRE 工具：AWS 監控、Grafana、Prometheus、ELK、ITSM
產品工具：產品管理工具

這是阻斷告警疲勞的關鍵階段。SRE 會：
收集測試階段的告警資料
對照 runbook 中的告警設計
借助工具或自建 ML 演算法分析資料
配置儀表板與告警，再到 production 驗證
確認告警通道、自我修復都正確

如果發現問題，依問題類型回到對應團隊修補、再走一次熱修補流程。最終 SRE 簽核才能上線。

服務間歇性 OOM。運維依 runbook 重啟服務無效；SRE 介入加記憶體，仍未解；最後與開發合作改邏輯重新部署。整段流程進入「開發 → 測試 → 部署」迷你 SDLC。

告警疲勞並非單一事件造成，而是設計疏失與後續疏於整理的長期累積。把「告警設計、走查、配置驗證、健全性測試、持續調整」串成系統化流程，才能讓告警保持高訊噪比。