事故管理流程 • 網站可靠性工程師實務指南

為何事件管理是穩定的關鍵#

事件管理（incident management）是開發與 SRE 團隊回應未預期事件、恢復服務的流程。它與可觀測性緊密耦合，是系統穩定性的核心因素。

任何讓使用者中斷使用的事件就是 incident。SRE 是技術問題的第一線，能否有系統地追蹤並處理客戶問題，直接決定客戶滿意度。

沒有事件管理流程的後果#

假設組織沒有 incident management：

客服收到客訴，透過電子郵件或訊息通知 SRE
沒有共同追蹤平台，客服不知道 SRE 處理進度
通訊不透明、流程冗長，問題量增加時可能漏單

引入工具與流程後：

客服把客訴登錄到工具裡作為事件，無法解決時指派給 SRE
SRE 收到通知，調查過程更新到事件上
客服可即時看到狀態並回覆使用者

事件管理的階段#

事件登錄（Incident logging）：在 SDLC 初期就決定工具，並定義「何時、如何、用什麼模板」登錄
事件建立（Incident creation）：將收集到的細節送進工具產生事件
事件分類（Incident categorization）：常見分為高、中、低，依事件類型、來源、衝擊判定
事件優先排序（Incident prioritization）：依商業衝擊、衝擊百分比、分類劃分 P1 ～ P4，每級對應不同 SLA
事件接收（Incident accepting）：在 SLA 內主動承接，避免重工
事件解決（Incident resolution）：依優先級時程修復，例如 P1 4 小時內、P2 8 小時內
事件關閉（Incident closure）：補齊根因紀錄並通知申報者
根因分析（Incident root cause）：又稱問題管理（problem management），目標是修補底層原因，與事件管理「先繞過、後修復」的分工互補

事件管理「繞過當下問題」、問題管理「根除原因」。在某些組織兩者是同一流程的不同階段，在某些組織則由不同團隊負責。

Figure 3.4: Incident stages in operations

常用工具#

ServiceNow ITSM、Jira Service Management、PagerDuty、SolarWinds Service Desk、BigPanda

強健事件管理的最佳實踐#

採用會自動關聯歷史相似事件的工具
在工具上設定告警，新事件入隊立即通知
讓事件能自動接收以避免重工
安排運維每日 stand-up 討論優先事件，特別是大型 24/7 應用
建立應用錯誤與事件的相關性：高衝擊告警自動產生內部事件，讓 SRE 主動行動

範例：旅遊預訂的「找不到頁面」事件#

客戶在訂機票時看到「page not found」，內部自動產生工單
客服同步根據客戶反饋更新工單
工具自動歸類為「高 / P1」，自動指派到運維 / SRE 工程師
SRE 依 runbook 進行繞過：把流量切到另一台伺服器，使用者重新可用
整個繞過流程不到 5 分鐘
並行排錯找到根因並永久修補
完成 RCA、更新事件並關閉

事件管理流程的真實價值，是讓「看似亂流的多次失敗」可以被結構化、優先化、可量測地處理。沒有結構，再多客服與工程師都會被淹沒。

為何事件管理是穩定的關鍵#

沒有事件管理流程的後果#

事件管理的階段#

Figure 3.4: Incident stages in operations

常用工具#

強健事件管理的最佳實踐#

範例：旅遊預訂的「找不到頁面」事件#