故障追蹤

「無法量測就無法改進」。Google 用內部工具 Outalator 被動接收所有監控告警，並提供註解、分組、分析能力——把零散的告警串成「事件」與「趨勢」。

事後檢討（postmortem）解決「單一重大事件」的深入學習；但有些問題單次衝擊不大、卻頻繁且分散——事後檢討觸及不到。Outalator 補上的就是「跨事件、跨團隊的長期視角」。

它能回答：

Escalator：所有告警的轉運站#

Google 所有 SRE 告警通知共用一個中央複製系統 Escalator。它追蹤「人是否已 ack」，若超過設定時間沒人接，自動升級到下一目的地（如主 → 副）。
設計上對既有工作流近乎透明——接收寄到 On-Call alias 的郵件複本，不需要使用者或監控系統改行為。

Outalator 把 Escalator 的「個別告警」抽象成「事件」：

單一事件常觸發多個告警（網路故障 → 所有下游 timeout）。
用 Outalator 把多個告警合併為單一 incident：
解開「事件 per 日」與「告警 per 日」兩個指標
避免重複 debug 與恐慌
比一封封寄「這跟另一個是同一件事」的 email 可規模化

Outalator 本身不區分「假陽性」「測試事件」「真實事件」——以通用標籤處理。看似簡單，卻是 Outalator 最強大的功能之一。

設計巧思：

故障追蹤工具的價值不是「重做」，而是讓歷史可被分析。

逐層加深：

Outalator 的副作用之一是跨團隊可見度：
看到「Bigtable 似乎是元凶但 Bigtable SRE 沒被告警」→ 手動通知對方
事件解決或緩解速度顯著提升

有些團隊甚至設「假的 Escalator 配置」——通知不會打給人，但會出現在 Outalator 裡，可被標記、註解、回顧：

多數組織以 Slack、Hipchat、IRC 做內部溝通與儀表板——這些地方都是 Outalator 風格系統的最佳整合點。