原書包含六個附錄與一份完整 bibliography。本頁僅摘錄各附錄的重點,供讀者快速查閱。

附錄 A:可用度對照表#

「9 的數量」對應的每年 / 季 / 月 / 週 / 日 / 時可宕機時間。

可用度每年每季每月每週每日每小時
90%36.5 天9 天3 天16.8 小時2.4 小時6 分鐘
95%18.25 天4.5 天1.5 天8.4 小時1.2 小時3 分鐘
99%3.65 天21.6 小時7.2 小時1.68 小時14.4 分鐘36 秒
99.5%1.83 天10.8 小時3.6 小時50.4 分鐘7.2 分鐘18 秒
99.9%8.76 小時2.16 小時43.2 分鐘10.1 分鐘1.44 分鐘3.6 秒
99.95%4.38 小時1.08 小時21.6 分鐘5.04 分鐘43.2 秒1.8 秒
99.99%52.6 分鐘12.96 分鐘4.32 分鐘60.5 秒8.64 秒0.36 秒
99.999%5.26 分鐘1.30 分鐘25.9 秒6.05 秒0.87 秒0.04 秒

對「部分可用」或「負載隨時段變化」的服務,用整體請求成功率比看「故障時長」更實用。詳見第 3 章「擁抱風險」。

附錄 B:生產服務最佳實踐合集#

由 Ben Treynor Sloss 整理:

  • Fail Sanely:驗證設定輸入(語法 + 語意 + 空 / 截斷資料),收到壞輸入時保持原狀並告警,等人類確認再切換
    • 範例:2005 Google 全球 DNS 因空檔案服務 NXDOMAIN 6 分鐘;2009 整個 Web 被誤標 malware(設定檔變成單一 /
  • 漸進式 Rollout:分段、跨地理、被監控、出問題先 rollback 再除錯
  • 以使用者視角定 SLO:在 Gmail client 量延遲讓可用度評估更貼近現實
  • 錯誤預算:1 − SLO 即預算;用盡則凍結 release 直到再生
  • 監控:以症狀為主、原因為輔、簡單為先
  • 事後檢討:所有重大事件必寫;公開、無究責
  • 容量規劃:把 N+2 與資源前置時間都納入
  • 過載:rate limit、優雅降級、避免 retry 雪崩
  • SRE 團隊:50% 工程上限、人輪值、訓練、跨團隊協作

附錄 C:事件狀態文件範例#

「Shakespeare Sonnet++ 過載:2015-10-21」即時更新欄位:

  • 摘要、狀態、指揮所
  • 指揮層級(IC、Ops、Planning、Comms)
  • 結束條件(exit criteria)
  • TODO 與已開 bug 清單
  • 時間軸(最新在最上)

附錄 D:事後檢討範例#

「Shakespeare Sonnet++(事件 #465)」結構:

  • 日期、作者、狀態
  • 摘要、衝擊、根因、觸發、解決方式
  • 偵測
  • Action Items 表(類型:mitigate / prevent / process / other;owner;bug;狀態)
  • 學到的事
    • 做得好的(What went well)
    • 走錯的(What went wrong)
    • 哪裡走運(Where we got lucky)
  • 詳細時間軸(每行 timestamp + 操作)
  • 支援資訊(儀表板連結、log)

附錄 E:Launch Coordination Checklist(2005 原版)#

Google 第一份正式 LCE 清單,章節:

  • 架構:請求類型、client 種類
  • 機器與資料中心:N+2 冗餘、網路 QoS、DNS LB
  • 流量、容量、效能:launch spike、load test、儲存
  • 可靠性與 failover:機器死、機架壞、cluster 離線、跨 DC 網路斷
  • 監控與伺服器管理:內部狀態、E2E、告警、監控自己;別在自己的伺服器裡寄信給自己造成 mail server crash
  • 安全:design review、code audit、垃圾風險、authentication、SSL
  • 自動化與手動任務:repeatable build、canary、staged rollout
  • 成長:spare capacity、10x growth、bottleneck、shard
  • 外部依賴:第三方系統、graceful degradation
  • 排程與 rollout 計畫:硬期限、避開週一週五

附錄 F:生產會議紀錄範例#

每週生產會議紀錄結構:

  • 出席者、公告
  • 前週 Action Item 回顧
  • 故障回顧(含主要事件根因、修復與 follow-up)
  • Paging events(次數、進度)
  • Non-paging events
  • 監控變更/靜音
  • 計畫中的生產變更
  • 資源使用率
  • 關鍵服務指標(含 SLO 對照)
  • 討論/專案更新
  • 新 Action Items

這份模板可以直接做為導入「每週生產會議」的起點——不需要為了完美結構而推遲開會。