原書包含六個附錄與一份完整 bibliography。本頁僅摘錄各附錄的重點,供讀者快速查閱。
附錄 A:可用度對照表#
「9 的數量」對應的每年 / 季 / 月 / 週 / 日 / 時可宕機時間。
| 可用度 | 每年 | 每季 | 每月 | 每週 | 每日 | 每小時 |
|---|---|---|---|---|---|---|
| 90% | 36.5 天 | 9 天 | 3 天 | 16.8 小時 | 2.4 小時 | 6 分鐘 |
| 95% | 18.25 天 | 4.5 天 | 1.5 天 | 8.4 小時 | 1.2 小時 | 3 分鐘 |
| 99% | 3.65 天 | 21.6 小時 | 7.2 小時 | 1.68 小時 | 14.4 分鐘 | 36 秒 |
| 99.5% | 1.83 天 | 10.8 小時 | 3.6 小時 | 50.4 分鐘 | 7.2 分鐘 | 18 秒 |
| 99.9% | 8.76 小時 | 2.16 小時 | 43.2 分鐘 | 10.1 分鐘 | 1.44 分鐘 | 3.6 秒 |
| 99.95% | 4.38 小時 | 1.08 小時 | 21.6 分鐘 | 5.04 分鐘 | 43.2 秒 | 1.8 秒 |
| 99.99% | 52.6 分鐘 | 12.96 分鐘 | 4.32 分鐘 | 60.5 秒 | 8.64 秒 | 0.36 秒 |
| 99.999% | 5.26 分鐘 | 1.30 分鐘 | 25.9 秒 | 6.05 秒 | 0.87 秒 | 0.04 秒 |
對「部分可用」或「負載隨時段變化」的服務,用整體請求成功率比看「故障時長」更實用。詳見第 3 章「擁抱風險」。
附錄 B:生產服務最佳實踐合集#
由 Ben Treynor Sloss 整理:
- Fail Sanely:驗證設定輸入(語法 + 語意 + 空 / 截斷資料),收到壞輸入時保持原狀並告警,等人類確認再切換
- 範例:2005 Google 全球 DNS 因空檔案服務 NXDOMAIN 6 分鐘;2009 整個 Web 被誤標 malware(設定檔變成單一
/)
- 範例:2005 Google 全球 DNS 因空檔案服務 NXDOMAIN 6 分鐘;2009 整個 Web 被誤標 malware(設定檔變成單一
- 漸進式 Rollout:分段、跨地理、被監控、出問題先 rollback 再除錯
- 以使用者視角定 SLO:在 Gmail client 量延遲讓可用度評估更貼近現實
- 錯誤預算:1 − SLO 即預算;用盡則凍結 release 直到再生
- 監控:以症狀為主、原因為輔、簡單為先
- 事後檢討:所有重大事件必寫;公開、無究責
- 容量規劃:把 N+2 與資源前置時間都納入
- 過載:rate limit、優雅降級、避免 retry 雪崩
- SRE 團隊:50% 工程上限、人輪值、訓練、跨團隊協作
附錄 C:事件狀態文件範例#
「Shakespeare Sonnet++ 過載:2015-10-21」即時更新欄位:
- 摘要、狀態、指揮所
- 指揮層級(IC、Ops、Planning、Comms)
- 結束條件(exit criteria)
- TODO 與已開 bug 清單
- 時間軸(最新在最上)
附錄 D:事後檢討範例#
「Shakespeare Sonnet++(事件 #465)」結構:
- 日期、作者、狀態
- 摘要、衝擊、根因、觸發、解決方式
- 偵測
- Action Items 表(類型:mitigate / prevent / process / other;owner;bug;狀態)
- 學到的事:
- 做得好的(What went well)
- 走錯的(What went wrong)
- 哪裡走運(Where we got lucky)
- 詳細時間軸(每行 timestamp + 操作)
- 支援資訊(儀表板連結、log)
附錄 E:Launch Coordination Checklist(2005 原版)#
Google 第一份正式 LCE 清單,章節:
- 架構:請求類型、client 種類
- 機器與資料中心:N+2 冗餘、網路 QoS、DNS LB
- 流量、容量、效能:launch spike、load test、儲存
- 可靠性與 failover:機器死、機架壞、cluster 離線、跨 DC 網路斷
- 監控與伺服器管理:內部狀態、E2E、告警、監控自己;別在自己的伺服器裡寄信給自己造成 mail server crash
- 安全:design review、code audit、垃圾風險、authentication、SSL
- 自動化與手動任務:repeatable build、canary、staged rollout
- 成長:spare capacity、10x growth、bottleneck、shard
- 外部依賴:第三方系統、graceful degradation
- 排程與 rollout 計畫:硬期限、避開週一週五
附錄 F:生產會議紀錄範例#
每週生產會議紀錄結構:
- 出席者、公告
- 前週 Action Item 回顧
- 故障回顧(含主要事件根因、修復與 follow-up)
- Paging events(次數、進度)
- Non-paging events
- 監控變更/靜音
- 計畫中的生產變更
- 資源使用率
- 關鍵服務指標(含 SLO 對照)
- 討論/專案更新
- 新 Action Items
這份模板可以直接做為導入「每週生產會議」的起點——不需要為了完美結構而推遲開會。