速查表 • 網站可靠性工程師實務指南

為什麼需要速查表#

這份速查表是 SRE 工作的高階摘要，協助新手快速理解、也能讓既有團隊重新檢視自己的職責分布是否完整。

自動化（Automation）#

自動化是 SRE 與 DevOps 的核心。雖然辨識並自動化任務需要時間，但長期能釋放團隊精力處理優先要事。

關鍵實踐：

把 production 維運中的手動任務自動化
為其他跨職能團隊建立自助式工具，方便他們從 production 取得資料
自動化告警與事件解決
任意語言皆可（Shell、Python、Java 最常見）；有時 scripting 即可，有時需要新工具

服務管理（Service Management）#

嚴格的工單追蹤標準
事件管理：處理、解決、追蹤事件
缺陷管理：建立與追蹤 production 缺陷、驗證修補
RCA / 事後檢討：把 RCA 嵌入事件管理流程，避免問題再發

告警與監控#

為應用建立量測健康度與效能的指標
與開發共同決定告警嚴重度
設置告警與通知通道
建立健康儀表板，並隨新功能持續強化
告警與事件管理工具整合，確保通知到對的人

可觀測性#

用 ML 關聯多重訊號與告警
建立可自我修復的告警

安全與合規#

把存取政策、IAM、憑證與密碼自動更新納入日常
應用與基礎設施的稽核控制與合規報表

變更管理#

追蹤上線變更
必要時參與審核與實作

發布與部署#

審查程式碼變更與修補
建立非功能需求所需工具與能力
在必要時回退變更
與開發、測試協調 release 與 hotfix 週期

混沌工程#

列出混沌測試案例
模擬 production 真實情境
與開發、基礎設施合作修補測試發現的缺陷

容量規劃#

與開發共同規劃應用所需基礎設施容量
分析 production 應用的 CPU、記憶體、實例與跨區域需求
持續監控基礎設施使用率

可用性#

定義 SLI、SLO、SLA
建立量測系統表現的指標
透過指標衡量整體可用性

非功能性開發#

建立工具與能力，幫助開發專注於業務邏輯
修補非功能性 bug：誤報告警、多餘日誌等
對 production 新功能執行健全性檢查

新產品上線與規劃#

從 SDLC 第一階段就讓 SRE 介入
參與架構討論與系統設計
在發布前審查並簽核新服務手冊

應用 production 支援#

用工具排查問題
對影響 production 的問題進行繞過
進行根因分析、跨團隊合作
建構告警與監控儀表板
訂定事件與缺陷管理規範
維持 production 對開發、測試的回饋迴路
與發布、變更管理、開發協同處理事件

基礎設施 production 支援#

監控基礎設施健康狀態
排查與修復 production 應用上的基礎設施問題
升級基礎設施版本

規劃#

為各類別建立最佳實踐
用標準與流程把最佳實踐內化為文化
建立透明、無責的文化
工具與技術選擇上的最佳實踐

協作（Collaboration）#

協作是 SRE 方法論的底色。打破穀倉、跨團隊溝通是把工具與流程串連起來的黏著劑。

與開發每日協作（新功能、bug 修補、調查、事後檢討）
與測試團隊一同檢視低層環境的缺陷風險
與 DevOps 共同配置 CI/CD 與基礎設施
與產品管理協作建立 SDLC 最佳實踐
與業務團隊溝通新需求

把這份清單當作健康檢查表：每季逐項問「我們在這個面向做得如何？」可以最快發現團隊的盲點。

Figure 8.1: SRE building blocks