實務案例 • 網站可靠性工程師實務指南

案例一：金融科技組織的雲端遷移#

某金融科技組織決定把舊銀行軟體遷移到雲端、並加入手機原生應用。

業務撥出新預算
技術團隊到位：分析師、開發、設計、測試、產品管理、SRE、DevOps、客服
高階技術選型：AWS 雲端、NoSQL 與 RDBMS 並存、Java 後端、React + JavaScript 前端、GitHub 程式碼倉、應用與基礎設施監控工具、其他必要開源工具
一年總時程，第一個版本 5 個月內上線
SDLC 採 Agile

SDLC 是持續循環。SRE 在 production 監控時發現多個 bug，客服累積使用者投訴；客服把工單轉給 SRE 佇列，這就是事件管理。SRE 預先制訂工單優先級、SLA、工作流與回應通道。

承前案例，使用者反映「無法產生超過六個月以上的對帳單」。事件處理過程：

SRE 最大的價值不只是修問題，而是把「修問題的代價」內化為工具與流程，讓下一次同類問題用幾分之一的時間與成本就能解決。

下列是程式碼從計畫到 production 的細部步驟：

規劃：產品負責人或 AC 拿到設計與需求 → 拆成功能（feature）→ 切成使用者故事（user story）→ 存進任務追蹤工具（如 Jira）
產品負責人把使用者故事指派給開發者
開發者本機寫程式，完成後 commit 到 GitHub 等程式碼倉
DevOps 建立 CI/CD 管線（如 Jenkins）並交給開發團隊
開發者用 CI/CD 建置、打包，再部署到開發環境
開發團隊執行單元測試，並把同一份程式部署到測試環境與效能環境
QA 團隊進行回歸、遞增、效能測試
多輪測試後，程式合併、部署到 UAT 環境（user acceptance test，模擬 production）
- SRE 在此階段做混沌測試與效能測試
- QA 與 SRE 都通過後，最終打包並部署 UAT
UAT 通過後，DevOps 透過 CI/CD 部署到 production
SRE 監控系統表現，必要時升級給對應團隊處理

整個流程依 sprint 週期重複。SRE 與 DevOps 不直接修補程式碼裡的 bug，但提供讓開發者快速行動的環境，避免問題擴散影響使用者。