案例:保全社區與線上雜貨應用整合#
某保全軟體服務於高級社區,住戶與管理員用它做訪客管制、繳費、申訴與通訊。組織決定併購一家線上雜貨平台,並把雜貨功能整合進保全應用。
規劃階段#
- 由於兩支軟體本身已穩定,主要工作是整合
- 部分原雜貨團隊也加入
實作階段#
- 共用客戶池:資料庫同步
- DevOps 為整合服務建新 CI/CD 管線、雜貨服務沿用既有管線
- SRE 重用部分監控儀表板,整合到統一視圖
- 開發完成兩個軟體整合並上線
測試階段#
- QA 進行回歸與遞增測試
- SRE 執行效能測試
監控階段的問題#
上線數月後事件數爆增到 1000+,SRE 來不及處理,可靠性下滑、客戶流失。
問題分析#
- 多數事件其實只是查詢與一般疑問,不算高衝擊
- 既有事件管理流程針對保全軟體設計:目標客戶單純、規模有限
- 把單純查詢與系統不可用同樣列為 P1,導致 SRE 浪費精力在低價值工單上
- 自動化分派也不存在,因為原本量小不需要
解法:重新設計事件管理流程#
- 把客戶查詢類事件降級到 P2、P3
- 為高量場景建構自動化工具:自動接收、自動分派、自動解決部分事件
- 把所有高優先級事件結合既有 RCA 流程
4 個月內,可靠性回升、事件處理變得可控。問題不在工程能力,而在流程沒跟上業務變化。
教訓#
- 流程要隨應用規模演進:不能假設老流程能套用到新場景
- 事件分級是事件管理的根本:分錯級的話,後面所有努力都會變徒勞
- 自動化是規模量級下的必需品:人工挑單在 1000+ 工單面前必敗
每次重大整合或市場拓展前,重新檢視事件管理流程是否仍與當前客戶基底匹配,是預防同類災難的關鍵。