世界是脆弱的,持續管理風險是領導者的核心職責。
風險管理的重要性#
風險管理不是「以防萬一」的額外工作,而是日常管理的核心部分。優秀的領導者會持續思考「什麼可能會出錯」。
喬新亮在《CTO 成長復盤》中強調:
世界是脆弱的,持續管理風險非常重要。很多災難性的問題都是可以提前預見和預防的。
風險管理 vs 問題處理#
| 風險管理 | 問題處理 |
|---|---|
| 事前 | 事後 |
| 主動 | 被動 |
| 預防為主 | 補救為主 |
| 成本低 | 成本高 |
| 有準備 | 措手不及 |
風險識別#
常見的技術風險#
mindmap
root((技術風險))
🖥️ 系統風險
單點故障
容量不足
依賴服務不穩定
安全漏洞
數據丟失
📋 項目風險
需求不清或頻繁變更
技術難度估計不足
資源不足或流失
依賴項延期
溝通不暢
👥 組織風險
關鍵人員離職
技術斷層
知識集中
文化問題
協作障礙風險識別的方法#
主動識別:
- 定期的風險評審會議
- 項目啟動時的風險分析
- 系統架構的安全審計
- 失敗模式分析(FMEA)
被動識別:
- 從過去的問題中學習
- 行業案例研究
- 監控和告警
- 用戶反饋
每個項目啟動時,花時間問「什麼可能會出錯?」並記錄下來。這個簡單的習慣能避免很多問題。
風險評估#
風險評估矩陣#
根據可能性和影響來評估風險的優先級:
影響
↑
高│ 中 │ 高 │ 緊急 │
├──────┼───────┼───────┤
中│ 低 │ 中 │ 高 │
├──────┼───────┼───────┤
低│ 接受 │ 低 │ 中 │
└──────┴───────┴───────┘
低 中 高 → 可能性評估維度#
| 維度 | 考量因素 |
|---|---|
| 可能性 | 發生的概率有多大? |
| 影響範圍 | 影響多少用戶/系統/業務? |
| 影響程度 | 後果有多嚴重? |
| 可恢復性 | 發生後多快能恢復? |
| 可檢測性 | 能多快發現問題? |
風險登記表#
風險ID:RISK-001
描述:支付系統第三方依賴可能不穩定
類別:系統風險
可能性:中
影響:高
優先級:高
負責人:張三
應對策略:準備備用支付通道
狀態:監控中
更新日期:2024-01-15風險應對#
四種應對策略#
flowchart TD
RISK[⚠️ 識別到風險] --> EVAL{評估風險}
EVAL -->|風險極高,無法承受| AVOID[🚫 規避 Avoid]
EVAL -->|可通過投入降低| MITIGATE[🛡️ 減輕 Mitigate]
EVAL -->|有專業第三方| TRANSFER[🔄 轉移 Transfer]
EVAL -->|風險很小,可承受| ACCEPT[✅ 接受 Accept]
AVOID -.- A1["改變計劃,消除風險<br/>例:不使用不穩定的技術"]
MITIGATE -.- M1["降低風險的可能性或影響<br/>例:增加冗餘,設置監控"]
TRANSFER -.- T1["將風險轉移給第三方<br/>例:購買保險,使用雲服務"]
ACCEPT -.- AC1["接受風險,準備應對<br/>例:制定應急預案"]
style AVOID fill:#ffebee
style MITIGATE fill:#e3f2fd
style TRANSFER fill:#fff3e0
style ACCEPT fill:#e8f5e9選擇策略的考量#
| 策略 | 適用情境 |
|---|---|
| 規避 | 風險極高無法承受、有其他更好選擇 |
| 減輕 | 風險可通過合理投入降低(最常見策略) |
| 轉移 | 有專業第三方可處理、成本效益合理 |
| 接受 | 風險很小可承受、處理成本大於風險代價 |
危機應對#
危機的特點#
- 突發性:往往沒有預警
- 緊迫性:需要快速響應
- 高壓力:對決策能力的極大考驗
- 不確定性:資訊不完整,難以判斷
危機響應流程#
張雪峰分享了餓了麼的危機處理經驗:
flowchart TD
subgraph D [🔔 發現階段 - 分鐘級]
D1[監控告警觸發] --> D2[確認問題存在]
D2 --> D3[評估影響範圍]
D3 --> D4[啟動響應流程]
end
subgraph R [⚡ 響應階段 - 小時級]
R1[組建響應團隊] --> R2[建立溝通渠道]
R2 --> R3[並行止血和調查]
R3 --> R4[定期同步進展]
R4 --> R5[對外溝通]
end
subgraph H [✅ 恢復階段 - 天級]
H1[驗證問題解決] --> H2[恢復正常服務]
H2 --> H3[處理遺留問題]
H3 --> H4[總結經驗教訓]
end
D --> R --> H
style D fill:#ffcdd2
style R fill:#ffe0b2
style H fill:#c8e6c9危機時刻的決策#
危機時刻,止血優先於追因。先讓服務恢復,再調查原因。
張雪峰的經驗:
CTO 的艱難時刻:差點引咎辭職。在巨大壓力下保持冷靜,做出正確決策,是最大的考驗。
危機決策的要點:
- 保持冷靜:恐慌會導致更大的錯誤
- 快速決策:資訊不完整時也要做決定
- 承擔責任:不要浪費時間追責
- 持續溝通:讓相關人員知道情況
- 留有記錄:為事後復盤準備
對外溝通#
危機發生時,對外溝通也很重要:
溝通原則:
├── 及時:第一時間告知,不要等問題解決
├── 誠實:說實話,不要試圖掩蓋
├── 具體:說明影響範圍和預計恢復時間
├── 更新:持續同步進展
└── 負責:承認問題,說明改進措施試圖隱瞞問題通常會讓情況更糟。用戶可以接受問題,但很難接受欺騙。
項目風險管理#
項目風險的特點#
項目風險與系統風險不同,更多涉及:
- 需求和範圍
- 時間和資源
- 人員和溝通
- 技術和依賴
寶玉的項目風險管理建議#
項目啟動時:
├── 識別主要風險
├── 制定應對計劃
├── 分配責任人
└── 建立監控機制
項目執行中:
├── 定期風險評審
├── 跟蹤風險狀態
├── 更新應對措施
└── 新風險識別
項目收尾時:
├── 總結風險管理經驗
├── 記錄到知識庫
└── 為未來項目參考常見的項目風險應對#
| 風險 | 應對措施 |
|---|---|
| 需求不清 | 早期多溝通,用原型確認 |
| 估計不準 | 加 buffer,分階段評估 |
| 關鍵人員離職 | 知識共享,避免單點 |
| 技術難度大 | 提前調研,技術預研 |
| 依賴延期 | 早期識別,建立溝通機制 |
建立風險管理文化#
從個人到組織#
風險管理不只是領導者的事,應該成為組織的習慣:
- 鼓勵報告問題:不懲罰報告問題的人
- 重視事後復盤:從問題中學習
- 獎勵預防行為:識別風險也是貢獻
- 透明的溝通:問題和風險要及時共享
如果團隊成員因為報告問題而受到批評,以後就沒人敢報告了。要獎勵發現問題的行為,而不是懲罰。
本章要點#
- 風險管理是日常工作:不是額外的事,是核心職責
- 主動識別風險:問「什麼可能出錯」
- 評估並優先排序:可能性 × 影響
- 四種應對策略:規避、減輕、轉移、接受
- 危機時止血優先:先恢復,再追因
- 建立風險文化:鼓勵報告,從問題中學習