簡潔性 • 網站可靠性工程｜Google 的系統管理之道

可靠性的代價是對極致簡潔的追求。 — C.A.R. Hoare，圖靈獎演講

軟體系統天生動態而不穩。本章談 SRE 為什麼要花力氣維持簡潔——並把簡潔視為可靠性的前提。

穩定 vs. 敏捷#

SRE 的工作可以總結為一句話：讓系統的敏捷度與穩定性保持平衡。

少數情況可以為了敏捷犧牲穩定——例如做「探索性編碼（exploratory coding）」：刻意給程式碼一個保存期限，允許試錯，因此測試與發佈門檻可放寬。

但對絕大多數生產系統，要求是平衡。SRE 經驗顯示：可靠的流程其實會提升開發敏捷度——

Robert Muth（Google 工程師）：「不像偵探小說，原始碼沒有刺激、懸疑與謎題反而是好事。」生產環境的驚喜是 SRE 的敵人。

引用 Fred Brooks「No Silver Bullet」：

例：寫 web server 要處理「快速回應」是本質複雜度；用 Java 寫導致需處理 GC 影響則是偶發複雜度。

SRE 應該：

工程師對自己寫的程式有感情，因此大規模清理時常會聽到：

這些都是糟糕的建議：
版控系統本來就能回溯，不需要保留註解碼
大量註解掉的程式碼會在源碼演進過程中變成干擾
永遠關閉的 flag 後面的死程式碼是定時炸彈（Knight Capital 的災難就是經典案例）

對於 24/7 服務而言，每多一行新程式碼就多一份債。
較小的專案更易理解、易測試、缺陷更少。最令人滿足的程式設計之一是一次刪除上千行不再被需要的程式碼。

實踐：

完美並不是已經無法再加，而是已經無法再減。 — Antoine de Saint Exupéry

API 是「簡潔」的清楚展現：

物件導向程式設計的法則同樣適用於分散式系統：

一次只動少數變更會比一次推 100 個變更好——可以類比為機器學習的梯度下降：每一步都評估改善或退化。
大批變更同時上線，事後追責耗費極大；小批次反而能讓團隊更快推進、更有信心。

軟體簡潔是可靠性的前提。把每個步驟想得更簡單，並非懶惰，而是把「我們究竟想完成什麼、怎麼做最容易」釐清。

對一個功能說「No」並非限制創新——而是讓環境保持乾淨，讓焦點留在真正的工程與創新上。