管理關鍵狀態：以分散式共識達成可靠性

行程會崩、硬碟會壞、整個地區可能斷電。SRE 必須讓系統跨多個位置運行——而跨位置維持一致的系統狀態才是真正困難的部分。
凡是涉及 leader 選舉、共享關鍵狀態、分散式鎖，都應使用已被形式化證明且經過充分測試的分散式共識系統。

分散式系統中常見的「需要共識」的問題：

哪個行程是 leader？
群組成員是誰？
訊息是否已被成功 commit 到分散式佇列？
行程是否持有 lease？
某 key 在 datastore 中的值是什麼？

CAP 定理回顧#

三者不可兼得：
Consistency（節點間一致視圖）
Availability（節點可用）
Partition tolerance（容忍網路分割）
網路分割不可避免（線會被剪、封包會遺失、設定會錯）——理解分散式共識就是理解你的應用要在 C 與 A 之間怎麼取捨。

ACID vs. BASE：

ACID：傳統強一致語意
BASE：Basically Available、Soft state、Eventually consistent；通常以 multi-master + 衝突解決（如「最新 timestamp 勝出」）實現
最終一致性容易在 clock drift 或網路分割時帶來意外
Jeff Shute：「最終一致性把過重的負擔丟給開發者——應該在資料庫層解決」

不能為了「可靠性 / 效能」犧牲「正確性」，特別是關鍵狀態（如金流）。分散式共識演算法是這類同步的工具。

真實案例：為什麼需要共識#

Split-Brain（腦裂）#

兩台檔案伺服器互為主從，用 heartbeat 監控，失聯時送 STONITH（Shoot The Other Node in the Head）。網路慢時：兩邊都超時、各自發 STONITH、各自上位——若命令未被傳達，可能變「兩主同時寫」或「兩邊都被 shutdown」。

用 timeout + heartbeat 解 leader 選舉根本上是錯誤——leader election 是分散式非同步共識問題的另一種表述，不能用 heartbeat 解決。

Failover 需要人類介入#

分片資料庫 primary/secondary 通訊失敗時叫人——避免 split-brain。但這把運維負擔放大：人類在大規模事件中常已過載，且不會比正確的共識系統做得更好。

群組成員演算法失靈#

用 gossip 協定發現成員、選 leader。網路分割時兩邊各選 leader → 各自接受寫入與刪除 → split-brain → 資料毀損。

許多「分散式系統問題」其實都是分散式共識的變形：master 選舉、群組成員、分散式鎖 / lease、可靠分散式佇列 / 訊息、跨群組關鍵共享狀態。
臨時起意的解法（heartbeat、gossip）永遠會在實務上出問題。

分散式共識如何運作#

關注非同步分散式共識（訊息傳遞延遲無上限）。實務上多採 crash-recover（崩潰後可回來）而非 crash-fail。
Byzantine（拜占庭）故障（行程因 bug 或惡意送錯訊息）較罕見，處理成本高。
FLP 不可能性：嚴格證明在有限時間內無法保證非同步共識，但實務上靠「夠多健康副本 + 隨機退避」絕大多數時候能 make progress。