Loki──解開日誌空間與時間束縛的法杖 • 可觀測性入門指南

Loki 的核心理念：只索引 Label，不索引內容#

Loki 是 Grafana Labs 推出的日誌聚合系統，它的設計哲學可以用一句話概括：「像 Prometheus，但用於 Logs」。

傳統的日誌系統（如 Elasticsearch）會對日誌內容做全文索引——每個單詞都建立倒排索引，讓你可以搜尋任意關鍵字。這很強大，但代價是儲存成本極高，因為索引本身可能比原始資料還大。

Loki 走了一條完全不同的路：它只對 Label（標籤）建索引，日誌內容以壓縮的 Chunk 形式儲存，查詢時才逐行掃描。

這個決策背後的洞察是：在實際的除錯場景中，你通常已經知道要查哪個服務、哪個環境、哪個時間範圍——這些都是 Label。你不會漫無目的地全文搜尋。

全文索引的成本問題在規模化時會變得非常顯著：

這不代表 Loki 一定比 Elasticsearch 好——而是兩者針對不同的使用模式做了不同的取捨。

Loki 的查詢效能取決於 Label 的設計品質。如果你的 Label 過於粗糙（例如只有 env=production），查詢時需要掃描的資料量就會很大，效能會下降。反之，Label 過於細緻會造成太多 Stream，也會影響效能。設計好的 Label 體系是用好 Loki 的關鍵。

Loki 的 Label 與 Prometheus 的 Label 共用相同的設計理念：一組 Key-Value 對，用來標識日誌流（Log Stream）。

常見的 Label 包括：

低基數（Low Cardinality）：Label 的值不能太多。user_id 有數百萬種值，絕對不適合當 Label；env 只有 dev/staging/prod 幾種，很適合
與 Prometheus 對齊：使用相同的 Label 命名，讓你可以從 Grafana 的 Metrics 面板直接跳轉到對應的 Logs
靜態優先：Label 應該是相對穩定的屬性（服務名稱、環境、區域），而不是每筆日誌都不同的值

Loki 與 Prometheus 共用 Label 體系是一個極大的優勢。當你在 Grafana 的 Dashboard 上看到某個服務的錯誤率上升時，可以直接帶著相同的 Label 查詢對應的日誌——不需要在兩個系統之間手動對應。

LogQL 是 Loki 的查詢語言，語法受 PromQL 啟發，讓已經熟悉 Prometheus 的使用者能快速上手。

LogQL 的查詢分為兩大類：

用來搜尋和過濾日誌內容：

將日誌轉換為數值指標：

這意味著你可以用 Loki 的日誌資料來建立 Grafana Dashboard——不需要額外的 Metrics 系統就能追蹤日誌趨勢。

Loki 的儲存分為兩層：

Index：記錄「哪些 Label 組合存在」以及「對應的 Chunk 在哪裡」。體積小，可以存在 BoltDB、Cassandra 或 DynamoDB
Chunk：日誌內容的壓縮區塊。體積大，適合存在物件儲存（S3、GCS、MinIO）或本地檔案系統

這種分離架構帶來兩個好處：

最適合 Loki 的情境：

Loki 可能不是最佳選擇的情境：

一個簡單的決策框架：如果你的日誌查詢 80% 以上都是「某個服務在某個時間範圍的日誌」，Loki 就夠了。如果你經常需要在所有日誌中搜尋任意關鍵字，Elasticsearch 更適合。

Loki 提供了 Docker Log Driver，讓 Docker 容器的日誌可以直接送到 Loki，不需要額外的收集 Agent。

這在開發環境或小規模部署中很方便，但在 Production 環境中通常不建議使用——因為 Docker Log Driver 是同步的，如果 Loki 暫時不可用，可能會影響容器的日誌輸出甚至容器本身的運作。

在 Production 環境中，建議使用獨立的 Log 收集 Agent（如 Promtail、Fluent Bit）而非 Docker Log Driver。Agent 可以做本地緩衝，即使後端暫時不可用也不會影響應用程式。

Loki 的設計取捨清晰明確：用查詢靈活度換取成本與複雜度的大幅降低。如果你已經在 Grafana 生態系中，Loki 是最自然、最經濟的日誌解決方案。但它不是萬能的——理解它的限制（依賴 Label 品質、不適合全文搜尋）才能正確評估它是否適合你的場景。