Metrics 緒論──萬物皆可度量 • 可觀測性入門指南

什麼是 Metric#

一個 Metric 資料點，本質上就是一個帶有時間戳的數值。當我們把同一個量測值隨時間不斷記錄，就形成了一條 Time Series（時間序列）。

舉例來說，「每秒 HTTP 請求數」就是一條時間序列 ── 每隔固定間隔（例如 15 秒），系統記錄一次當前的請求計數，連接起來就能看到流量隨時間的變化趨勢。

Metric 回答的是「什麼出了問題」和「什麼時候出了問題」，但它很難回答「為什麼出了問題」。要回答「為什麼」，通常需要 Logs 或 Traces 的輔助。

單純的數值本身用途有限。真正讓 Metrics 變得強大的是 Labels（也叫 Tags）── 附加在每條時間序列上的 key-value pair。

以 HTTP 請求數為例：

http_requests_total 只告訴你「總共多少請求」
http_requests_total{method="GET", status="200", service="api"} 則讓你能按 HTTP Method、狀態碼、服務名稱任意切片查詢

每一組唯一的 Label 組合就構成一條獨立的時間序列。這代表 Labels 越多、值的種類越多，時間序列的數量就會爆炸性增長。這就是所謂的 Cardinality 問題── 高基數的 Label（例如 user ID、request ID）會讓儲存與查詢成本急劇攀升。

選擇 Label 時要謹慎。把 user ID 這類高基數值當作 Label 是 Metrics 系統的常見殺手。一般原則：如果某個 Label 值的種類可能超過幾百種，就不適合作為 Metric Label。這類資料更適合放在 Logs 或 Traces 中。

Metrics 從產生到被使用，會經歷四個階段。理解這個流程，有助於你判斷在每個環節該做什麼技術選型。

指標的起點是埋點。埋點有兩種主要方式：

應用層埋點：在你的程式碼中使用 Client Library（如 Prometheus Client）主動記錄業務指標。例如：每次收到請求就將計數器加一，每次完成處理就記錄延遲時間
基礎設施層匯出：透過 Exporter 從既有系統（資料庫、作業系統、中介軟體）擷取指標，不需要修改被監控系統的程式碼

好的埋點策略是「從外到內」：先監控使用者能感受到的指標（延遲、錯誤率），再逐步深入到內部元件的資源使用狀況。

生成的指標需要被收集到中央系統。收集有兩種模式：

Pull（拉）：監控系統主動去各個目標抓取指標。Prometheus 就是典型的 Pull 模式。優點是監控系統掌握主動權，能清楚知道哪些目標健康、哪些目標失聯
Push（推）：應用程式主動把指標推送到收集端。StatsD 是典型的 Push 模式。優點是適合短暫存活的任務（如 batch job、serverless function），因為它們可能在下次被拉取前就已經結束

兩種模式沒有絕對的好壞，取決於你的架構特性。長駐服務適合 Pull，短暫任務適合 Push。

收集到的指標需要寫入 TSDB（Time Series Database，時間序列資料庫）。TSDB 針對時間序列資料做了專門的優化：

常見的 TSDB 包括 Prometheus 內建的本地儲存、InfluxDB、VictoriaMetrics、Thanos 等。

儲存的指標透過三種主要方式被消費：

在可觀測性的三大信號中，Metrics 幾乎總是團隊最先導入的。這不是偶然，而是由它的技術特性決定的：

Metrics 雖然強大，但有明確的邊界：

Metrics 的價值在於持續且低成本地回答「系統現在還好嗎」。當 Metrics 告訴你「不好了」，你再切換到 Logs 和 Traces 去找原因。三種信號各有分工，不該試圖讓 Metrics 回答所有問題。