可觀測性入門指南 封面

可觀測性入門指南

👨‍💼: 劉義瑋(Blueswen)
📅: September 10, 2024
Buy Now
📖:
以 Grafana 生態系為核心,系統性介紹可觀測性三大支柱(Metrics、Logs、Traces)的工具鏈與實踐方法,涵蓋 Prometheus、Loki、Tempo、OpenTelemetry 等現代可觀測性技術棧。
📘 深度概覽

作者背景#

劉義瑋(Blueswen)是台灣的 DevOps 與可觀測性工程師,長期活躍於台灣技術社群,在 Grafana 生態系的實踐與推廣上具有豐富經驗。他曾在多場技術研討會分享可觀測性建設的實務經驗,擅長將複雜的監控架構以清晰的層次結構呈現。本書是繁體中文世界中第一本系統性介紹現代可觀測性技術棧的專書,填補了中文技術文獻在此領域的空白。

完整摘要#

全書分為五大部分,共二十七章,從概念基礎到工具實作再到綜合應用,建構完整的可觀測性知識體系。

第一部分「可觀測性初探」建立全景地圖。從單體應用到分散式架構的演進出發,釐清可觀測性與傳統監控的差異,介紹 Metrics、Logs、Traces 三大支柱各自的角色,以及資料從產生到消費的完整流程。接著介紹 Grafana 作為統一視覺化平台的定位——它本身不儲存資料,而是連接各種後端的統一介面。

第二部分「Metrics」深入可觀測性最成熟的支柱。從指標的基礎定義與資料處理流程開始,進入 Prometheus——現代 Metrics 生態的事實標準——的架構理念、Pull Model 設計、PromQL 查詢語言與 Service Discovery 機制。監控方法論一章比較 USE Method、Four Golden Signals 與 RED Method 三種框架的適用場景。長期儲存一章探討 Thanos 與 Mimir 等方案。此外也涵蓋 StatsD(Push Model 指標收集)與 Zabbix(傳統監控系統的定位)。

第三部分「Logs」探討最直覺但規模挑戰最大的信號。Loki 以「只索引 Label」的策略大幅降低日誌儲存成本,是 Grafana 生態系的核心日誌方案。收集器的選擇包括 Promtail(Loki 專屬,入門簡單)、Fluent Bit(輕量級通用收集器,Kubernetes 生態熱門選擇)與 Vector(Rust 驅動的高效能資料管道)。

第四部分「Traces」聚焦對微服務架構最關鍵的信號。從 Distributed Tracing 的核心概念(Trace、Span、Context Propagation)與從 Google Dapper 到 OpenTelemetry 的發展歷程開始,介紹 OpenTelemetry SDK 的 Zero-code Instrumentation、Tempo(Grafana 的 Trace 後端,全量保存策略)、Jaeger(Uber 開源的追蹤系統)與 OpenTelemetry Collector(解耦應用程式與儲存後端的中間層)。

第五部分「綜合應用」將所有拼圖組合起來。Signal Correlation 展示如何讓三種信號彼此關聯,從發現異常一路追查到根因定位。Span Metrics 從 Trace 資料自動衍生服務層級指標。此外涵蓋 Grafana Cloud 與 Alloy(新一代收集器)、Profiles 與 eBPF(Kernel 層級觀測)、Faro(瀏覽器端可觀測性),以及三個真實生產環境的實戰案例。

本書的貢獻與定位#

本書的獨特價值在於以 Grafana 生態系為主軸,將可觀測性從抽象概念落地為具體的技術棧選型與部署方案。相較於英文世界中已有的 Observability Engineering(Charity Majors 等著)偏重理念與文化面向,本書更聚焦於工具的實際操作與架構設計,每個章節都附有具體的配置範例與部署建議。作為繁體中文世界的首部系統性可觀測性專書,它為中文技術社群提供了從零到一建置可觀測性基礎設施的完整路線圖。