正規表示法與文件格式化處理 • 鳥哥的 Linux 私房菜：基礎學習篇

什麼是正規表示法#

正規表示法（Regular Expression, regex）是一套用特殊符號描述字串模式的語法。它不是一個程式，而是一種被其他工具支援的語法標準。支援正規表示法的工具包括 grep、sed、awk、vim、Python、JavaScript 等。

正規表示法的價值在於：用簡短的模式描述，就能匹配大量符合規則的字串。這在搜尋 log、驗證輸入格式、批次文字處理等場景中不可或缺。

初學者常混淆這兩者，但它們是完全不同的機制：

這是最常見的混淆點。Shell 的 ls *.txt 中的 * 是萬用字元，由 Shell 展開為符合的檔名。而 grep 'a*' file 中的 * 是正規表示法，表示「前面的 a 重複零次或多次」。兩者語法相似但意義完全不同。

字元的排序方式取決於語系設定（LANG）：

在使用 [a-z] 這類範圍表示時，語系設定會直接影響匹配結果。建議在 script 中使用字元類別（如 [:lower:]、[:upper:]、[:digit:]）來避免語系差異帶來的問題。

sed（Stream Editor）是一個非互動式的文字處理工具，以串流的方式逐行處理文字。它的設計哲學是：不需要開啟檔案、不需要互動操作，就能完成批次的文字替換與修改。

sed 的主要操作：

sed 在 CI/CD pipeline 和自動化腳本中極為常用——批次修改設定檔、處理 log 輸出、過濾特定格式的資料。

基礎正規表示法中某些語法寫起來較繁瑣，延伸正規表示法（ERE）提供了更簡潔的寫法：

grep 預設使用基礎正規表示法。要使用延伸正規表示法，需要用 grep -E（或 egrep）。

awk 的核心思想是將每一行文字按分隔符號切割成多個欄位，然後針對欄位進行操作。它特別適合處理結構化的文字資料（如 /etc/passwd、CSV、log 檔）。

awk 的運作邏輯：

grep、sed、awk 常被稱為 Linux 文字處理的「三劍客」：
grep 擅長搜尋——找出包含特定模式的行
sed 擅長替換——批次修改文字內容
awk 擅長分析——按欄位處理結構化資料

diff + patch 的組合是版本控制的原始形態。Git 的 diff 功能就是建立在類似的原理上。理解這個機制，有助於理解 Git 如何追蹤和管理程式碼變更。