Introduction to Linear Regression • 量化投資分析（CFA Institute）

為何要學線性迴歸#

財務分析師經常需要檢驗「一個變數能否解釋另一個變數」。例如：

公司投入資本報酬率與資金成本的價差是否能解釋公司市值？
10 年期國庫券殖利率變動如何影響 S&P 500 的盈餘殖利率？
通膨能否以貨幣供給成長率解釋？

迴歸分析（regression analysis）是處理上述問題的工具。它檢驗一個或多個變數（自變數，independent variables）解釋或預測另一變數（因變數，dependent variable）的能力。本章只考慮單變數線性迴歸（simple linear regression）。

單變數線性迴歸的模型#

線性迴歸假設因變數 $Y$ 與自變數 $X$ 之間為線性關係：

$$ Y_i = b_0 + b_1 X_i + \varepsilon_i, \quad i = 1, 2, \dots, n $$

其中：

$b_0$：截距（intercept），當 $X = 0$ 時 $Y$ 的預測值
$b_1$：斜率係數（slope coefficient），$X$ 每增加 1 單位，$Y$ 增加 $b_1$ 單位
$\varepsilon_i$：誤差項（error term），因變數無法被自變數解釋的部分

兩種資料形態#

橫斷面資料：同一時點下多個個體的觀察值（如多家公司的 P/E 與盈餘成長率）
時間序列資料：同一個體跨期的觀察值（如美國月度通膨與短期利率）

最小平方法#

線性迴歸以**最小平方法（linear least squares）估計 $\hat{b}_0$、$\hat{b}_1$，使殘差平方和（sum of squared residuals）**最小化：

$$ \min_{\hat{b}_0, \hat{b}1} \sum{i=1}^{n} \left(Y_i - \hat{b}_0 - \hat{b}_1 X_i\right)^2 $$

對單變數線性迴歸，斜率與截距的封閉解為：

$$ \hat{b}_1 = \frac{\text{Cov}(Y, X)}{\text{Var}(X)}, \quad \hat{b}_0 = \bar{Y} - \hat{b}_1 \bar{X} $$

配適後的迴歸線必通過樣本平均點 $(\bar{X}, \bar{Y})$。

古典常態線性迴歸模型的六項假設#

要由迴歸結果做出有效推論，下列假設必須成立：

$Y$ 與 $X$ 的關係在參數 $b_0$、$b_1$ 上為線性
自變數 $X$ 不是隨機變數
誤差項的期望值為 0：$E(\varepsilon) = 0$
誤差項的變異數對所有觀察值皆相同（同質變異，homoskedasticity）
誤差項在不同觀察值間不相關
誤差項服從常態分布

違反這些假設會危及推論的有效性。常見問題包括異質變異（heteroskedasticity）、誤差項自相關（autocorrelation）與非常態誤差。

估計誤差與配適度#

估計標準誤#

**估計標準誤（standard error of estimate, SEE）**衡量迴歸模型對資料的配適程度：

$$ \text{SEE} = \sqrt{\frac{\sum_{i=1}^{n} \hat{\varepsilon}_i^2}{n - 2}} $$

SEE 越小，模型配適越好。分母為 $n - 2$，因為單變數迴歸估計了兩個參數（截距與斜率）。

判定係數#

**判定係數（coefficient of determination, $R^2$）**衡量因變數的總變異中，被自變數解釋的比例：

$$ R^2 = \frac{\text{解釋變異}}{\text{總變異}} = 1 - \frac{\text{未解釋變異}}{\text{總變異}} $$

單變數線性迴歸中，$R^2$ 等於 $X$ 與 $Y$ 樣本相關係數的平方。$R^2 = 0.6$ 表示自變數解釋了 60% 的因變數變異。

對迴歸係數的假設檢定#

信賴區間#

估計係數 $\hat{b}_1$ 的 $(1 - \alpha)$ 信賴區間：

$$ \hat{b}1 \pm t_c \cdot s{\hat{b}_1} $$

其中 $s_{\hat{b}_1}$ 為估計係數的標準誤，$t_c$ 為 t 分布的臨界值（自由度 $n - 2$）。

檢定統計量#

檢定 $H_0: b_1 = B_1$（假設值）的 t 統計量：

$$ t = \frac{\hat{b}1 - B_1}{s{\hat{b}_1}}, \quad df = n - 2 $$

當 $|t| > t_c$ 時拒絕 $H_0$。最常見的檢定為 $H_0: b_1 = 0$，用以判斷自變數對因變數是否具有顯著解釋力。

變異數分析（ANOVA）#

迴歸的變異數分析將因變數的總變異分解為三部分：

總平方和（Total Sum of Squares, SST）：$\sum (Y_i - \bar{Y})^2$
迴歸平方和（Regression Sum of Squares, SSR）：$\sum (\hat{Y}_i - \bar{Y})^2$，由模型解釋的部分
殘差平方和（Residual Sum of Squares, SSE）：$\sum (Y_i - \hat{Y}_i)^2$，未被解釋的部分

關係式：

$$ SST = SSR + SSE $$

ANOVA 表常見欄位為自由度（df）、平方和（SS）、均方和（MSS = SS/df）、F 統計量、顯著水準。$R^2 = SSR / SST$。

預測區間#

給定自變數值 $X_f$，因變數的點預測為：

$$ \hat{Y}_f = \hat{b}_0 + \hat{b}_1 X_f $$

對應的 $(1 - \alpha)$ **預測區間（prediction interval）**為：

$$ \hat{Y}_f \pm t_c \cdot s_f $$

其中 $s_f$ 為預測誤差變異數的平方根，$t_c$ 為 t 分布臨界值。

$s_f$ 同時包含「估計係數的不確定性」與「誤差項的固有變異」兩種來源，且當 $X_f$ 距離 $\bar{X}$ 越遠時 $s_f$ 越大。**外推（extrapolation）**通常會產生較不可靠的預測。

本章重點回顧#

線性迴歸用一條直線描述自變數 $X$ 與因變數 $Y$ 的關係：$Y_i = b_0 + b_1 X_i + \varepsilon_i$
估計方法為最小平方法；$\hat{b}_1 = \text{Cov}(Y, X) / \text{Var}(X)$，$\hat{b}_0 = \bar{Y} - \hat{b}_1 \bar{X}$
古典模型六項假設：線性、自變數非隨機、誤差期望為 0、同質變異、誤差不相關、誤差常態
估計標準誤 SEE 反映配適品質；判定係數 $R^2$ 為被解釋變異佔總變異的比例
對係數的假設檢定使用 t 統計量，自由度 $n - 2$；常用檢定為 $H_0: b_1 = 0$
ANOVA 將總變異分解為解釋與未解釋兩部分，$SST = SSR + SSE$
預測區間由點預測、估計誤差與固有誤差共同決定；外推會放大不確定性