為何要學線性迴歸#

財務分析師經常需要檢驗「一個變數能否解釋另一個變數」。例如:

  • 公司投入資本報酬率與資金成本的價差是否能解釋公司市值?
  • 10 年期國庫券殖利率變動如何影響 S&P 500 的盈餘殖利率?
  • 通膨能否以貨幣供給成長率解釋?

迴歸分析(regression analysis)是處理上述問題的工具。它檢驗一個或多個變數(自變數,independent variables)解釋或預測另一變數(因變數,dependent variable)的能力。本章只考慮單變數線性迴歸(simple linear regression)

單變數線性迴歸的模型#

線性迴歸假設因變數 $Y$ 與自變數 $X$ 之間為線性關係:

$$ Y_i = b_0 + b_1 X_i + \varepsilon_i, \quad i = 1, 2, \dots, n $$

其中:

  • $b_0$:截距(intercept),當 $X = 0$ 時 $Y$ 的預測值
  • $b_1$:斜率係數(slope coefficient),$X$ 每增加 1 單位,$Y$ 增加 $b_1$ 單位
  • $\varepsilon_i$:誤差項(error term),因變數無法被自變數解釋的部分

兩種資料形態#

  • 橫斷面資料:同一時點下多個個體的觀察值(如多家公司的 P/E 與盈餘成長率)
  • 時間序列資料:同一個體跨期的觀察值(如美國月度通膨與短期利率)

最小平方法#

線性迴歸以**最小平方法(linear least squares)估計 $\hat{b}_0$、$\hat{b}_1$,使殘差平方和(sum of squared residuals)**最小化:

$$ \min_{\hat{b}_0, \hat{b}1} \sum{i=1}^{n} \left(Y_i - \hat{b}_0 - \hat{b}_1 X_i\right)^2 $$

對單變數線性迴歸,斜率與截距的封閉解為:

$$ \hat{b}_1 = \frac{\text{Cov}(Y, X)}{\text{Var}(X)}, \quad \hat{b}_0 = \bar{Y} - \hat{b}_1 \bar{X} $$

配適後的迴歸線必通過樣本平均點 $(\bar{X}, \bar{Y})$。

古典常態線性迴歸模型的六項假設#

要由迴歸結果做出有效推論,下列假設必須成立:

  1. $Y$ 與 $X$ 的關係在參數 $b_0$、$b_1$ 上為線性
  2. 自變數 $X$ 不是隨機變數
  3. 誤差項的期望值為 0:$E(\varepsilon) = 0$
  4. 誤差項的變異數對所有觀察值皆相同(同質變異,homoskedasticity
  5. 誤差項在不同觀察值間不相關
  6. 誤差項服從常態分布

違反這些假設會危及推論的有效性。常見問題包括異質變異(heteroskedasticity)、誤差項自相關(autocorrelation)與非常態誤差。

估計誤差與配適度#

估計標準誤#

**估計標準誤(standard error of estimate, SEE)**衡量迴歸模型對資料的配適程度:

$$ \text{SEE} = \sqrt{\frac{\sum_{i=1}^{n} \hat{\varepsilon}_i^2}{n - 2}} $$

SEE 越小,模型配適越好。分母為 $n - 2$,因為單變數迴歸估計了兩個參數(截距與斜率)。

判定係數#

**判定係數(coefficient of determination, $R^2$)**衡量因變數的總變異中,被自變數解釋的比例:

$$ R^2 = \frac{\text{解釋變異}}{\text{總變異}} = 1 - \frac{\text{未解釋變異}}{\text{總變異}} $$

單變數線性迴歸中,$R^2$ 等於 $X$ 與 $Y$ 樣本相關係數的平方。$R^2 = 0.6$ 表示自變數解釋了 60% 的因變數變異。

對迴歸係數的假設檢定#

信賴區間#

估計係數 $\hat{b}_1$ 的 $(1 - \alpha)$ 信賴區間:

$$ \hat{b}1 \pm t_c \cdot s{\hat{b}_1} $$

其中 $s_{\hat{b}_1}$ 為估計係數的標準誤,$t_c$ 為 t 分布的臨界值(自由度 $n - 2$)。

檢定統計量#

檢定 $H_0: b_1 = B_1$(假設值)的 t 統計量:

$$ t = \frac{\hat{b}1 - B_1}{s{\hat{b}_1}}, \quad df = n - 2 $$

當 $|t| > t_c$ 時拒絕 $H_0$。最常見的檢定為 $H_0: b_1 = 0$,用以判斷自變數對因變數是否具有顯著解釋力。

變異數分析(ANOVA)#

迴歸的變異數分析將因變數的總變異分解為三部分:

  • 總平方和(Total Sum of Squares, SST):$\sum (Y_i - \bar{Y})^2$
  • 迴歸平方和(Regression Sum of Squares, SSR):$\sum (\hat{Y}_i - \bar{Y})^2$,由模型解釋的部分
  • 殘差平方和(Residual Sum of Squares, SSE):$\sum (Y_i - \hat{Y}_i)^2$,未被解釋的部分

關係式:

$$ SST = SSR + SSE $$

ANOVA 表常見欄位為自由度(df)、平方和(SS)、均方和(MSS = SS/df)、F 統計量、顯著水準。$R^2 = SSR / SST$。

預測區間#

給定自變數值 $X_f$,因變數的點預測為:

$$ \hat{Y}_f = \hat{b}_0 + \hat{b}_1 X_f $$

對應的 $(1 - \alpha)$ **預測區間(prediction interval)**為:

$$ \hat{Y}_f \pm t_c \cdot s_f $$

其中 $s_f$ 為預測誤差變異數的平方根,$t_c$ 為 t 分布臨界值。

$s_f$ 同時包含「估計係數的不確定性」與「誤差項的固有變異」兩種來源,且當 $X_f$ 距離 $\bar{X}$ 越遠時 $s_f$ 越大。**外推(extrapolation)**通常會產生較不可靠的預測。

本章重點回顧#

  • 線性迴歸用一條直線描述自變數 $X$ 與因變數 $Y$ 的關係:$Y_i = b_0 + b_1 X_i + \varepsilon_i$
  • 估計方法為最小平方法;$\hat{b}_1 = \text{Cov}(Y, X) / \text{Var}(X)$,$\hat{b}_0 = \bar{Y} - \hat{b}_1 \bar{X}$
  • 古典模型六項假設:線性、自變數非隨機、誤差期望為 0、同質變異、誤差不相關、誤差常態
  • 估計標準誤 SEE 反映配適品質;判定係數 $R^2$ 為被解釋變異佔總變異的比例
  • 對係數的假設檢定使用 t 統計量,自由度 $n - 2$;常用檢定為 $H_0: b_1 = 0$
  • ANOVA 將總變異分解為解釋與未解釋兩部分,$SST = SSR + SSE$
  • 預測區間由點預測、估計誤差與固有誤差共同決定;外推會放大不確定性