Multiple Regression • 量化投資分析（CFA Institute）

從單變數迴歸到多變數迴歸#

實務上，因變數通常受到多個自變數共同影響。本章把單變數線性迴歸推廣為多變數線性迴歸（multiple linear regression），並進一步討論：

古典假設的違反與檢測
模型設定的原則與常見錯誤
質性自變數的引入（虛擬變數）
質性因變數的處理（Logit 模型）

多變數線性迴歸模型#

一般形式：

$$ Y_i = b_0 + b_1 X_{1i} + b_2 X_{2i} + \dots + b_k X_{ki} + \varepsilon_i $$

其中：

$Y_i$：第 $i$ 個觀察值的因變數
$X_{ji}$：第 $j$ 個自變數的第 $i$ 個觀察值
$b_0$：截距；$b_j$：第 $j$ 個自變數的斜率
$\varepsilon_i$：誤差項

古典模型的六項假設#

因變數與自變數呈線性關係
自變數非隨機；且任兩自變數不存在完全線性關係
給定自變數，誤差項的期望值為 0
誤差項變異數對所有觀察值相同（同質變異）
誤差項在觀察值間不相關
誤差項服從常態分布

對係數的假設檢定#

個別係數的 t 檢定#

對 $H_0: b_j = B_j$：

$$ t = \frac{\hat{b}j - B_j}{s{\hat{b}_j}}, \quad df = n - (k + 1) $$

報告中常以 p 值呈現顯著程度：p 值越低，拒絕 $H_0$ 的證據越強。

整體顯著性 F 檢定#

ANOVA 表中的 F 統計量檢定是否至少有一個斜率係數顯著異於 0：

$$ F = \frac{\text{MSR}}{\text{MSE}}, \quad F \sim F_{k, n - (k+1)} $$

虛無假設 $H_0: b_1 = b_2 = \dots = b_k = 0$。F 檢定衡量迴歸的整體顯著性。

預測#

以多變數迴歸預測 $Y$ 的三步驟：

取得迴歸係數估計值
確定各自變數的假設取值
計算因變數的預測值

預測的不確定性來自兩個來源：模型本身的誤差（SEE）與係數估計的不確定性。

配適度量度#

$R^2$ 的問題#

判定係數 $R^2$ 不會隨自變數增加而下降——即使新增的自變數毫無解釋力，$R^2$ 也至少不變。這使得單純 $R^2$ 在多變數迴歸中作為配適度指標不可靠。

調整後 $R^2$#

**調整後 $R^2$（adjusted $R^2$）**對自變數數量加以懲罰：

$$ \bar{R}^2 = 1 - \left(\frac{n - 1}{n - k - 1}\right)(1 - R^2) $$

只有當新增自變數的解釋力大於懲罰時，調整後 $R^2$ 才會上升。

虛擬變數#

**虛擬變數（dummy variable）**取值為 0 或 1，用於處理質性（類別）自變數。若要區分 $n$ 個類別，迴歸應包含 $n - 1$ 個虛擬變數（避免完全共線性）。

兩種虛擬變數的用途#

截距虛擬變數（intercept dummy）：截距代表被省略類別的因變數平均值；各虛擬變數係數則為相對於該基準類別的平均增量
斜率虛擬變數（slope dummy）：每個虛擬變數的係數為自變數斜率係數的平均增量

迴歸假設的違反#

條件異質變異#

條件異質變異（conditional heteroskedasticity）：誤差項的變異數隨自變數變動。後果：

標準誤計算錯誤，t 與 F 統計量失真
係數估計仍不偏但不再有效

Breusch–Pagan 檢定：將原迴歸殘差的平方對自變數迴歸，$nR^2$ 在虛無假設下服從 $\chi^2_k$ 分布。

修正方法：使用 White 異質變異穩健標準誤。

序列相關#

序列相關（serial correlation）：誤差項在時間序列中彼此相關。正序列相關通常會高估 t 統計量與 F 統計量（誤將不顯著結果判為顯著）。

Durbin–Watson 檢定：若統計量明顯偏離 2，則存在顯著序列相關。

修正方法：使用 Newey–West 穩健標準誤；或重新檢查模型設定。

多重共線性#

多重共線性（multicollinearity）：兩或多個自變數（或其組合）高度相關但非完全相關。徵候：

整體 F 檢定顯著（模型整體有效）
但個別係數的 t 檢定不顯著
係數估計對樣本變化敏感

多重共線性下，個別係數的詮釋與顯著性檢定變得不可靠，但模型的預測能力可能仍不受影響。

模型設定#

良好設定的原則#

以紮實的經濟推理為基礎
自變數的函數形式須符合變數性質
簡約原則（parsimony）：避免過度複雜
接受前須檢驗迴歸假設是否被違反
應在樣本外測試有效性

常見的設定錯誤#

函數形式錯誤：

遺漏重要變數
變數須轉換（如取對數）但未轉換
不應合併的樣本被合併

自變數與誤差項相關（違反假設 3）：

在序列相關的迴歸中加入因變數的落後項作為自變數
將因變數的函數誤當作自變數（常因變數日期錯置）
自變數帶有測量誤差

模型一旦設定錯誤，OLS 推論將失效，係數估計可能有偏且不一致。

質性因變數模型#

當因變數本身為質性（如「公司是否破產」），普通 OLS 不適用。

**Logit 模型（logistic regression）**估計在給定自變數下，事件發生（$Y = 1$）的機率，基於 logistic 分布：

$$ P(Y = 1 \mid X) = \frac{1}{1 + e^{-(b_0 + b_1 X_1 + \dots + b_k X_k)}} $$

廣泛應用於信用評等、破產預測、客戶流失預測等。

本章重點回顧#

多變數迴歸推廣單變數模型，可同時納入多個自變數的解釋力
古典假設多了一條：「任兩自變數不存在完全線性關係」
個別係數以 t 檢定，自由度 $n-(k+1)$；整體顯著性以 F 檢定
$R^2$ 隨自變數數量單調不降；應使用**調整後 $R^2$**作為配適度指標
虛擬變數可處理質性自變數；$n$ 個類別需要 $n-1$ 個虛擬變數
條件異質變異、序列相關、多重共線性是三種常見的假設違反，各有對應檢定（Breusch–Pagan、Durbin–Watson）與修正方法
模型設定錯誤會使係數估計有偏且不一致；應遵循經濟理據、簡約、樣本外驗證原則
質性因變數需採 Logit 等模型，估計事件發生機率