從單變數迴歸到多變數迴歸#

實務上,因變數通常受到多個自變數共同影響。本章把單變數線性迴歸推廣為多變數線性迴歸(multiple linear regression),並進一步討論:

  • 古典假設的違反與檢測
  • 模型設定的原則與常見錯誤
  • 質性自變數的引入(虛擬變數)
  • 質性因變數的處理(Logit 模型)

多變數線性迴歸模型#

一般形式:

$$ Y_i = b_0 + b_1 X_{1i} + b_2 X_{2i} + \dots + b_k X_{ki} + \varepsilon_i $$

其中:

  • $Y_i$:第 $i$ 個觀察值的因變數
  • $X_{ji}$:第 $j$ 個自變數的第 $i$ 個觀察值
  • $b_0$:截距;$b_j$:第 $j$ 個自變數的斜率
  • $\varepsilon_i$:誤差項

古典模型的六項假設#

  1. 因變數與自變數呈線性關係
  2. 自變數非隨機;且任兩自變數不存在完全線性關係
  3. 給定自變數,誤差項的期望值為 0
  4. 誤差項變異數對所有觀察值相同(同質變異)
  5. 誤差項在觀察值間不相關
  6. 誤差項服從常態分布

對係數的假設檢定#

個別係數的 t 檢定#

對 $H_0: b_j = B_j$:

$$ t = \frac{\hat{b}j - B_j}{s{\hat{b}_j}}, \quad df = n - (k + 1) $$

報告中常以 p 值呈現顯著程度:p 值越低,拒絕 $H_0$ 的證據越強。

整體顯著性 F 檢定#

ANOVA 表中的 F 統計量檢定是否至少有一個斜率係數顯著異於 0

$$ F = \frac{\text{MSR}}{\text{MSE}}, \quad F \sim F_{k, n - (k+1)} $$

虛無假設 $H_0: b_1 = b_2 = \dots = b_k = 0$。F 檢定衡量迴歸的整體顯著性

預測#

以多變數迴歸預測 $Y$ 的三步驟:

  1. 取得迴歸係數估計值
  2. 確定各自變數的假設取值
  3. 計算因變數的預測值

預測的不確定性來自兩個來源:模型本身的誤差(SEE)與係數估計的不確定性。

配適度量度#

$R^2$ 的問題#

判定係數 $R^2$ 不會隨自變數增加而下降——即使新增的自變數毫無解釋力,$R^2$ 也至少不變。這使得單純 $R^2$ 在多變數迴歸中作為配適度指標不可靠。

調整後 $R^2$#

**調整後 $R^2$(adjusted $R^2$)**對自變數數量加以懲罰:

$$ \bar{R}^2 = 1 - \left(\frac{n - 1}{n - k - 1}\right)(1 - R^2) $$

只有當新增自變數的解釋力大於懲罰時,調整後 $R^2$ 才會上升。

虛擬變數#

**虛擬變數(dummy variable)**取值為 0 或 1,用於處理質性(類別)自變數。若要區分 $n$ 個類別,迴歸應包含 $n - 1$ 個虛擬變數(避免完全共線性)。

兩種虛擬變數的用途#

  • 截距虛擬變數(intercept dummy):截距代表被省略類別的因變數平均值;各虛擬變數係數則為相對於該基準類別的平均增量
  • 斜率虛擬變數(slope dummy):每個虛擬變數的係數為自變數斜率係數的平均增量

迴歸假設的違反#

條件異質變異#

條件異質變異(conditional heteroskedasticity):誤差項的變異數隨自變數變動。後果:

  • 標準誤計算錯誤,t 與 F 統計量失真
  • 係數估計仍不偏不再有效

Breusch–Pagan 檢定:將原迴歸殘差的平方對自變數迴歸,$nR^2$ 在虛無假設下服從 $\chi^2_k$ 分布。

修正方法:使用 White 異質變異穩健標準誤。

序列相關#

序列相關(serial correlation):誤差項在時間序列中彼此相關。正序列相關通常會高估 t 統計量與 F 統計量(誤將不顯著結果判為顯著)。

Durbin–Watson 檢定:若統計量明顯偏離 2,則存在顯著序列相關。

修正方法:使用 Newey–West 穩健標準誤;或重新檢查模型設定。

多重共線性#

多重共線性(multicollinearity):兩或多個自變數(或其組合)高度相關但非完全相關。徵候:

  • 整體 F 檢定顯著(模型整體有效)
  • 但個別係數的 t 檢定不顯著
  • 係數估計對樣本變化敏感

多重共線性下,個別係數的詮釋與顯著性檢定變得不可靠,但模型的預測能力可能仍不受影響。

模型設定#

良好設定的原則#

  • 以紮實的經濟推理為基礎
  • 自變數的函數形式須符合變數性質
  • 簡約原則(parsimony):避免過度複雜
  • 接受前須檢驗迴歸假設是否被違反
  • 應在樣本外測試有效性

常見的設定錯誤#

函數形式錯誤

  • 遺漏重要變數
  • 變數須轉換(如取對數)但未轉換
  • 不應合併的樣本被合併

自變數與誤差項相關(違反假設 3):

  • 在序列相關的迴歸中加入因變數的落後項作為自變數
  • 將因變數的函數誤當作自變數(常因變數日期錯置)
  • 自變數帶有測量誤差

模型一旦設定錯誤,OLS 推論將失效,係數估計可能有偏且不一致

質性因變數模型#

當因變數本身為質性(如「公司是否破產」),普通 OLS 不適用。

**Logit 模型(logistic regression)**估計在給定自變數下,事件發生($Y = 1$)的機率,基於 logistic 分布:

$$ P(Y = 1 \mid X) = \frac{1}{1 + e^{-(b_0 + b_1 X_1 + \dots + b_k X_k)}} $$

廣泛應用於信用評等、破產預測、客戶流失預測等。

本章重點回顧#

  • 多變數迴歸推廣單變數模型,可同時納入多個自變數的解釋力
  • 古典假設多了一條:「任兩自變數不存在完全線性關係」
  • 個別係數以 t 檢定,自由度 $n-(k+1)$;整體顯著性以 F 檢定
  • $R^2$ 隨自變數數量單調不降;應使用**調整後 $R^2$**作為配適度指標
  • 虛擬變數可處理質性自變數;$n$ 個類別需要 $n-1$ 個虛擬變數
  • 條件異質變異、序列相關、多重共線性是三種常見的假設違反,各有對應檢定(Breusch–Pagan、Durbin–Watson)與修正方法
  • 模型設定錯誤會使係數估計有偏且不一致;應遵循經濟理據、簡約、樣本外驗證原則
  • 質性因變數需採 Logit 等模型,估計事件發生機率