從單變數迴歸到多變數迴歸#
實務上,因變數通常受到多個自變數共同影響。本章把單變數線性迴歸推廣為多變數線性迴歸(multiple linear regression),並進一步討論:
- 古典假設的違反與檢測
- 模型設定的原則與常見錯誤
- 質性自變數的引入(虛擬變數)
- 質性因變數的處理(Logit 模型)
多變數線性迴歸模型#
一般形式:
$$ Y_i = b_0 + b_1 X_{1i} + b_2 X_{2i} + \dots + b_k X_{ki} + \varepsilon_i $$
其中:
- $Y_i$:第 $i$ 個觀察值的因變數
- $X_{ji}$:第 $j$ 個自變數的第 $i$ 個觀察值
- $b_0$:截距;$b_j$:第 $j$ 個自變數的斜率
- $\varepsilon_i$:誤差項
古典模型的六項假設#
- 因變數與自變數呈線性關係
- 自變數非隨機;且任兩自變數不存在完全線性關係
- 給定自變數,誤差項的期望值為 0
- 誤差項變異數對所有觀察值相同(同質變異)
- 誤差項在觀察值間不相關
- 誤差項服從常態分布
對係數的假設檢定#
個別係數的 t 檢定#
對 $H_0: b_j = B_j$:
$$ t = \frac{\hat{b}j - B_j}{s{\hat{b}_j}}, \quad df = n - (k + 1) $$
報告中常以 p 值呈現顯著程度:p 值越低,拒絕 $H_0$ 的證據越強。
整體顯著性 F 檢定#
ANOVA 表中的 F 統計量檢定是否至少有一個斜率係數顯著異於 0:
$$ F = \frac{\text{MSR}}{\text{MSE}}, \quad F \sim F_{k, n - (k+1)} $$
虛無假設 $H_0: b_1 = b_2 = \dots = b_k = 0$。F 檢定衡量迴歸的整體顯著性。
預測#
以多變數迴歸預測 $Y$ 的三步驟:
- 取得迴歸係數估計值
- 確定各自變數的假設取值
- 計算因變數的預測值
預測的不確定性來自兩個來源:模型本身的誤差(SEE)與係數估計的不確定性。
配適度量度#
$R^2$ 的問題#
判定係數 $R^2$ 不會隨自變數增加而下降——即使新增的自變數毫無解釋力,$R^2$ 也至少不變。這使得單純 $R^2$ 在多變數迴歸中作為配適度指標不可靠。
調整後 $R^2$#
**調整後 $R^2$(adjusted $R^2$)**對自變數數量加以懲罰:
$$ \bar{R}^2 = 1 - \left(\frac{n - 1}{n - k - 1}\right)(1 - R^2) $$
只有當新增自變數的解釋力大於懲罰時,調整後 $R^2$ 才會上升。
虛擬變數#
**虛擬變數(dummy variable)**取值為 0 或 1,用於處理質性(類別)自變數。若要區分 $n$ 個類別,迴歸應包含 $n - 1$ 個虛擬變數(避免完全共線性)。
兩種虛擬變數的用途#
- 截距虛擬變數(intercept dummy):截距代表被省略類別的因變數平均值;各虛擬變數係數則為相對於該基準類別的平均增量
- 斜率虛擬變數(slope dummy):每個虛擬變數的係數為自變數斜率係數的平均增量
迴歸假設的違反#
條件異質變異#
條件異質變異(conditional heteroskedasticity):誤差項的變異數隨自變數變動。後果:
- 標準誤計算錯誤,t 與 F 統計量失真
- 係數估計仍不偏但不再有效
Breusch–Pagan 檢定:將原迴歸殘差的平方對自變數迴歸,$nR^2$ 在虛無假設下服從 $\chi^2_k$ 分布。
修正方法:使用 White 異質變異穩健標準誤。
序列相關#
序列相關(serial correlation):誤差項在時間序列中彼此相關。正序列相關通常會高估 t 統計量與 F 統計量(誤將不顯著結果判為顯著)。
Durbin–Watson 檢定:若統計量明顯偏離 2,則存在顯著序列相關。
修正方法:使用 Newey–West 穩健標準誤;或重新檢查模型設定。
多重共線性#
多重共線性(multicollinearity):兩或多個自變數(或其組合)高度相關但非完全相關。徵候:
- 整體 F 檢定顯著(模型整體有效)
- 但個別係數的 t 檢定不顯著
- 係數估計對樣本變化敏感
多重共線性下,個別係數的詮釋與顯著性檢定變得不可靠,但模型的預測能力可能仍不受影響。
模型設定#
良好設定的原則#
- 以紮實的經濟推理為基礎
- 自變數的函數形式須符合變數性質
- 簡約原則(parsimony):避免過度複雜
- 接受前須檢驗迴歸假設是否被違反
- 應在樣本外測試有效性
常見的設定錯誤#
函數形式錯誤:
- 遺漏重要變數
- 變數須轉換(如取對數)但未轉換
- 不應合併的樣本被合併
自變數與誤差項相關(違反假設 3):
- 在序列相關的迴歸中加入因變數的落後項作為自變數
- 將因變數的函數誤當作自變數(常因變數日期錯置)
- 自變數帶有測量誤差
模型一旦設定錯誤,OLS 推論將失效,係數估計可能有偏且不一致。
質性因變數模型#
當因變數本身為質性(如「公司是否破產」),普通 OLS 不適用。
**Logit 模型(logistic regression)**估計在給定自變數下,事件發生($Y = 1$)的機率,基於 logistic 分布:
$$ P(Y = 1 \mid X) = \frac{1}{1 + e^{-(b_0 + b_1 X_1 + \dots + b_k X_k)}} $$
廣泛應用於信用評等、破產預測、客戶流失預測等。
本章重點回顧#
- 多變數迴歸推廣單變數模型,可同時納入多個自變數的解釋力
- 古典假設多了一條:「任兩自變數不存在完全線性關係」
- 個別係數以 t 檢定,自由度 $n-(k+1)$;整體顯著性以 F 檢定
- $R^2$ 隨自變數數量單調不降;應使用**調整後 $R^2$**作為配適度指標
- 虛擬變數可處理質性自變數;$n$ 個類別需要 $n-1$ 個虛擬變數
- 條件異質變異、序列相關、多重共線性是三種常見的假設違反,各有對應檢定(Breusch–Pagan、Durbin–Watson)與修正方法
- 模型設定錯誤會使係數估計有偏且不一致;應遵循經濟理據、簡約、樣本外驗證原則
- 質性因變數需採 Logit 等模型,估計事件發生機率