Understanding Regression Analysis

Amy Gallo 與 Thomas Redman（《Data Driven》作者、資料品質顧問）對談整理。

什麼是迴歸分析？#

想像你是業務經理，想預測下個月銷售：

天氣、競爭對手促銷、即將推出的新版本傳聞……可能影響的因素有幾十、上百個
公司裡也常流傳各種理論：「下越多雨我們賣越多」「對手促銷後 6 週銷量會跳起來」

**迴歸分析（regression analysis）**就是用數學方式辨識：

哪些因素最重要？
哪些可以忽略？
它們之間如何交互？
最關鍵的——我們對這些結論有多確定？

變數的角色#

應變數（dependent variable）：你想理解或預測的主要因素，例如月銷售
自變數（independent variable）：你懷疑會影響應變數的因素

迴歸怎麼跑？#

步驟 1：蒐集資料、畫散布圖#

把過去 3 年的月銷售數字與當月降雨量畫到圖上：

y 軸（應變數一律放 y 軸）：銷售量
x 軸：降雨量
每個點代表某月的「降雨量 + 銷售量」

Figure 10-1: Is there a relationship between these two variables?

從圖上你可能看到「雨大時銷售較高」，但到底大多少？下 3 吋雨會賣多少？4 吋呢？

步驟 2：畫一條最佳契合的迴歸線#

由統計軟體（SPSS、STATA，甚至 Excel）畫出穿過資料點中心的線——迴歸線（regression line），它是「自變數與應變數關係的最佳解釋」。

Figure 10-2: Building a regression model

軟體還會輸出公式：

y = 200 + 5x + error term

先忽略誤差項，看核心模型 y = 200 + 5x：

沒下雨（x = 0）時，平均賣 200
雨每多 1 吋，銷售平均多 5

誤差項（error term）：你有多確定？#

真實世界裡自變數從不會完美預測應變數，迴歸線只是估計。誤差項告訴你這條公式的可信度——誤差越大，可信度越低。

只用一個變數 → 誤差項通常很大。所以實務上：

同時放入多個自變數（雨量、競爭對手促銷……）
持續迭代，直到誤差項變得很小

同時考慮多個變數，是迴歸分析最強大的能力之一。但變數放太多也有風險，需有經驗的分析師控制。

公司怎麼用迴歸？#

Redman 形容迴歸是「分析的首選方法」。多數公司用它來：

解釋現象：為什麼上個月客服電話下降？
預測未來：未來 6 個月銷售會怎樣？
決定行動：該選 A 促銷還是 B 促銷？

經理人最常犯的錯#

錯誤 1：請分析師「自己看看是什麼影響了銷售」#

大多數分析翻車，是因為經理人沒先收斂焦點。

經理人的職責是指出懷疑的因素請分析師檢驗
對分析師說「去做釣魚遠征（fishing expedition）、找出我不知道的事」，很容易得到根本不存在的關係
同樣道理：丟硬幣丟夠多次，總會看到連續正面的「有趣模式」

錯誤 2：忽略「自己能否影響該變數」#

天氣、對手促銷你都改變不了。先問自己：拿到這個結果，我會做什麼決定、採取什麼行動？

錯誤 3：忽視資料品質#

「分析對壞資料極為敏感。」

資料不必完美，要看後續決策影響多大
影響不大時，有點漏的資料也能用
如果是「要蓋 8 個還是 10 個、每個成本 100 萬美元」這種決定，資料品質就是大事

錯誤 4：忽略誤差項#

迴歸的本質是量化「這件事會發生的可能性」，不是給你一個確定答案。
如果迴歸解釋 90% 變異 → 很好
如果只解釋 10%、卻當 90% 用 → 災難

錯誤 5：讓資料取代直覺#

永遠把直覺疊在資料之上。
結果合理嗎？
不合理時，是資料錯，還是誤差項其實很大？
找更資深的經理或其他分析交叉驗證
「最好的科學家與經理人，會同時看資料與真實世界。」

警惕「虛假相關（spurious correlations）」#

「相關不等於因果」我們都知道，但看到圖表共動、線條一起上升，腦袋還是忍不住要找原因。

Tyler Vigen（Harvard 法學院學生、《Spurious Correlations》作者）的網站專門展示荒謬的相關，例如「美國人均人造奶油消費量 vs. 緬因州離婚率」「iPhone 越多，從樓梯摔死的人越多」「為球隊歡呼可以減肥」。

日常工作裡你不會看到這麼荒誕的圖，但會碰到「設計過、看似可信」的圖表，三種類型要警惕：

蘋果比橘子（Apples and Oranges）：兩條 y 軸量的是不同的東西，曲線看似一致但其實毫無關聯——最好分開畫。
歪斜的軸（Skewed Scales）：兩條 y 軸量同類，但用不同範圍與比例，硬把線拉到一起——拿掉第二條 y 軸就能看出歪斜。
如果 / 那麼（Ifs and Thens）：把毫不相關的兩個資料集放在同張圖裡，創造「Pandora 虧損變少 → 更多音樂取得版權」這類純屬巧合的敘事。

什麼是迴歸分析？#

變數的角色#

迴歸怎麼跑？#

步驟 1：蒐集資料、畫散布圖#

Figure 10-1: Is there a relationship between these two variables?

步驟 2：畫一條最佳契合的迴歸線#

Figure 10-2: Building a regression model

誤差項（error term）：你有多確定？#

公司怎麼用迴歸？#

相關 ≠ 因果（critical reminder）#

怎麼追究因果？#

Redman 的個人例子#

經理人最常犯的錯#

錯誤 1：請分析師「自己看看是什麼影響了銷售」#

錯誤 2：忽略「自己能否影響該變數」#

錯誤 3：忽視資料品質#

錯誤 4：忽略誤差項#

錯誤 5：讓資料取代直覺#

警惕「虛假相關（spurious correlations）」#