作者 Thomas C. Redman 用同一個練習教了二十年。一次練習不會讓你變成資料專家,但能打開你的眼睛、看見日常裡無數個「小資料」的機會,並讓你跟資料科學家(data scientist)合作起來更順手。
練習的工具與素材#
只需要:
- 一支筆
- 一張紙
- 一個計算機
- 一個開放的心態
步驟一:從工作中真正困擾你的事情出發#
挑一個讓你感興趣甚至感到困擾的問題,寫成一個明確的疑問句。例如:
「會議總是不準時開始,這是真的嗎?」
步驟二:定義資料與蒐集規範#
在開始記錄之前,必須把「資料是什麼」明確定義下來。模糊的定義會讓資料無法信任。
以「會議遲到」為例,至少要回答:
- 「開始」是指有人說「好,我們開始吧」?
- 還是真正進入會議重點的那一刻?
- 閒聊時間算不算會議時間?
把所有相關定義與蒐集流程寫下來。
步驟三:開始蒐集,並準備邊做邊修#
蒐集途中幾乎一定會發現定義漏洞。例如:會議已經開始了,但更高階的人加入時又重新開始一次。修改你的定義與流程,再繼續蒐集。
關鍵原則:你必須信得過自己蒐集到的資料。
步驟四:畫出第一張圖#
好的圖能同時幫你理解資料與向別人傳達重點。
- 工具很多,但作者建議第一張圖用手畫
- 預設選擇:時間序列圖(time-series plot)
- 橫軸:日期與時間
- 縱軸:感興趣的變數
- 在這個例子裡:每一點代表一場會議,縱軸是它遲到的分鐘數

Figure 2-1: How late are meetings?
步驟五:回到原始問題,做摘要統計#
例如統計後你可能得到:
「過去兩週,我參加的會議只有 10% 準時開始;平均遲到 12 分鐘。」
步驟六:問自己「So what?」#
很多分析停在這裡,是因為作者不知道發現了什麼意義。沒有「So what?」的分析,價值有限。
繼續上面的例子:
- 如果這兩週具代表性,每天浪費 1 小時
- 換算成公司每年浪費的金額是 $x
反過來說,如果 80% 會議都在預定時間附近的幾分鐘內開始,原始問題的答案就是「會議大致準時」,分析應就此打住,不需再深入。
步驟七:感受變異(variation)#
理解變異能帶來更深的洞察與改善靈感。
- 圖上看到:典型遲到 8–20 分鐘
- 少數會議準時,少數遲到接近 30 分鐘
- 因此不能下結論「我可以晚 10 分鐘到、剛好趕上開始」——變異太大
步驟八:再問「資料還告訴我什麼?」#
繼續觀察,會發現新的線索。例如:
- 6 場會議剛好準時開始,其他每場都至少遲 7 分鐘
- 翻會議紀錄發現——這 6 場全是財務副總裁召集的
- 顯然她有「會議準時開始」的紀律
步驟九:判斷下一步——「有趣」還是「重要」?#
這是資料分析常見的二分法:結果同時通過「有趣(interesting)」與「重要(important)」測試嗎?
以這個例子:
- 個人層級:兩項都通過——多數人願意付出代價換回每天 1 小時,至少自己召集的會議可以效法那位財務副總裁
- 公司層級:目前只通過「有趣」測試——你還不知道結果是否具普遍性、其他主管是否能像她一樣鐵腕
於是回到步驟一,提出新的問題並重跑流程:
- 我的結果與公司其他人的經驗一致嗎?
- 哪幾天比較糟?
- 電話會議和面對面會議哪個比較常遲到?
- 會議遲到時間與最高階出席者之間有關係嗎?
每一輪只挑 2–3 個問題,把焦點收得很窄,避免分析失焦。
為什麼這個練習值得認真做#
每一個步驟都對應一個重要的分析概念——從理解變異到資料視覺化(visualization),都濃縮在一次完整循環裡。Redman 的提醒:
容得下「資料文盲(data illiterate)」的位置只會愈來愈少;老實說,已經沒有藉口了。