作者 Thomas C. Redman 用同一個練習教了二十年。一次練習不會讓你變成資料專家,但能打開你的眼睛、看見日常裡無數個「小資料」的機會,並讓你跟資料科學家(data scientist)合作起來更順手。

練習的工具與素材#

只需要:

  • 一支筆
  • 一張紙
  • 一個計算機
  • 一個開放的心態

步驟一:從工作中真正困擾你的事情出發#

挑一個讓你感興趣甚至感到困擾的問題,寫成一個明確的疑問句。例如:

「會議總是不準時開始,這是真的嗎?」

步驟二:定義資料與蒐集規範#

在開始記錄之前,必須把「資料是什麼」明確定義下來。模糊的定義會讓資料無法信任。

以「會議遲到」為例,至少要回答:

  • 「開始」是指有人說「好,我們開始吧」?
  • 還是真正進入會議重點的那一刻?
  • 閒聊時間算不算會議時間?

把所有相關定義與蒐集流程寫下來。

步驟三:開始蒐集,並準備邊做邊修#

蒐集途中幾乎一定會發現定義漏洞。例如:會議已經開始了,但更高階的人加入時又重新開始一次。修改你的定義與流程,再繼續蒐集。

關鍵原則:你必須信得過自己蒐集到的資料

步驟四:畫出第一張圖#

好的圖能同時幫你理解資料向別人傳達重點

  • 工具很多,但作者建議第一張圖用手畫
  • 預設選擇:時間序列圖(time-series plot)
    • 橫軸:日期與時間
    • 縱軸:感興趣的變數
  • 在這個例子裡:每一點代表一場會議,縱軸是它遲到的分鐘數

Figure 2-1: How late are meetings?

步驟五:回到原始問題,做摘要統計#

例如統計後你可能得到:

「過去兩週,我參加的會議只有 10% 準時開始;平均遲到 12 分鐘。」

步驟六:問自己「So what?」#

很多分析停在這裡,是因為作者不知道發現了什麼意義。沒有「So what?」的分析,價值有限。

繼續上面的例子:

  • 如果這兩週具代表性,每天浪費 1 小時
  • 換算成公司每年浪費的金額是 $x

反過來說,如果 80% 會議都在預定時間附近的幾分鐘內開始,原始問題的答案就是「會議大致準時」,分析應就此打住,不需再深入。

步驟七:感受變異(variation)#

理解變異能帶來更深的洞察與改善靈感。

  • 圖上看到:典型遲到 8–20 分鐘
  • 少數會議準時,少數遲到接近 30 分鐘
  • 因此不能下結論「我可以晚 10 分鐘到、剛好趕上開始」——變異太大

步驟八:再問「資料還告訴我什麼?」#

繼續觀察,會發現新的線索。例如:

  • 6 場會議剛好準時開始,其他每場都至少遲 7 分鐘
  • 翻會議紀錄發現——這 6 場全是財務副總裁召集的
  • 顯然她有「會議準時開始」的紀律

步驟九:判斷下一步——「有趣」還是「重要」?#

這是資料分析常見的二分法:結果同時通過「有趣(interesting)」與「重要(important)」測試嗎?

以這個例子:

  • 個人層級:兩項都通過——多數人願意付出代價換回每天 1 小時,至少自己召集的會議可以效法那位財務副總裁
  • 公司層級:目前只通過「有趣」測試——你還不知道結果是否具普遍性、其他主管是否能像她一樣鐵腕

於是回到步驟一,提出新的問題並重跑流程:

  • 我的結果與公司其他人的經驗一致嗎?
  • 哪幾天比較糟?
  • 電話會議和面對面會議哪個比較常遲到?
  • 會議遲到時間與最高階出席者之間有關係嗎?

每一輪只挑 2–3 個問題,把焦點收得很窄,避免分析失焦。

為什麼這個練習值得認真做#

每一個步驟都對應一個重要的分析概念——從理解變異到資料視覺化(visualization),都濃縮在一次完整循環裡。Redman 的提醒:

容得下「資料文盲(data illiterate)」的位置只會愈來愈少;老實說,已經沒有藉口了。