Mark Twain 說過:「謊言、該死的謊言、統計(lies, damned lies, and statistics)」。Michael Schrage 觀察了夠多董事會層級的分析報告後,提出他憤世嫉俗的版本:「騙子、該死的騙子、統計學家(liars, damned liars, and statisticians)。」
開場:一份「客服中心需要更多資源」的報告#
某家金融服務公司的客服中心報告顯示:
- 客戶滿意度持續惡化
- 等候時間與問題解決時間明顯拉長
- 簡報主管暗示:再不投資,公司「快速回應」的形象就要倒
但只要追問三個簡單問題,遊戲就被拆穿:
表面上看似全面下滑的客服指標,實際上主要由 20% 新近退休的客戶造成——這群人因年齡、稅務影響、跨部門核可流程,每通電話常拖到 35–45 分鐘。
更糟的是:管理層沒有把這群電話導向專責團隊,反而讓任何客服都能處理——額外的延遲拖垮整個部門表現。
核心問題:分析的數字全都「技術上正確」#
簡報的每一個數字都是真的,但它們以一種讓部門看起來資源不足的方式被加總。簡報者刻意隱藏了統計上最該被點名的離群值(outlier)。
更打臉的是:簡單的排隊論(queuing theory)模擬就證明——只要對那 20% 的處理方式做小幅調整,客服中心整體指標幾乎不會被影響。問題不在系統投資不足,而在管理本身。
「分析倡議(analytic advocacy)」之害#
越來越多統計老手把數字用來「贏得辯論」,而不是「找出真相」。
這種報告即便技術上準確,反而會壓抑有意義的提問,讓對話無法深入。
解方:永遠把離群值搬到桌面上#
分析報告的呈現者必須明確說明:
- 離群值是哪些?
- 它們如何被定義、被處理?
- 如果把它們移除,整份分析會變成什麼樣?
把離群值與平均值、加總值看得同等重要,常常會看見驚人的真相。
經典案例:Harvard 輟學生的「平均淨資產」#
「Harvard 輟學生的平均淨資產,遠遠高於 Harvard 畢業生。」
技術上沒錯——Bill Gates、Mark Zuckerberg、Polaroid 的 Edwin Land 等人合計通膨調整後淨資產可能超過 1,000 億美元。把這個天文數字當分子、用很小的「輟學生」分母去除——就「統計準確地」製造出「Harvard 輟學生比畢業生有錢得多」的幻象。
這個結論顯然荒謬。但很多董事會層級分析報告,犯的錯沒比這荒謬到哪裡去。
怎麼處理離群值?(Janice H. Hammond)#
在資料中發現離群值時,先別急著下決定——先問清楚原因。
問自己:
- 它是「真實但不尋常」的值嗎?
- 是不是輸入錯誤?
- 它是不是用不同方式或不同時間蒐集的?
了解離群值的成因之後,才能更深入理解資料背後的情境。處理方式通常只有三種:
- 保留(最常見)
- 修正為正確值(很少見)
- 移除(很少見)
排除或更動資料是極少見的決定,必須在仔細了解情境後才能逐案處理。永遠不可以為了讓資料配合你想要的結論而動手。
結語:別讓分析變成「outliars」#
- 永遠主動要求看離群值
- 永遠請分析師展示「移除離群值後」的版本
- 還有許多其他從加總分析中榨出更多價值的方法,但從離群值開始檢查永遠是第一步
處理錯離群值的分析,本質上就是「outliars」——說謊的離群值報告。