Nicole Torres 與 Scott Berinato(HBR 資深編輯,著有《Good Charts》)對談整理。
開場:2016 美國總統大選之夜#
那一晚《紐約時報》提供即時預測——一個半圓形儀表(gauge),像汽車油表,需要持續更新:
- 指針往左:Hillary Clinton 機率高
- 指針往右:Donald Trump 機率高
- 但指針不停劇烈抖動(jitter)
觀眾以為是統計機率即時劇變,焦慮飆升。
抖動其實是為了表現「統計預測中的不確定性」而硬寫的視覺效果,不是真的代表機率在變。立意良好——同時呈現即時變化與不確定性——但執行失敗,讓人困惑與不安。
「不確定性」其實有兩種#
1. 統計不確定性(statistical uncertainty)#
「這是我的數值,統計信心 95%」——例如民調的誤差幅度。
常見視覺工具:
- 盒鬚圖(box-and-whisker plot):盒子顯示第 1、3 四分位距,盒中橫線是中位數,鬚線顯示資料範圍,點代表離群值
- 學界有許多變形,但一般觀眾很少看得懂
2. 資料不確定性(data uncertainty)#
不是「數值 + 信心」,而是只知道在某個範圍內。例:
- 估計從「1/2,000 到 1/4,500」
- 估計從「1/5,500 到 1/8,000」
目前沒有公認、正確的方法來呈現這類不確定性。它是當代資料視覺化最重要的挑戰之一。
為什麼視覺化不確定性這麼難?#
視覺化的本質是把抽象的「數字、統計」變具象——用「長條、點」代表「20%」。但一個點看起來那麼確定,怎麼用它表達「100 次裡有 5 次答案會落在別處」?
於是很多人乾脆不呈現不確定性,因為太難——但這是危險的。
舉例需要傳達不確定性的場合:
- 醫療:療法的結果不確定,病人需要知道整個範圍而不只是最可能或最不可能
- 疫情建模:最壞、最可能、最佳情境
- 天氣與颶風預測
一些可用的方法#
- 用**長條(bar)**表現不確定範圍
- 實線顯示均值,虛線顯示上下界
- 用色彩飽和度或漸層表現「越來越不可能、但仍在可能性內」
機率本身對人腦也是難題#
「80% 機率」是什麼感覺?大腦無法直觀感受。它看起來很可能會發生,但若沒發生,那不代表你錯了——只是 20% 那一邊發生了。
統計很怪:
- 「20%」與「1/5」嚴格說來相同
- 但人腦覺得「1/5」比較具體、比較可能會發生
- 「1/5 人犯罪」會讓你想像那一個人——「我們會把分子畫面化」
- 「20%」不會犯罪,它只是統計數字
那 20% 真的發生了,怎麼辦?#
對遭遇罕見壞事的人說「依照當時的機率,那是正確的建議——只是你運氣不好」是非常困難的。
商業也一樣:事後說「我們的模型錯了,不可能的壞事發生了」其實不對——大家從一開始就在傳達這種小機率存在的可能。人類就是難以接受這件事。
為什麼選舉預測讓人覺得被誤導?#
選舉模型有三個交織因素:
- 10 天前候選人 10% 機率勝選,最後勝出 → 不代表模型錯,只是不可能的事發生了
- 我們把選舉視為二元結果(這人贏 vs. 那人贏),所以難以理解「80% 機率」這種說法
- 每天更新機率——候選人說錯話,機率就降;對手機率就升。觀眾誤以為自己看的是「反映候選人最新表現的指標」,像支持率而非預測
對企業的啟示#
隨著資料科學在公司越來越重要,主管要面對的不只是單一答案,而是整個結果範圍——既有統計不確定性,也有資料不確定性。
如果不協助上司理解不確定性:
- 上司會把「最可能」當「就是答案」
- 失敗時就把責任歸咎於「模型錯了」
實務建議#
- 呈現「最可能」沒問題
- 但永遠不要省略可能結果的範圍
- 如果說「有 90% 成功的機率」、實際失敗,老闆應該明白「這不是你錯了,而是踩到了 10%——擲骰子的「snake eyes」」
對腦袋來說這很難,但對於投資資料驅動策略的公司來說,這是必須學會的。