我為什麼對「資料視覺化」感到不安#

我熱愛把大型資料集化為資訊圖表的力量——這項傳統可以追溯到 Florence Nightingale 用一種新型圓餅圖清楚展示「死於可預防疾病的士兵比死於傷口的還多」。

但今天,我看到太多漂亮的「特效作品」——展現統計與技術功力,卻沒有清楚地服務任何資訊目的。這是讓我不舒服的根源。

資料視覺化的核心目標是傳達一個能驅動行動的想法。

資訊有價值的三個前提#

並非所有資料都值得視覺化。一份資訊要產生有價值的洞察,必須具備:

  • 可解讀(interpretable):尤其在非結構化資料眾多的今天,沒有對應的詮釋資料(metadata)——是什麼、何時、何地、何人、如何蒐集——資料就難以被探究與下結論
  • 相關(relevant):對閱讀者與目的而言重要
  • 新穎(novel):原創、或為某領域帶來新洞見

三條件缺一不可。真正值得花力氣做視覺化的資料,其實只佔我們能視覺化的一小部分

視覺化的三個正當理由#

1. 確認(Confirmation)#

對某個系統(市場、客戶、競爭者)已有假設,用視覺化檢驗:

  • 假設是否仍然成立?
  • 是否系統已偏離模型?
  • 基於這些假設採取的行動風險如何?

企業儀表板(dashboard)常見此用法。

2. 教育(Education)#

兩種子用法:

  • 報告(reporting):呈現衡量值與比較(時間、跨系統)
  • 培養直覺:對已知系統的演化建立經驗感——常見於培訓的「遊戲化(gamification)

3. 探索(Exploration)#

當資料很大、想找出隱藏關係或模型,可用視覺化進行人機互動式(HMI)探索——稱為「探索性資料分析(exploratory data analysis, EDA)」。

EDA 是用視覺發現替代純統計。但企業利用得太少

先了解你的觀眾(sidebar)#

在「(pun intended)throw up」資料之前,先把目標想清楚——以便讓決策者最容易吸收

設計者必須回答:

  • 觀眾是誰,他們會怎麼讀這張圖?
    • 觀眾熟悉術語與概念嗎?
    • 還是需要視覺提示(「綠色向上箭頭代表好」之類)?
    • 專家觀眾與一般觀眾期待非常不同
  • 觀眾的期待與最有用的資訊類型是什麼?
  • 這張視覺化的功能角色是什麼?觀眾要怎麼據此行動?
    • 探索型視覺化應留下問題讓人追下去
    • 教育型或確認型視覺化不應讓人讀完還充滿疑惑

三種影響視覺化品質的風險#

即使你已釐清目的、提供足夠的資料與後設資料,結果可信嗎?這取決於對三種風險的掌控

風險 1:資料品質(Data quality)#

垃圾進,垃圾出。底層資料的完整性與可靠性是視覺化價值的根基。

風險 2:脈絡(Context)#

視覺化的價值在於把大量資料變得可親近,讓我們的「模式偵測電腦」——大腦——能看出洞察。

為此必須能存取資料元素之間所有可能的關係。脈絡就是洞察的來源。漏掉脈絡資訊或「metacontent」,就會妨礙理解。

風險 3:偏誤(Biases)#

視覺化作者可以透過顏色、位置、視覺花招(多餘的 3D,或在 3D 更有資訊時硬用 2D)改變語意;亦可在背後的演算法中預先框定可被發現的特徵——這正是 EDA 想要對抗的事。

結語#

忽略上述條件與風險,視覺化的目的就會被拖垮——結果讓人困惑,而不是被啟發