沃比根湖的不可能孩子#

明尼蘇達州的「沃比根湖(Lake Wobegon)」是說書人 Garrison Keillor 的家鄉。每段故事尾聲他都說:

「在這裡,所有女人都堅強、所有男人都帥氣、所有孩子都高於平均。」

若一個特徵服從鐘形曲線,只有 50% 的人會在平均之上——智商也是如此,意味著有一半人智商低於平均。 「沃比根湖效應」就此成為「人們高估自己」的代名詞。

平均 vs 中位數#

平均(mean)中位數(median)
定義隨機抽出一個值的最佳預測把資料對半分的值
對稱資料與中位數相同與平均相同
偏態資料被極端值拉走仍然穩定

案例:12 人公司「平均薪資 £40,000」#

  • 大多數員工 £25,000
  • 一兩位高薪主管拉高平均
  • 沒人真的領平均薪資
  • 中位數 £25,000 才反映多數人的實際薪水

看到「平均」遠高於「中位數」時,意味著資料右偏——通常是少數高值拉高了平均。

Asking for medians rather than averages can stop fat cats fooling you

偏態分布的實例#

男性陰莖大小#

研究顯示平均長度 13.24 公分,但中位數 13.00 公分——多數男性確實「低於平均」,但這只反映分布右偏,並非令人尷尬的事。

駕駛能力#

「多數人自認比一般人會開車」常被斥為「虛幻優越感(illusory superiority)」。但若年輕駕駛意外比例極高、佔總駕駛數比重又低,則駕駛能力分布會左偏——多數人真的比平均好。

別輕率否定「多數 X 比平均好/差」這類陳述——偏態分布到處都是。

Log-Normal:「醜姊妹」#

許多自然現象(生命科學、化學、物理)受乘法而非加法影響,呈**對數常態(log-normal)**分布——形狀不對稱,但更貼近現實。 有人主張這個「醜姊妹」其實才應被冠以「Normal」之名。

The log-Normal curve: uglier than the Bell Curve, but perhaps more useful

Cauchy 分布:「邪雙生」#

18 世紀的 **Witch of Agnesi(阿涅西女巫)**曲線、19 世紀的 Cauchy 分布長得像鐘形曲線,但:

The Witch of Agnesi (solid line) is trying to fool you it's Normal (dotted)

  • 中央峰更尖
  • 兩側尾巴更厚(fat-tailed)
  • 統計學家稱為「leptokurtotic(輕拱)」,金融人叫「肥尾

Cauchy 的恐怖特性#

Cauchy 分布不存在「平均」也不存在「標準差」! 你可以對 1,000 點算平均,但下一點可能突然是 51,319,徹底改變平均。 樣本越多,反而越不會收斂。

用 Bell Curve 預測極端事件的災難#

Bell 曲線預測機率Cauchy 對應機率低估倍數
1/201/73 倍
1/1001/911 倍
1/1,0001/1191 倍
1/100 萬1/1662,500 倍
1/10 億1/195,300 萬倍
1/1 兆1/23430 億倍

「每億年才出現一次」的事件,在 Cauchy 分布下可能 每 19 年就出現一次。 這正是金融市場「百年難得一見」的事件屢見不鮮的原因。

金融資料早就「不正常」#

1960 年代美國經濟學家、後來的諾貝爾獎得主 Eugene Fama 在博士論文中指出:

  • 股價變動不服從鐘形曲線
  • 中央更尖、尾巴更厚——介於 Bell Curve 與 Cauchy 之間
  • 屬於「Lévy-stable 分布族

問題不在「不獨立」(Fama 證明 16 天前的價位與當天近乎獨立),而在於標準差過大、移動劇烈、突然——這正違反了中央極限定理。

冪次律分布:另一族「邪族」#

許多現象不僅違反鐘形,連分布形狀都不同——冪次律(power law)

  • 沒有中央峰,只有「懸崖」狀下滑
  • 越大越少見」是其本質
  • 出現在地震、太陽閃焰、森林火災、戰爭、個人財富等

例:地震的 Gutenberg–Richter 關係#

  • M5–6 地震次數是 M6–7 的 10 倍
  • M6–7 是 M7–8 的 10 倍
  • 此分布行為良好,可估出平均

但其他冪次律(太陽閃焰、森林火災、人類衝突)甚至不存在平均值——讓「平均規模」這個基本統計指標毫無意義。

若研究者誤把冪次律資料當鐘形分布處理,常規分析、模式辨識、結論複製通通會出問題。 這些「病態分布」幾乎能戳破科學方法本身。

Weirdly, the weaker the power law the bigger the sting in its tail

結語#

真實世界充滿「看起來像常態,實則完全不是」的現象。 更糟的是,這些怪獸的數據常常偽裝得很無害。 除非及早辨識並謹慎處理,否則它們會讓我們的所有分析淪為笑話。