方法與統計學說明 • 超級創辦人：億級新創共同特徵的數據解析

為什麼要先談方法#

本書的主軸是「以資料減少偏見、不再製造新偏見」。作者刻意把方法論放在最前面，讓讀者在閱讀後續百分比與比例之前，能先建立正確的解讀基礎。

相關不等於因果（Correlation Is Not Causation）。資料能呈現群體間的差異，但無法直接推論「做 A 就會導致 B」。

假設十億美元級新創的創辦人中有 10% 名叫 John，這代表「叫 John 容易成功」嗎？不一定，因為可能存在干擾因子（confounding factors）：

要解開這類問題，必須建立一個合適的「比較基準」（baseline）。

理想上，研究者會比較「所有曾創過業的人」，但這在實務上不可行——光是 2005 至 2018 年間獲得至少 300 萬美元資金的新創就大約有兩萬家。作者採取統計上常用的做法：抽樣（sampling）。

「隨機組」代表的是「典型的新創長什麼樣」，因此可作為十億美元組的對照基準。書中所有的「比起隨機組 ⋯⋯」之類的敘述，都是基於這個對照。

比較兩組時採用 95% 信賴區間（confidence interval）。
由於同時對許多因子（年齡、募資金額、學校排名 ⋯⋯）做比較，會出現「多重比較問題」（multiple comparison problem）：純粹靠運氣，也可能找到看似有差異的因子。
為控制偽發現率，採用 Benjamini-Hochberg 程序（Benjamini-Hochberg procedure），確保只回報「不太可能由隨機產生」的顯著差異。

作者坦承這不是一篇學術論文，潛在偏誤無法完全消除：

我們也必須承認，運氣（luck）、特權（privilege）與機會的取得（access）在許多創辦人的成功中扮演了重要角色，這些因素無法完全在數據中被量化。

儘管如此，本書背後的資料集仍是目前針對新創成功因子規模最大的之一：

帶著「這是統計上的傾向，而非個人的命運」的心態閱讀後續章節，才能既得到啟發，又不被數字綁架。