為什麼要先談方法#

本書的主軸是「以資料減少偏見、不再製造新偏見」。作者刻意把方法論放在最前面,讓讀者在閱讀後續百分比與比例之前,能先建立正確的解讀基礎。

相關不等於因果(Correlation Is Not Causation)。資料能呈現群體間的差異,但無法直接推論「做 A 就會導致 B」。

一個簡單的思想實驗:名叫 John 的創辦人#

假設十億美元級新創的創辦人中有 10% 名叫 John,這代表「叫 John 容易成功」嗎?不一定,因為可能存在干擾因子(confounding factors):

  • 基準率:可能全國本來就有 10% 的人叫 John。
  • 背景因素:叫 John 的人可能更常出身於經濟條件較好的家庭,更有資源投入創業。
  • 投資人偏誤:創投(venture capital,VC)投資人本身就傾向投給叫 John 的創辦人。

要解開這類問題,必須建立一個合適的「比較基準」(baseline)。

對照組的建立#

理想上,研究者會比較「所有曾創過業的人」,但這在實務上不可行——光是 2005 至 2018 年間獲得至少 300 萬美元資金的新創就大約有兩萬家。作者採取統計上常用的做法:抽樣(sampling)。

  • 從上述母體中隨機抽取 200 家新創作為「隨機組」(random group)。
  • 對隨機組與十億美元組蒐集完全相同的資料項目
  • 統計檢定顯示 200 家樣本足以代表全體母體。

「隨機組」代表的是「典型的新創長什麼樣」,因此可作為十億美元組的對照基準。書中所有的「比起隨機組 ⋯⋯」之類的敘述,都是基於這個對照。

統計檢定與多重比較問題#

  • 比較兩組時採用 95% 信賴區間(confidence interval)。
  • 由於同時對許多因子(年齡、募資金額、學校排名 ⋯⋯)做比較,會出現「多重比較問題」(multiple comparison problem):純粹靠運氣,也可能找到看似有差異的因子。
  • 為控制偽發現率,採用 Benjamini-Hochberg 程序(Benjamini-Hochberg procedure),確保只回報「不太可能由隨機產生」的顯著差異。

仍然存在的限制#

作者坦承這不是一篇學術論文,潛在偏誤無法完全消除:

  • 倖存者偏誤(survivorship bias):失敗的公司不會出現在任何名單中。
  • 遺漏變數偏誤(omitted variable bias):沒納入研究的外部指標仍可能造成影響。
  • 觀察者偏誤(observer bias):部分資料點靠作者主觀判斷。
  • 資料不完整:少數公司找不到完整資料。
  • 資料失真:歷史可能被公司事後改寫,例如把後來才加入的高階主管列為共同創辦人。

我們也必須承認,運氣(luck)、特權(privilege)與機會的取得(access)在許多創辦人的成功中扮演了重要角色,這些因素無法完全在數據中被量化。

規模與意義#

儘管如此,本書背後的資料集仍是目前針對新創成功因子規模最大的之一:

  • 累積的資料點來自手工整理,並與多位學者合作驗證方法。
  • 結論不為了預測誰會成功,而是揭示「歷史上哪些模式反覆出現」。

帶著「這是統計上的傾向,而非個人的命運」的心態閱讀後續章節,才能既得到啟發,又不被數字綁架。