席佛以自身打造的棒球預測系統 PECOTA、與紅襪二壘手佩卓亞(Dustin Pedroia)的故事為線索,闡述棒球這個資訊密度極高的場域如何讓「資料分析」與「球探」最終從敵對走向融合。本章的核心命題:好的預測不在於選邊站,而在於用一套有紀律的流程,把所有可得的訊息——量化與質性——一同納入分析。
球探看走眼的佩卓亞#
2009 年 9 月底,紅襪在洋基連敗三場後失去美聯東區冠軍機會,球隊瀰漫挫敗氣氛。席佛走訪芬威球場,目標只有一個:訪問當家二壘手佩卓亞——他自 2006 年就是席佛 PECOTA 的最愛。
- PECOTA 把佩卓亞列為當年全聯盟新秀第 4 名。
- 球探為主的《Baseball America》僅排他第 77 名,理由是「身材矮小、揮棒迴轉太大、不具天賦」。
- ESPN 評論員勞(Keith Law)在 2007 年 5 月寫下:「他打不出大聯盟水準,沒有 power,最高頂多撐到 .260,未來大概只能當替補內野手。」
結果:佩卓亞 2007 年成為新人王、入選明星賽,並協助紅襪奪下 1918 年以來第二座世界大賽冠軍。
隔年 24 歲就拿下美聯 MVP——球探嚴重低估了他。
席佛實地訪問時,佩卓亞冷淡拒絕:「不行,我正在準備這場大聯盟比賽。」事後派友人去訪,得到的也是套路答案:「我不在乎數字和統計,我只在乎勝場與敗場(W’s and L’s),其他都不重要。」這句台詞既是球員的官話,也是席佛這一章的書名。
沒有這份「不甩外界」的固執,佩卓亞可能就會被球探報告影響到無法上大聯盟。
同樣的固執,是「狐狸式」分析者所欠缺、卻也是球員存活的內在資產。
為棒球打造預測系統#
席佛從 6 歲就因 1984 年老虎隊奪冠而入坑棒球統計。2002 年路易士(Michael Lewis)正在寫《Moneyball》、比爾・詹姆士(Bill James)即將被紅襪聘為顧問——統計分析從怪癖變成可以糊口的職業。當時席佛在 KPMG 做轉移定價顧問,工作穩定但無聊,便利用大量空檔在 Excel 上把棒球數字攤開。
一個好的棒球預測系統至少要做到三件事:
- 校正脈絡:把球員成績放回他打球的環境。
- 分離技術與運氣:辨認哪些統計易受運氣影響。
- 理解年齡曲線:球員的能力會隨年齡變化。
校正脈絡相對直觀:
- 棒球球場大小不一,例如紅襪芬威小巧緊湊,比道奇球場容易刷打擊率。
- 透過比較球員主客場表現可建立「球場修正係數(park factors)」。林恩(Fred Lynn)在芬威生涯打擊率 .347、其他球場 .264,就是極端例子。
- 跨聯盟移動的球員提供另一個校正——可以推估國聯與美聯的強度差距。
世界上資訊最豐富的資料集#
把技術從運氣中分離出來困難得多:
- 即使最強打者也會在五次打擊中失敗三次。
- 一個真實打擊率為 .275 的打者,在單一球季有大約 10% 機率打到 .300、10% 機率掉到 .250,純粹是運氣。
- 投手的勝投數受打線得分影響甚巨:費南德茲(Felix Hernandez)2009 年 19 勝 5 敗、2010 年 13 勝 12 敗,投球品質相近,差別在水手隊 2010 年的打線崩盤。
預測者要做的,是把目標變數沿著因果鏈往「根因」推:三振 → 上壘率 → 得分 → 勝場。越靠近根因,雜訊越少。三振、保送這類數字比勝投數穩定得多,因此更具預測力。
棒球擁有可能是世界最豐富的資料集。
過去 140 年大聯盟比賽的事件被完整記錄,每年數百名球員、結構井然的打序與輪值制度,使得因果關係相對單純,假設可被嚴格檢證。相較之下,政治預測每四年一次大選、樣本稀少,預測極易誤入歧途。
年齡曲線:來自詹姆士的洞見#
詹姆士透過數千名球員的資料發現:典型球員會持續進步到二十多歲後段、三十多歲開始衰退。
- 體操選手在十多歲達到顛峰、詩人在二十多歲、棋士三十多歲、應用經濟學家四十多歲、財星 500 大執行長平均 55 歲。
- 棒球選手平均在 27 歲達到顛峰:1985–2009 的 50 位 MVP 中,60% 在 25–29 歲、20% 剛好 27 歲。

Figure 3-1: 打者的年齡曲線
這個曲線對球隊的合約管理意義重大。大聯盟球員需累積六年資歷才能成為自由球員,多數人此時已 30 歲——剛好過了顛峰。球隊若假設他們在 30 多歲還能複製二十多歲的產出,付出的高薪往往落空。
但詹姆士的曲線太平滑:
- 霍納(Bob Horner)20 歲拿新人王、24 歲入選明星賽,30 歲卻已退役。
- 馬丁尼茲(Edgar Martinez)27 歲才在大聯盟站穩,36 歲後才達高峰,40 歲還拿下打點王。

Figure 3-2: 不同打者的雜訊型年齡軌跡
實際的年齡曲線非常嘈雜,「平均球員」只是統計上的抽象。哈卡比(Gary Huckabay)的 Vladimir 系統據此假設有 26 條不同的年齡曲線,依球員類型套用,但分類本身就是藝術,預測準度與詹姆士的單一曲線相差不大。
從詹姆士借「相似度」、從哈卡比借「多種曲線」#
詹姆士在 1986 年提出「相似度分數(similarity scores)」,把任兩位球員從 1,000 分起算,依差異扣分:
- 高度相似可達 950–975 分。
- 原本是回顧用——如名人堂候選人比對。
- 席佛把它倒轉成預測:找出與某球員至今生涯最相似的 100 人,看他們後來的軌跡,就能對該球員的未來分布做出推斷。
PECOTA 採用「最近鄰分析(nearest neighbor analysis)」,並把球探常用的身高、體重等資訊也納入。它不像哈卡比硬把球員塞進 26 條曲線,而是讓相似球員自然湧現。
- 相似球員常常南轅北轍:佩卓亞 25 歲前的數據與兩位名人堂二壘手卡魯(Rod Carew)、葛林傑(Charlie Gehringer)相似,也與普通球員維德羅(Jose Vidro)相似。
- 19 歲新秀海沃(Jason Heyward)的相似名單從名人堂等級的瓊斯(Chipper Jones)一路延伸到不幸遭謀殺的史丹森(Dernell Stenson)。
PECOTA 的創新是輸出「機率分布」。
對每名球員提供最佳、最差、最可能三種情境,承認當預測對象是人類表現時,最終結果幾乎是無限多的。
資料派與球探派終於和解#
《Moneyball》出版時(2003),統計派與球探派確實對立:
- 紐奧良冬季會議現場像高中校園,老派球探在飯店酒吧話當年,二三十歲的數據派抱著筆電排隊推薦自己。
- 老球探擔心被資料取代,安那罕天使球探主管班恩(Eddie Bane)就直言:「這已經有點對立了。我們的老前輩失業,我們把它怪在那些電腦上。」
十年過去,硝煙早已散盡。
- 紅襪 2004 年用「統計+球探」的混合策略奪冠,是和解的關鍵之一。
- 紅雀等過去被視為「球探派」的球團也擁抱量化分析。
- 奧克蘭運動家不減反增球探預算。
- 2007–2009 年衰退讓所有球團都被迫成為 Moneyball 球團;常春藤的經濟系畢業生願意領 4 萬美元而非投行 40 萬美元。
PECOTA vs 球探:球探勝出#
PECOTA(Pitcher Empirical Comparison and Optimization Test Algorithm)原是為投手而生——一種特別難預測的角色。Baseball Prospectus 2003 採用後,PECOTA 在多年比較中一直是表現最佳或並列最佳的商業預測系統,並在 2007 年成功預測白襪僅有 72 勝(實際 72-90)。
但對「小聯盟球員」做預測是另一個挑戰,這個領域唯一的對手就是球探。席佛 2006 年首度發表 PECOTA 的百大新秀名單,與《Baseball America》球探版互比:
六年後(2011)開盲:
- PECOTA 名單上的球員為大聯盟球隊貢獻 546 次「替代等級之上勝場(WARP)」。
- 球探名單貢獻 630 次。
- 球探的預測比純統計版本好約 15%。
大聯盟自由球員一勝約值 400 萬美元,這 15% 的差距值約 3.36 億美元——遠遠不是「小差距」。
席佛事先就在文章中寫過:他預期混合資訊(球探+統計)的結果會贏過純統計,因為「資訊量越大,預測越準——除非處理過程本身的偏差大到反勝資料」。
球探與資料派各自的偏誤#
兩邊都會犯錯:
- 球探的偏誤:以前過度看重外型與「氣場」,1990 年代初的《Baseball America》名單充滿後來打不出名堂的明星,如范波佩爾(Todd Van Poppel)、里維拉(Ruben Rivera)、泰勒(Brien Taylor)。
- 資料派的偏誤:把「難量化的就當作不重要」。1990 年代中期奧克蘭打者多、防守差,據估計每季因此損失 8–10 勝;比恩(Billy Beane)後來補上了這塊。
棒球的小聯盟系統極深(240 隊),與 NBA、NFL 不同,球員多需數年磨練才能上大聯盟。要預測一名 16–18 歲青棒球員 5 年後能否在大聯盟有產出,幾乎像走進高中教室預測誰會成醫生、律師。球探必須對應這個高度不確定的領域。
心智工具箱:超越「五大工具」#
球員出身的洛杉磯道奇球探桑德斯(John Sanders)認為,傳統的「五大工具(Five Tools)」(長打、打擊率、速度、臂力、防守範圍)並不足夠:
- 五大工具有的本身就是統計(長打=全壘打、打擊率=打擊率),如果一名球員 grade 70 卻只能在 2A 打 10 支全壘打,分數沒有意義。
- 他更看重「心智工具箱」,列出五個面向:
桑德斯眼中的心智五要素:
- 準備度與職業道德:每週六七場比賽不能靠激情,需要紀律。佩卓亞守備練習時的專注度超越隊友。
- 專注力:打者只有約 0.3 秒判斷是否揮棒,每球都要全神貫注。
- 競爭心與自信:高中王者進入小聯盟後常面對網路上的批評,要克服「失敗的恐懼」。
- 抗壓性與謙遜:頂尖打者多數時間仍會失敗,需要短記憶與幽默感。
- 適應力與學習力:被交易、轉位、新環境,能否優雅轉彎而非急轉彎。
席佛特別指出,「適應力」對預測者本身同樣重要——對新證據反應太激烈或太遲鈍,都會讓預測失準。
資訊就是名稱本身的賽局#
比恩告訴席佛,運動家球探預算現在是史上最高,並把這歸因於「對統計的痴迷」。
- 自由球員談判通常買到的是球員衰退期。
- 30 歲前的年輕球員價格相對便宜,球團真正的價值在於「找出與培養」。
- 一名身價 1,000 萬的自由球員,球探若能評估準確,球團也許只花 40 萬就能擁有。
比恩:「在奧克蘭,我們被迫做客觀決策,而非靠直覺。」
我們玩 21 點時,當莊家亮 4、自己手上 16,補牌不合理。我們無法承擔靠運氣的決策。
席佛重申第二章的原則:好的預測不是限制資訊種類,而是擁有一套對所有資訊一視同仁、加以紀律分析的流程。
- 質性資訊也能轉成量化:球探用 20–80 分制評打擊力、長打、速度、臂力、守備、跑壘,可以放進統計模型一起分析;紅雀已在做。
- Pitch f/x 把球路位移、轉速等過去由球探判斷的東西,轉化為可被分析的變數,例如可量化葛蘭基(Zack Greinke)的滑球是聯盟最佳。
「資訊越多,你的預測會更準」是好預測者的試金石。
如果新資訊讓你越預測越糟,問題不在資訊,而在你帶著錯誤態度——像泰特洛克研究中的政治名嘴,把資訊當成強化偏見的素材。
為什麼佩卓亞被預測會失敗#
球探對佩卓亞的「事實判斷」其實沒錯:他打擊好、心智工具滿級、揮棒迴轉長、防守不華麗、腳程平均、身材矮小——但這個組合不符合「典型樣板」。
- 桑德斯:「球探對自己想看的東西有原型標準。佩卓亞在多個面向違反原型,特別是身材。」
- 我們無法把方釘塞進圓孔時,常責怪釘子。
- 美國人口普查把上百個族裔壓縮成六個「種族」類別,也是同樣的捷徑思維。
PECOTA 用「相似度搜尋」突破這個僵化分類:
- 矮小反而是優勢——好球帶從肩膀到膝蓋,個子矮的好球帶較小,搭配選球眼利於上壘。
- 二壘守備需要敏捷與貼地反應,名人堂的 17 位二壘手中,僅 2 位身高超過 6 呎。
- 史上最強二壘手摩根(Joe Morgan)也只有 5 呎 7 吋。
PECOTA 並未保證佩卓亞會成功,只是把機率倒過來。最終差別在於:紅襪相信佩卓亞,佩卓亞也相信自己。
佩卓亞如何擊敗賠率#
席佛 2009 年首次見到比爾・詹姆士。詹姆士現已任職紅襪,承認「自己 80 年代寫的東西有不少是錯的」,最大的轉變是有了孩子,更能看見球員的人性面向。
詹姆士、比恩、桑德斯三位職涯路徑迥異,但對棒球的看法已經高度收斂。
「球探想看的,跟我想看的,是同一件事。」——詹姆士
詹姆士參與了紅襪 2004 年第 65 順位選佩卓亞的決策。他寫過正面報告但建議選別人,事後對結果很滿意。
- 佩卓亞 2006 年初登板表現低迷(.198)、2007 年 4 月還掉到 .172。
- 一支像小熊那樣的球隊可能會把他下放——「每一個動作都被等大且反向的反應抵銷」。
- 紅襪則沿用同一套紀律:席佛轉述詹姆士的觀察,當時佩卓亞的「揮空率」仍只有 8–9%,跟之前差不多——「他揮這麼大力卻沒揮空,邏輯上不可能持續打 .180」。
- 真正的風險是佩卓亞會否自我懷疑——但他是不甩任何雜音的固執派。
詹姆士的結語:「我們的弱點與強項往往緊密相連。佩卓亞把別人的弱點變成了強項。」
從《Moneyball》能學到什麼#
路易士已經宣稱「辯論結束了」。
球探並未被電腦取代——對球員未來的需求遠大於供給,球團越來越是「能用什麼都拿出來用」。
棒球的資訊革命之所以兌現承諾,是因為它擁有:
- 快速演進的科技(Pitch f/x、三維影像)。
- 動機高度對齊(W’s and L’s 是唯一硬指標)。
- 激烈競爭與豐富資料。
競爭最激烈的領域,預測者必須持續創新。
「利用市場無效率」聽起來很美,但它不告訴你怎麼找到那些無效率,更不告訴你那是真機會還是假訊號。
創新者通常同時思考最具體的細節與最抽象的本質——而我們 99% 的時間活在這兩者之間的中庸地帶,那是別人也已搜過的地方。
席佛預期,下一代的突破會出現在誰能把 Pitch f/x 等高解析度資料整合進預測,或誰能更聰明地融合量化與質性對球員的評估。比恩自嘲:「十年後我來應徵這個職位,可能連面試都進不了。」
「Moneyball is dead; long live Moneyball.」——舊的反差消失,新的反差會在更深的維度上重生。