席佛以自身打造的棒球預測系統 PECOTA、與紅襪二壘手佩卓亞(Dustin Pedroia)的故事為線索,闡述棒球這個資訊密度極高的場域如何讓「資料分析」與「球探」最終從敵對走向融合。本章的核心命題:好的預測不在於選邊站,而在於用一套有紀律的流程,把所有可得的訊息——量化與質性——一同納入分析。

球探看走眼的佩卓亞#

2009 年 9 月底,紅襪在洋基連敗三場後失去美聯東區冠軍機會,球隊瀰漫挫敗氣氛。席佛走訪芬威球場,目標只有一個:訪問當家二壘手佩卓亞——他自 2006 年就是席佛 PECOTA 的最愛。

  • PECOTA 把佩卓亞列為當年全聯盟新秀第 4 名。
  • 球探為主的《Baseball America》僅排他第 77 名,理由是「身材矮小、揮棒迴轉太大、不具天賦」。
  • ESPN 評論員勞(Keith Law)在 2007 年 5 月寫下:「他打不出大聯盟水準,沒有 power,最高頂多撐到 .260,未來大概只能當替補內野手。」

結果:佩卓亞 2007 年成為新人王、入選明星賽,並協助紅襪奪下 1918 年以來第二座世界大賽冠軍。

隔年 24 歲就拿下美聯 MVP——球探嚴重低估了他。

席佛實地訪問時,佩卓亞冷淡拒絕:「不行,我正在準備這場大聯盟比賽。」事後派友人去訪,得到的也是套路答案:「我不在乎數字和統計,我只在乎勝場與敗場(W’s and L’s),其他都不重要。」這句台詞既是球員的官話,也是席佛這一章的書名。

沒有這份「不甩外界」的固執,佩卓亞可能就會被球探報告影響到無法上大聯盟。

同樣的固執,是「狐狸式」分析者所欠缺、卻也是球員存活的內在資產。

為棒球打造預測系統#

席佛從 6 歲就因 1984 年老虎隊奪冠而入坑棒球統計。2002 年路易士(Michael Lewis)正在寫《Moneyball》、比爾・詹姆士(Bill James)即將被紅襪聘為顧問——統計分析從怪癖變成可以糊口的職業。當時席佛在 KPMG 做轉移定價顧問,工作穩定但無聊,便利用大量空檔在 Excel 上把棒球數字攤開。

一個好的棒球預測系統至少要做到三件事:

  • 校正脈絡:把球員成績放回他打球的環境。
  • 分離技術與運氣:辨認哪些統計易受運氣影響。
  • 理解年齡曲線:球員的能力會隨年齡變化。

校正脈絡相對直觀:

  • 棒球球場大小不一,例如紅襪芬威小巧緊湊,比道奇球場容易刷打擊率。
  • 透過比較球員主客場表現可建立「球場修正係數(park factors)」。林恩(Fred Lynn)在芬威生涯打擊率 .347、其他球場 .264,就是極端例子。
  • 跨聯盟移動的球員提供另一個校正——可以推估國聯與美聯的強度差距。

世界上資訊最豐富的資料集#

把技術從運氣中分離出來困難得多:

  • 即使最強打者也會在五次打擊中失敗三次。
  • 一個真實打擊率為 .275 的打者,在單一球季有大約 10% 機率打到 .300、10% 機率掉到 .250,純粹是運氣。
  • 投手的勝投數受打線得分影響甚巨:費南德茲(Felix Hernandez)2009 年 19 勝 5 敗、2010 年 13 勝 12 敗,投球品質相近,差別在水手隊 2010 年的打線崩盤。

預測者要做的,是把目標變數沿著因果鏈往「根因」推:三振 → 上壘率 → 得分 → 勝場。越靠近根因,雜訊越少。三振、保送這類數字比勝投數穩定得多,因此更具預測力。

棒球擁有可能是世界最豐富的資料集。

過去 140 年大聯盟比賽的事件被完整記錄,每年數百名球員、結構井然的打序與輪值制度,使得因果關係相對單純,假設可被嚴格檢證。相較之下,政治預測每四年一次大選、樣本稀少,預測極易誤入歧途。

年齡曲線:來自詹姆士的洞見#

詹姆士透過數千名球員的資料發現:典型球員會持續進步到二十多歲後段、三十多歲開始衰退。

  • 體操選手在十多歲達到顛峰、詩人在二十多歲、棋士三十多歲、應用經濟學家四十多歲、財星 500 大執行長平均 55 歲。
  • 棒球選手平均在 27 歲達到顛峰:1985–2009 的 50 位 MVP 中,60% 在 25–29 歲、20% 剛好 27 歲。

Figure 3-1: 打者的年齡曲線

這個曲線對球隊的合約管理意義重大。大聯盟球員需累積六年資歷才能成為自由球員,多數人此時已 30 歲——剛好過了顛峰。球隊若假設他們在 30 多歲還能複製二十多歲的產出,付出的高薪往往落空。

但詹姆士的曲線太平滑:

  • 霍納(Bob Horner)20 歲拿新人王、24 歲入選明星賽,30 歲卻已退役。
  • 馬丁尼茲(Edgar Martinez)27 歲才在大聯盟站穩,36 歲後才達高峰,40 歲還拿下打點王。

Figure 3-2: 不同打者的雜訊型年齡軌跡

實際的年齡曲線非常嘈雜,「平均球員」只是統計上的抽象。哈卡比(Gary Huckabay)的 Vladimir 系統據此假設有 26 條不同的年齡曲線,依球員類型套用,但分類本身就是藝術,預測準度與詹姆士的單一曲線相差不大。

從詹姆士借「相似度」、從哈卡比借「多種曲線」#

詹姆士在 1986 年提出「相似度分數(similarity scores)」,把任兩位球員從 1,000 分起算,依差異扣分:

  • 高度相似可達 950–975 分。
  • 原本是回顧用——如名人堂候選人比對。
  • 席佛把它倒轉成預測:找出與某球員至今生涯最相似的 100 人,看他們後來的軌跡,就能對該球員的未來分布做出推斷。

PECOTA 採用「最近鄰分析(nearest neighbor analysis)」,並把球探常用的身高、體重等資訊也納入。它不像哈卡比硬把球員塞進 26 條曲線,而是讓相似球員自然湧現。

  • 相似球員常常南轅北轍:佩卓亞 25 歲前的數據與兩位名人堂二壘手卡魯(Rod Carew)、葛林傑(Charlie Gehringer)相似,也與普通球員維德羅(Jose Vidro)相似。
  • 19 歲新秀海沃(Jason Heyward)的相似名單從名人堂等級的瓊斯(Chipper Jones)一路延伸到不幸遭謀殺的史丹森(Dernell Stenson)。

PECOTA 的創新是輸出「機率分布」。

對每名球員提供最佳、最差、最可能三種情境,承認當預測對象是人類表現時,最終結果幾乎是無限多的。

資料派與球探派終於和解#

《Moneyball》出版時(2003),統計派與球探派確實對立:

  • 紐奧良冬季會議現場像高中校園,老派球探在飯店酒吧話當年,二三十歲的數據派抱著筆電排隊推薦自己。
  • 老球探擔心被資料取代,安那罕天使球探主管班恩(Eddie Bane)就直言:「這已經有點對立了。我們的老前輩失業,我們把它怪在那些電腦上。」

十年過去,硝煙早已散盡。

  • 紅襪 2004 年用「統計+球探」的混合策略奪冠,是和解的關鍵之一。
  • 紅雀等過去被視為「球探派」的球團也擁抱量化分析。
  • 奧克蘭運動家不減反增球探預算。
  • 2007–2009 年衰退讓所有球團都被迫成為 Moneyball 球團;常春藤的經濟系畢業生願意領 4 萬美元而非投行 40 萬美元。

PECOTA vs 球探:球探勝出#

PECOTA(Pitcher Empirical Comparison and Optimization Test Algorithm)原是為投手而生——一種特別難預測的角色。Baseball Prospectus 2003 採用後,PECOTA 在多年比較中一直是表現最佳或並列最佳的商業預測系統,並在 2007 年成功預測白襪僅有 72 勝(實際 72-90)。

但對「小聯盟球員」做預測是另一個挑戰,這個領域唯一的對手就是球探。席佛 2006 年首度發表 PECOTA 的百大新秀名單,與《Baseball America》球探版互比:

六年後(2011)開盲:

  • PECOTA 名單上的球員為大聯盟球隊貢獻 546 次「替代等級之上勝場(WARP)」。
  • 球探名單貢獻 630 次。
  • 球探的預測比純統計版本好約 15%。

大聯盟自由球員一勝約值 400 萬美元,這 15% 的差距值約 3.36 億美元——遠遠不是「小差距」。

席佛事先就在文章中寫過:他預期混合資訊(球探+統計)的結果會贏過純統計,因為「資訊量越大,預測越準——除非處理過程本身的偏差大到反勝資料」。

球探與資料派各自的偏誤#

兩邊都會犯錯:

  • 球探的偏誤:以前過度看重外型與「氣場」,1990 年代初的《Baseball America》名單充滿後來打不出名堂的明星,如范波佩爾(Todd Van Poppel)、里維拉(Ruben Rivera)、泰勒(Brien Taylor)。
  • 資料派的偏誤:把「難量化的就當作不重要」。1990 年代中期奧克蘭打者多、防守差,據估計每季因此損失 8–10 勝;比恩(Billy Beane)後來補上了這塊。

棒球的小聯盟系統極深(240 隊),與 NBA、NFL 不同,球員多需數年磨練才能上大聯盟。要預測一名 16–18 歲青棒球員 5 年後能否在大聯盟有產出,幾乎像走進高中教室預測誰會成醫生、律師。球探必須對應這個高度不確定的領域。

心智工具箱:超越「五大工具」#

球員出身的洛杉磯道奇球探桑德斯(John Sanders)認為,傳統的「五大工具(Five Tools)」(長打、打擊率、速度、臂力、防守範圍)並不足夠:

  • 五大工具有的本身就是統計(長打=全壘打、打擊率=打擊率),如果一名球員 grade 70 卻只能在 2A 打 10 支全壘打,分數沒有意義。
  • 他更看重「心智工具箱」,列出五個面向:

桑德斯眼中的心智五要素:

  • 準備度與職業道德:每週六七場比賽不能靠激情,需要紀律。佩卓亞守備練習時的專注度超越隊友。
  • 專注力:打者只有約 0.3 秒判斷是否揮棒,每球都要全神貫注。
  • 競爭心與自信:高中王者進入小聯盟後常面對網路上的批評,要克服「失敗的恐懼」。
  • 抗壓性與謙遜:頂尖打者多數時間仍會失敗,需要短記憶與幽默感。
  • 適應力與學習力:被交易、轉位、新環境,能否優雅轉彎而非急轉彎。

席佛特別指出,「適應力」對預測者本身同樣重要——對新證據反應太激烈或太遲鈍,都會讓預測失準。

資訊就是名稱本身的賽局#

比恩告訴席佛,運動家球探預算現在是史上最高,並把這歸因於「對統計的痴迷」。

  • 自由球員談判通常買到的是球員衰退期。
  • 30 歲前的年輕球員價格相對便宜,球團真正的價值在於「找出與培養」。
  • 一名身價 1,000 萬的自由球員,球探若能評估準確,球團也許只花 40 萬就能擁有。

比恩:「在奧克蘭,我們被迫做客觀決策,而非靠直覺。」

我們玩 21 點時,當莊家亮 4、自己手上 16,補牌不合理。我們無法承擔靠運氣的決策。

席佛重申第二章的原則:好的預測不是限制資訊種類,而是擁有一套對所有資訊一視同仁、加以紀律分析的流程。

  • 質性資訊也能轉成量化:球探用 20–80 分制評打擊力、長打、速度、臂力、守備、跑壘,可以放進統計模型一起分析;紅雀已在做。
  • Pitch f/x 把球路位移、轉速等過去由球探判斷的東西,轉化為可被分析的變數,例如可量化葛蘭基(Zack Greinke)的滑球是聯盟最佳。

「資訊越多,你的預測會更準」是好預測者的試金石。

如果新資訊讓你越預測越糟,問題不在資訊,而在你帶著錯誤態度——像泰特洛克研究中的政治名嘴,把資訊當成強化偏見的素材。

為什麼佩卓亞被預測會失敗#

球探對佩卓亞的「事實判斷」其實沒錯:他打擊好、心智工具滿級、揮棒迴轉長、防守不華麗、腳程平均、身材矮小——但這個組合不符合「典型樣板」。

  • 桑德斯:「球探對自己想看的東西有原型標準。佩卓亞在多個面向違反原型,特別是身材。」
  • 我們無法把方釘塞進圓孔時,常責怪釘子。
  • 美國人口普查把上百個族裔壓縮成六個「種族」類別,也是同樣的捷徑思維。

PECOTA 用「相似度搜尋」突破這個僵化分類:

  • 矮小反而是優勢——好球帶從肩膀到膝蓋,個子矮的好球帶較小,搭配選球眼利於上壘。
  • 二壘守備需要敏捷與貼地反應,名人堂的 17 位二壘手中,僅 2 位身高超過 6 呎。
  • 史上最強二壘手摩根(Joe Morgan)也只有 5 呎 7 吋。

PECOTA 並未保證佩卓亞會成功,只是把機率倒過來。最終差別在於:紅襪相信佩卓亞,佩卓亞也相信自己。

佩卓亞如何擊敗賠率#

席佛 2009 年首次見到比爾・詹姆士。詹姆士現已任職紅襪,承認「自己 80 年代寫的東西有不少是錯的」,最大的轉變是有了孩子,更能看見球員的人性面向。

詹姆士、比恩、桑德斯三位職涯路徑迥異,但對棒球的看法已經高度收斂。

「球探想看的,跟我想看的,是同一件事。」——詹姆士

詹姆士參與了紅襪 2004 年第 65 順位選佩卓亞的決策。他寫過正面報告但建議選別人,事後對結果很滿意。

  • 佩卓亞 2006 年初登板表現低迷(.198)、2007 年 4 月還掉到 .172。
  • 一支像小熊那樣的球隊可能會把他下放——「每一個動作都被等大且反向的反應抵銷」。
  • 紅襪則沿用同一套紀律:席佛轉述詹姆士的觀察,當時佩卓亞的「揮空率」仍只有 8–9%,跟之前差不多——「他揮這麼大力卻沒揮空,邏輯上不可能持續打 .180」。
  • 真正的風險是佩卓亞會否自我懷疑——但他是不甩任何雜音的固執派。

詹姆士的結語:「我們的弱點與強項往往緊密相連。佩卓亞把別人的弱點變成了強項。」

從《Moneyball》能學到什麼#

路易士已經宣稱「辯論結束了」。

球探並未被電腦取代——對球員未來的需求遠大於供給,球團越來越是「能用什麼都拿出來用」。

棒球的資訊革命之所以兌現承諾,是因為它擁有:

  • 快速演進的科技(Pitch f/x、三維影像)。
  • 動機高度對齊(W’s and L’s 是唯一硬指標)。
  • 激烈競爭與豐富資料。

競爭最激烈的領域,預測者必須持續創新。

「利用市場無效率」聽起來很美,但它不告訴你怎麼找到那些無效率,更不告訴你那是真機會還是假訊號。

創新者通常同時思考最具體的細節與最抽象的本質——而我們 99% 的時間活在這兩者之間的中庸地帶,那是別人也已搜過的地方。

席佛預期,下一代的突破會出現在誰能把 Pitch f/x 等高解析度資料整合進預測,或誰能更聰明地融合量化與質性對球員的評估。比恩自嘲:「十年後我來應徵這個職位,可能連面試都進不了。」

「Moneyball is dead; long live Moneyball.」——舊的反差消失,新的反差會在更深的維度上重生。