The Fundamentals of A/B Testing • 哈佛商業評論：管理者資料分析基礎指南

Amy Gallo 與 Kaiser Fung 對談整理。Fung 是哥倫比亞大學應用分析學程創辦人，著有《Numbersense》。

什麼是 A/B 測試？#

A/B 測試（A/B testing）是用來比較兩個版本何者表現較佳的方法。雖然今天最常見於網站與 App，這套思想其實已有將近一百年歷史。

1920 年代：統計學家兼生物學家 Ronald Fisher 在農業實驗中（例如「土地多施肥會怎樣？」）建立了 A/B 測試與隨機對照實驗的核心數學原理。
1950 年代初：科學家用同樣原理進行醫學臨床試驗。
1960–70 年代：行銷人改用於直效行銷（例如「明信片或信件，哪一種寄出後銷售更好？」）。
1990 年代：A/B 測試以今日的形式出現。

一百年來，背後的數學沒變。改變的是執行環境（線上、即時）、樣本規模與實驗數量。

A/B 測試是「最基本的隨機對照實驗」。和所有隨機對照實驗一樣，必須事先估算需要多少樣本才能達到統計顯著（statistical significance），否則看到的差異可能只是雜訊。

許多經理人擔心同時改多個因素會混亂，所以採用序列測試（sequential testing）：先測尺寸（大 vs. 小）、再測顏色（藍 vs. 紅）、再測字體（Times vs. Arial）……

Fung 指出，統計學界早已駁斥序列測試是最佳做法——它無法捕捉因素之間的交互作用。例如：使用者整體偏好藍色，但搭配 Arial 字體時反而偏好紅色。前面的測試早已用「藍色按鈕」勝出，後續的字體測試就再也看不到這種組合效應。

正解是多變量測試（multivariate testing）——同時測多個因素的組合，例如同時呈現「大紅、小紅、大藍、小藍」四個版本。藉助數學，只要挑出特定子集去測試，其餘可由資料推論。

軟體通常會輸出兩個轉換率（conversion rate），例如：

Control: 15% (+/–2.1%)；Variation: 18% (+/–2.3%)

這代表變動版有 18% 的點擊率，誤差幅度 2.3%。

不要直接讀成「真實轉換率介於 15.7%–20.3%」。正確解釋是：如果你重複跑這個 A/B 測試，95% 次的結果範圍會包含真正的轉換率（換句話說，5% 的時候真實值會落在誤差範圍之外，這對應你設定的顯著水準）。

實務判斷：

從網站設計、線上促銷、文案、產品說明都可以測，常見的還包括：

多數使用者都在不知情下參與 A/B 測試——「身為使用者，我們時時在這些測試裡，但渾然不覺」。

實驗變數包括：

他們原本確信「拿掉浮水印應該會提高轉換」，因為畫面更清爽。實際測試結果完全相反——直覺被資料推翻。最終找出兩個能提升轉換的設計、再迭代與重測，並持續改進。

多數軟體允許即時觀察結果，這誘使經理人提前下結論。「這是源於不耐心」，Fung 說。

部分軟體甚至提供「即時最佳化（real-time optimization）」演算法、邊跑邊調整。問題是：因為隨機化的存在，讓實驗跑到自然終點，結論可能完全不同。

同時看上百個指標，會大幅增加碰到**虛假相關（spurious correlation）**的機會。

正確做法：事先選定少量指標，並嚴守它們。否則你會從問「這個變數發生什麼變化？」變成「我看到哪些有趣（但很可能不顯著）的變化？」

即使結果統計顯著，也仍存在不小的偽陽性（false positive）機率。只測一次就深信不疑，等於不排除自己錯。

愈多 A/B 測試 → 至少有一個結果出錯的機率快速上升。但人們不願承認推翻先前的決策，尤其在線上世界對「快速取得價值」的執著更強。

Fung 警告：「改善幅度愈小，結果愈不可靠。」很多公司對微小改善視若珍寶，卻沒想過這些結果可能站不住腳。

A/B 測試不是萬靈丹——更複雜的實驗設計往往更有效率、結果更可靠。但對於「我有一個明確問題、想快速得到答案」的線上情境，它是極好的選擇。

線上 A/B 測試的好消息是「一切發生得很快」，跑完不行就試別的，永遠可以切回舊策略。