Amy Gallo 與 Kaiser Fung 對談整理。Fung 是哥倫比亞大學應用分析學程創辦人,著有《Numbersense》。
什麼是 A/B 測試?#
A/B 測試(A/B testing)是用來比較兩個版本何者表現較佳的方法。雖然今天最常見於網站與 App,這套思想其實已有將近一百年歷史。
簡短歷史#
- 1920 年代:統計學家兼生物學家 Ronald Fisher 在農業實驗中(例如「土地多施肥會怎樣?」)建立了 A/B 測試與隨機對照實驗的核心數學原理。
- 1950 年代初:科學家用同樣原理進行醫學臨床試驗。
- 1960–70 年代:行銷人改用於直效行銷(例如「明信片或信件,哪一種寄出後銷售更好?」)。
- 1990 年代:A/B 測試以今日的形式出現。
一百年來,背後的數學沒變。改變的是執行環境(線上、即時)、樣本規模與實驗數量。
A/B 測試怎麼運作?#
一個簡單例子:訂閱按鈕的尺寸#
- 決定要測什麼(按鈕大小)
- 決定成功指標(點擊按鈕的訪客比例)
- 隨機把訪客分成兩組,分別看到不同版本(除按鈕大小外其他完全相同)
- 比較哪一版的指標較好
隨機化與區塊化#
- 隨機化(randomization):避免行動裝置 vs. 桌面、客群差異等隱藏變數扭曲結果。
- 區塊化(blocking):當已知某變數(例如行動 vs. 桌面)對指標有強烈影響時,先依該變數分群,再各自隨機分配版本,避免分組失衡。
A/B 測試是「最基本的隨機對照實驗」。和所有隨機對照實驗一樣,必須事先估算需要多少樣本才能達到統計顯著(statistical significance),否則看到的差異可能只是雜訊。
序列測試 vs. 多變量測試#
許多經理人擔心同時改多個因素會混亂,所以採用序列測試(sequential testing):先測尺寸(大 vs. 小)、再測顏色(藍 vs. 紅)、再測字體(Times vs. Arial)……
Fung 指出,統計學界早已駁斥序列測試是最佳做法——它無法捕捉因素之間的交互作用。例如:使用者整體偏好藍色,但搭配 Arial 字體時反而偏好紅色。前面的測試早已用「藍色按鈕」勝出,後續的字體測試就再也看不到這種組合效應。
正解是多變量測試(multivariate testing)——同時測多個因素的組合,例如同時呈現「大紅、小紅、大藍、小藍」四個版本。藉助數學,只要挑出特定子集去測試,其餘可由資料推論。
怎麼解讀 A/B 測試結果?#
軟體通常會輸出兩個轉換率(conversion rate),例如:
Control: 15% (+/–2.1%);Variation: 18% (+/–2.3%)
這代表變動版有 18% 的點擊率,誤差幅度 2.3%。
不要直接讀成「真實轉換率介於 15.7%–20.3%」。正確解釋是:如果你重複跑這個 A/B 測試,95% 次的結果範圍會包含真正的轉換率(換句話說,5% 的時候真實值會落在誤差範圍之外,這對應你設定的顯著水準)。
實務判斷:
- 即便考慮誤差,18% 仍明顯優於 15%——可稱為「3% lift」(提升幅度)
- 是否切換到新版要看實作成本:成本低就試試,反正線上實驗很容易回滾
A/B 測試的應用領域#
從網站設計、線上促銷、文案、產品說明都可以測,常見的還包括:
- 行銷郵件:把名單先隨機分組,寄兩版郵件,較高銷量的版本未來再大量寄
- 廣告文案:兩版廣告比轉換,把資源集中在贏家上
多數使用者都在不知情下參與 A/B 測試——「身為使用者,我們時時在這些測試裡,但渾然不覺」。
案例:Shutterstock 的搜尋結果頁實驗(Wyatt Jenkins)#
- Shutterstock 是全球最大的創意素材市集,服務 75 萬以上客戶,每秒下載超過 3 次
- 海量資料讓他們比同業更快達到統計顯著——這是核心競爭優勢
實驗變數包括:
- 圖片尺寸(在螢幕上呈現多少像素)
- 新客戶 vs. 舊客戶(行為不同,且舊客戶可能有「改變抗拒(change aversion)」)
- 視窗(viewport)大小
- 浮水印(watermark)有無
- hover 行為(停留圖片時的互動)
他們原本確信「拿掉浮水印應該會提高轉換」,因為畫面更清爽。實際測試結果完全相反——直覺被資料推翻。最終找出兩個能提升轉換的設計、再迭代與重測,並持續改進。
三個最常犯的錯誤#
錯誤 1:太早結束實驗#
多數軟體允許即時觀察結果,這誘使經理人提前下結論。「這是源於不耐心」,Fung 說。
部分軟體甚至提供「即時最佳化(real-time optimization)」演算法、邊跑邊調整。問題是:因為隨機化的存在,讓實驗跑到自然終點,結論可能完全不同。
錯誤 2:看太多指標#
同時看上百個指標,會大幅增加碰到**虛假相關(spurious correlation)**的機會。
正確做法:事先選定少量指標,並嚴守它們。否則你會從問「這個變數發生什麼變化?」變成「我看到哪些有趣(但很可能不顯著)的變化?」
錯誤 3:很少重新測試#
即使結果統計顯著,也仍存在不小的偽陽性(false positive)機率。只測一次就深信不疑,等於不排除自己錯。
愈多 A/B 測試 → 至少有一個結果出錯的機率快速上升。但人們不願承認推翻先前的決策,尤其在線上世界對「快速取得價值」的執著更強。
Fung 警告:「改善幅度愈小,結果愈不可靠。」很多公司對微小改善視若珍寶,卻沒想過這些結果可能站不住腳。
結論#
A/B 測試不是萬靈丹——更複雜的實驗設計往往更有效率、結果更可靠。但對於「我有一個明確問題、想快速得到答案」的線上情境,它是極好的選擇。
線上 A/B 測試的好消息是「一切發生得很快」,跑完不行就試別的,永遠可以切回舊策略。