品質與安全#
推薦系統上線後,需要持續監控和優化。本章介紹測試方法、評估指標和安全防護。
測試方法#
四種測試方法#
| 方法 | 說明 | 適用階段 |
|---|---|---|
| 業務規則掃描 | 類似單元測試 | 開發階段 |
| 離線模擬測試 | 歷史資料回放 | 上線前 |
| 在線對比測試 | A/B 測試 | 上線後 |
| 用戶訪談 | 直接收集反饋 | 任何階段 |
業務規則掃描#
推薦系統也有確定性的業務規則,違反就是 Bug。
| 規則類型 | 示例 | 處理方式 |
|---|---|---|
| 硬規則 | 黑名單物品不能推 | 一票否決 |
| 軟規則 | 低質內容比例 < 1% | 統計達標 |
| 數學規則 | 除數不能為 0 | 程式碼檢查 |
離線模擬測試#
1. 收集歷史用戶請求參數
2. 用新系統生成推薦結果
3. 對比真實反饋計算指標評估指標:
- TopK 準確率/召回率
- AUC
- 覆蓋率
- 失效率
在線對比測試#
使用 A/B 測試框架:
┌────────────────┐
│ 全部流量 │
├───────┬────────┤
│ 實驗組 │ 對照組 │
│ 50% │ 50% │
└───────┴────────┘在線測試是驗證效果的金標準,但需要足夠的樣本量和測試時間。
用戶訪談#
- 評估指標設計是否合理
- 發現資料無法反映的問題
- 深入了解用戶真實感受
評估指標#
兩大問題#
推薦系統指標回答兩個核心問題:
| 問題 | 關注點 | 指標類別 |
|---|---|---|
| 系統有多好? | 當前表現 | 效果指標 |
| 還能好多久? | 長期健康 | 健康指標 |
效果指標#
預測準確度#
RMSE = √[Σ(r̂ - r)² / n]
MAE = Σ|r̂ - r| / n排序指標#
AUC = Σ I(r̂_pos > r̂_neg) / (|pos| × |neg|)分類指標#
| 指標 | 計算方式 |
|---|---|
| Precision@K | 推薦 K 個中相關的比例 |
| Recall@K | 相關物品被推薦的比例 |
| NDCG@K | 考慮位置的排序質量 |
商業指標#
| 指標 | 說明 |
|---|---|
| CTR | 點擊率 |
| CVR | 轉化率 |
| GMV | 成交金額 |
| 停留時長 | 用戶沉浸度 |
健康指標#
覆蓋率#
UV 覆蓋率 = 有效推薦覆蓋的用戶數 / 總用戶數
PV 覆蓋率 = 有效推薦的請求數 / 總請求數失效率#
失效率 = 推薦結果為空的請求數 / 總請求數新穎性#
推薦結果中用戶未見過的比例(按不同粒度評估)。
更新率#
更新率 = 本次與上次不同物品數 / 上次推薦數個性化#
個性化程度 = 1 - 平均(用戶間推薦列表相似度)基尼係數#
衡量馬太效應:
Gini = (1/n) × Σ p_i × (2i - n - 1)
p_i:按推薦次數排序第 i 個物品的推薦比例接近 0 表示均勻,接近 1 表示集中。
多樣性#
Diversity = Σ(-p_i × log(p_i)) / (n × log(n))
p_i:類別 i 被推薦的比例
n:類別數推薦系統攻防#
攻擊類型#
協同過濾特別容易受到攻擊,因為它依賴「群體智慧」,可以通過操縱「選民」來影響結果。
托攻擊 (Shilling Attack)#
攻擊者批量註冊假用戶,製造虛假行為:
目標物品(要扶持/打壓的)
↑
助攻物品(構造相似用戶)
↑
陪跑物品(掩飾造假)攻擊方式#
| 類型 | 方式 |
|---|---|
| 隨機攻擊 | 陪跑物品隨機評分 |
| 平均分攻擊 | 陪跑物品打平均分 |
| 熱門攻擊 | 與熱門物品建立關聯 |
| 分段攻擊 | 針對特定用戶群體 |
防護策略#
平台級#
| 措施 | 作用 |
|---|---|
| 驗證碼 | 提高批量註冊成本 |
| 手機綁定 | 增加賬號真實性 |
| 行為異常檢測 | 識別異常行為模式 |
資料級#
1. 標註假用戶/假反饋資料
2. 訓練分類器識別
3. 排除或降權可疑資料
4. 使用聚類發現異常群體演算法級#
| 策略 | 說明 |
|---|---|
| 引入用戶質量 | 低質量用戶權重降低 |
| 限制新用戶 | 新用戶不參與相似度計算 |
| 增加平滑因子 | 避免相似度過高 |
| 多模型融合 | 分散單一模型的風險 |
典型案例#
某電商網站被攻擊:攻擊者大量購買暢銷書和自己要推的書,導致在暢銷書頁面的「相關推薦」中出現了目標書籍。
推薦系統的商業價值#
注意力經濟#
推薦系統是注意力存儲器:
注意力 = 內容消耗加速度 × 內容複雜度- 內容消耗加速度:用戶消費內容的增長率
- 內容複雜度:內容被消耗完所需的時間
成本考量#
| 成本類型 | 說明 |
|---|---|
| 團隊成本 | 演算法工程師、後端工程師 |
| 硬體成本 | 伺服器、存儲、GPU |
| 機會成本 | 投入推薦系統的資源的其他用途 |
做推薦系統之前,要評估:存儲的注意力價值是否大於投入的成本?
資訊流的演進#
Feed 的歷史#
| 時間 | 事件 |
|---|---|
| 2006 | Facebook NewsFeed 上線 |
| 2016 | Instagram 改為興趣排序 |
| 2017 | Twitter 改為興趣排序 |
| 2018 | 短影片 Feed 爆發 |
配套設施#
| 設施 | 作用 |
|---|---|
| 內容源 | 製造資訊過載 |
| 推薦系統 | 存儲注意力 |
| 廣告系統 | 變現注意力 |
發展趨勢#
- 人機協同:純演算法驅動會面臨黑天鵝事件
- 注意力質量:從數量競爭轉向質量競爭
- 合規要求:內容安全、用戶隱私的要求越來越嚴格
總結#
| 要點 | 說明 |
|---|---|
| 測試方法 | 規則掃描、離線模擬、在線測試、用戶訪談 |
| 效果指標 | RMSE、AUC、CTR、GMV |
| 健康指標 | 覆蓋率、失效率、個性化、多樣性 |
| 攻擊類型 | 托攻擊、熱門攻擊 |
| 防護策略 | 平台級、資料級、演算法級 |
| 商業價值 | 注意力存儲和變現 |