品質與安全#

推薦系統上線後,需要持續監控和優化。本章介紹測試方法、評估指標和安全防護。

測試方法#

四種測試方法#

方法說明適用階段
業務規則掃描類似單元測試開發階段
離線模擬測試歷史資料回放上線前
在線對比測試A/B 測試上線後
用戶訪談直接收集反饋任何階段

業務規則掃描#

推薦系統也有確定性的業務規則,違反就是 Bug。

規則類型示例處理方式
硬規則黑名單物品不能推一票否決
軟規則低質內容比例 < 1%統計達標
數學規則除數不能為 0程式碼檢查

離線模擬測試#

1. 收集歷史用戶請求參數
2. 用新系統生成推薦結果
3. 對比真實反饋計算指標

評估指標:

  • TopK 準確率/召回率
  • AUC
  • 覆蓋率
  • 失效率

在線對比測試#

使用 A/B 測試框架:

┌────────────────┐
│   全部流量      │
├───────┬────────┤
│ 實驗組 │ 對照組  │
│  50%  │  50%   │
└───────┴────────┘

在線測試是驗證效果的金標準,但需要足夠的樣本量和測試時間。

用戶訪談#

  • 評估指標設計是否合理
  • 發現資料無法反映的問題
  • 深入了解用戶真實感受

評估指標#

兩大問題#

推薦系統指標回答兩個核心問題:

問題關注點指標類別
系統有多好?當前表現效果指標
還能好多久?長期健康健康指標

效果指標#

預測準確度#

RMSE = √[Σ(r̂ - r)² / n]
MAE = Σ|r̂ - r| / n

排序指標#

AUC = Σ I(r̂_pos > r̂_neg) / (|pos| × |neg|)

分類指標#

指標計算方式
Precision@K推薦 K 個中相關的比例
Recall@K相關物品被推薦的比例
NDCG@K考慮位置的排序質量

商業指標#

指標說明
CTR點擊率
CVR轉化率
GMV成交金額
停留時長用戶沉浸度

健康指標#

覆蓋率#

UV 覆蓋率 = 有效推薦覆蓋的用戶數 / 總用戶數
PV 覆蓋率 = 有效推薦的請求數 / 總請求數

失效率#

失效率 = 推薦結果為空的請求數 / 總請求數

新穎性#

推薦結果中用戶未見過的比例(按不同粒度評估)。

更新率#

更新率 = 本次與上次不同物品數 / 上次推薦數

個性化#

個性化程度 = 1 - 平均(用戶間推薦列表相似度)

基尼係數#

衡量馬太效應:

Gini = (1/n) × Σ p_i × (2i - n - 1)

p_i:按推薦次數排序第 i 個物品的推薦比例

接近 0 表示均勻,接近 1 表示集中。

多樣性#

Diversity = Σ(-p_i × log(p_i)) / (n × log(n))

p_i:類別 i 被推薦的比例
n:類別數

推薦系統攻防#

攻擊類型#

協同過濾特別容易受到攻擊,因為它依賴「群體智慧」,可以通過操縱「選民」來影響結果。

托攻擊 (Shilling Attack)#

攻擊者批量註冊假用戶,製造虛假行為:

目標物品(要扶持/打壓的)
    ↑
助攻物品(構造相似用戶)
    ↑
陪跑物品(掩飾造假)

攻擊方式#

類型方式
隨機攻擊陪跑物品隨機評分
平均分攻擊陪跑物品打平均分
熱門攻擊與熱門物品建立關聯
分段攻擊針對特定用戶群體

防護策略#

平台級#

措施作用
驗證碼提高批量註冊成本
手機綁定增加賬號真實性
行為異常檢測識別異常行為模式

資料級#

1. 標註假用戶/假反饋資料
2. 訓練分類器識別
3. 排除或降權可疑資料
4. 使用聚類發現異常群體

演算法級#

策略說明
引入用戶質量低質量用戶權重降低
限制新用戶新用戶不參與相似度計算
增加平滑因子避免相似度過高
多模型融合分散單一模型的風險

典型案例#

某電商網站被攻擊:攻擊者大量購買暢銷書和自己要推的書,導致在暢銷書頁面的「相關推薦」中出現了目標書籍。

推薦系統的商業價值#

注意力經濟#

推薦系統是注意力存儲器

注意力 = 內容消耗加速度 × 內容複雜度
  • 內容消耗加速度:用戶消費內容的增長率
  • 內容複雜度:內容被消耗完所需的時間

成本考量#

成本類型說明
團隊成本演算法工程師、後端工程師
硬體成本伺服器、存儲、GPU
機會成本投入推薦系統的資源的其他用途

做推薦系統之前,要評估:存儲的注意力價值是否大於投入的成本?

資訊流的演進#

Feed 的歷史#

時間事件
2006Facebook NewsFeed 上線
2016Instagram 改為興趣排序
2017Twitter 改為興趣排序
2018短影片 Feed 爆發

配套設施#

設施作用
內容源製造資訊過載
推薦系統存儲注意力
廣告系統變現注意力

發展趨勢#

  1. 人機協同:純演算法驅動會面臨黑天鵝事件
  2. 注意力質量:從數量競爭轉向質量競爭
  3. 合規要求:內容安全、用戶隱私的要求越來越嚴格

總結#

要點說明
測試方法規則掃描、離線模擬、在線測試、用戶訪談
效果指標RMSE、AUC、CTR、GMV
健康指標覆蓋率、失效率、個性化、多樣性
攻擊類型托攻擊、熱門攻擊
防護策略平台級、資料級、演算法級
商業價值注意力存儲和變現