品質與安全#

推薦系統上線後，需要持續監控和優化。本章介紹測試方法、評估指標和安全防護。

測試方法#

四種測試方法#

方法	說明	適用階段
業務規則掃描	類似單元測試	開發階段
離線模擬測試	歷史資料回放	上線前
在線對比測試	A/B 測試	上線後
用戶訪談	直接收集反饋	任何階段

業務規則掃描#

推薦系統也有確定性的業務規則，違反就是 Bug。

規則類型	示例	處理方式
硬規則	黑名單物品不能推	一票否決
軟規則	低質內容比例 < 1%	統計達標
數學規則	除數不能為 0	程式碼檢查

離線模擬測試#

1. 收集歷史用戶請求參數
2. 用新系統生成推薦結果
3. 對比真實反饋計算指標

評估指標：

TopK 準確率/召回率
AUC
覆蓋率
失效率

在線對比測試#

使用 A/B 測試框架：

┌────────────────┐
│   全部流量      │
├───────┬────────┤
│ 實驗組 │ 對照組  │
│  50%  │  50%   │
└───────┴────────┘

在線測試是驗證效果的金標準，但需要足夠的樣本量和測試時間。

用戶訪談#

評估指標設計是否合理
發現資料無法反映的問題
深入了解用戶真實感受

評估指標#

兩大問題#

推薦系統指標回答兩個核心問題：

問題	關注點	指標類別
系統有多好？	當前表現	效果指標
還能好多久？	長期健康	健康指標

效果指標#

預測準確度#

RMSE = √[Σ(r̂ - r)² / n]
MAE = Σ|r̂ - r| / n

排序指標#

AUC = Σ I(r̂_pos > r̂_neg) / (|pos| × |neg|)

分類指標#

指標	計算方式
Precision@K	推薦 K 個中相關的比例
Recall@K	相關物品被推薦的比例
NDCG@K	考慮位置的排序質量

商業指標#

指標	說明
CTR	點擊率
CVR	轉化率
GMV	成交金額
停留時長	用戶沉浸度

健康指標#

覆蓋率#

UV 覆蓋率 = 有效推薦覆蓋的用戶數 / 總用戶數
PV 覆蓋率 = 有效推薦的請求數 / 總請求數

失效率#

失效率 = 推薦結果為空的請求數 / 總請求數

新穎性#

推薦結果中用戶未見過的比例（按不同粒度評估）。

更新率#

更新率 = 本次與上次不同物品數 / 上次推薦數

個性化#

個性化程度 = 1 - 平均(用戶間推薦列表相似度)

基尼係數#

衡量馬太效應：

Gini = (1/n) × Σ p_i × (2i - n - 1)

p_i：按推薦次數排序第 i 個物品的推薦比例

接近 0 表示均勻，接近 1 表示集中。

多樣性#

Diversity = Σ(-p_i × log(p_i)) / (n × log(n))

p_i：類別 i 被推薦的比例
n：類別數

推薦系統攻防#

攻擊類型#

協同過濾特別容易受到攻擊，因為它依賴「群體智慧」，可以通過操縱「選民」來影響結果。

托攻擊 (Shilling Attack)#

攻擊者批量註冊假用戶，製造虛假行為：

目標物品（要扶持/打壓的）
    ↑
助攻物品（構造相似用戶）
    ↑
陪跑物品（掩飾造假）

攻擊方式#

類型	方式
隨機攻擊	陪跑物品隨機評分
平均分攻擊	陪跑物品打平均分
熱門攻擊	與熱門物品建立關聯
分段攻擊	針對特定用戶群體

防護策略#

平台級#

措施	作用
驗證碼	提高批量註冊成本
手機綁定	增加賬號真實性
行為異常檢測	識別異常行為模式

資料級#

1. 標註假用戶/假反饋資料
2. 訓練分類器識別
3. 排除或降權可疑資料
4. 使用聚類發現異常群體

演算法級#

策略	說明
引入用戶質量	低質量用戶權重降低
限制新用戶	新用戶不參與相似度計算
增加平滑因子	避免相似度過高
多模型融合	分散單一模型的風險

典型案例#

某電商網站被攻擊：攻擊者大量購買暢銷書和自己要推的書，導致在暢銷書頁面的「相關推薦」中出現了目標書籍。

成本類型	說明
團隊成本	演算法工程師、後端工程師
硬體成本	伺服器、存儲、GPU
機會成本	投入推薦系統的資源的其他用途

資訊流的演進#

Feed 的歷史#

時間	事件
2006	Facebook NewsFeed 上線
2016	Instagram 改為興趣排序
2017	Twitter 改為興趣排序
2018	短影片 Feed 爆發

配套設施#

設施	作用
內容源	製造資訊過載
推薦系統	存儲注意力
廣告系統	變現注意力

發展趨勢#

人機協同：純演算法驅動會面臨黑天鵝事件
注意力質量：從數量競爭轉向質量競爭
合規要求：內容安全、用戶隱私的要求越來越嚴格

總結#

要點	說明
測試方法	規則掃描、離線模擬、在線測試、用戶訪談
效果指標	RMSE、AUC、CTR、GMV
健康指標	覆蓋率、失效率、個性化、多樣性
攻擊類型	托攻擊、熱門攻擊
防護策略	平台級、資料級、演算法級
商業價值	注意力存儲和變現

品質與安全

品質與安全#

測試方法#

四種測試方法#

業務規則掃描#

離線模擬測試#

在線對比測試#

用戶訪談#

評估指標#

兩大問題#

效果指標#

預測準確度#

排序指標#

分類指標#

商業指標#

健康指標#

覆蓋率#

失效率#

新穎性#

更新率#

個性化#

基尼係數#

多樣性#

推薦系統攻防#

攻擊類型#

托攻擊 (Shilling Attack)#

攻擊方式#

防護策略#

平台級#

資料級#

演算法級#

典型案例#

推薦系統的商業價值#

注意力經濟#

成本考量#

資訊流的演進#

Feed 的歷史#

配套設施#

發展趨勢#

總結#