LambdaRank 和 LambdaMART 技术頭條網

LambdaRank 和 LambdaMART

排序算法在搜索引擎中非常重要，需要根據用戶的查詢 q，對一些相關的文檔進行排序，儘可能地讓用戶感興趣的文檔排在前面。之前的文章介紹了一種 Learning to rank 的算法 RankNet，現在介紹另外兩種比較經典的排序模型 LambdaRank 和 lambdaMART。

1.RankNet 的問題

信息檢索排序問題常用的評價指標有 NDCG、ERR 等，不熟悉的童鞋可以看下之前的文章《》，這些評價指標是不平滑不連續的，無法直接用於梯度下降。算法將排序問題轉成一個概率問題，使用神經網絡計算出一篇文章排在另一篇文章之前的概率，使用交叉熵作為損失函數，最後用梯度下降進行求解。

RankNet 的損失函數如下所示，本質上是計算樣本的 pairwise error，即減少排序出錯的樣本數量，注意下式中 σ 是一個參數。

由於 RankNet 優化的是 pairwise error，因此會存在一些問題，我們先看下圖。

RankNet 的問題

在上圖中包含 16 個文檔，其中藍色表示相關的文檔，灰色表示不相關的文檔。左圖中 pairwise error 的個數為 13 (即第二個藍色文檔前有 13 個不相關文檔)，而右圖 pairwise error 的個數為 11。RankNet 在優化時關注於文檔對的錯誤，可能會出現有圖的結果，但是很多時候這並不是理想的。

很多評價指標，例如 NDCG 和 ERR 等更加關注的時 top k 個結果的排序，因此優化過程中把相關文檔往下調並不合適。

另外一點，右邊的圖中的黑色箭頭表示 RankNet 下一次優化時調整的方向和梯度大小 (箭頭越長梯度越大)。但是我們真正需要的是右邊的紅色箭頭，即排名越靠前的文檔梯度應該越大。因此微軟提出了 LambdaRank。

2.LambdaRank

LambdaRank 是在 RankNet 基礎上修改的，首先對 RankNet 的損失函數進行分解，得到其中的梯度。分解公式如下所示，wk 表示神經網絡模型的參數。

lambda 可以表示梯度的強度，lambda 可以進一步化簡，假設對於訓練集裡面的文檔對 (i, j)，都有文檔 i 排在文檔 j 之前，即 Sij = 1，則 lambda 可以如下簡化。

LambdaRank 主要創新點在於不直接定義模型的損失函數再求梯度，而是通過分析 RankNet 排序損失函數的梯度再直接對梯度 lambda 進行修改。

考慮到 NDCG、ERR 等指標不能直接求梯度，因此 LambdaRank 直接修改梯度 lambda，從而引入評價指標的信息，使梯度能夠接近評價指標的表現。論文中的做法是交換兩個文檔 i,j 的位置，然後計算評價指標的變化情況 |ΔZ|，把 |ΔZ| 做為 lambda 的因子。Z 可以是 NDCG 等評價指標。