LinkedIn招聘推薦系統中的機器學習的威力

作者:Jesus Rodriguez

編譯:ronghuaiyang

導讀

這篇文章介紹了機器學習推薦系統在LinkedIn招聘系統中的應用,大家可以重點關注不同業務場景中推薦系統所關注的業務指標。

LinkedIn招聘推薦系統中的機器學習的威力

LinkedIn是市場上最受歡迎的招聘平臺之一。每天,世界各地的招聘人員都依賴LinkedIn來尋找和篩選特定職業機會的求職者。具體來說,LinkedIn招聘系統是一款幫助招聘人員建立和管理人才庫的產品,可以優化成功招聘的機會。LinkedIn招聘系統的效率是由一系列複雜得令人難以置信的搜索和推薦算法所驅動的,這些算法利用了最先進的機器學習體系結構和實用的系統。

眾所周知,LinkedIn是一直在推動機器學習研究和開發的軟件巨頭之一。除了積累了世界上最豐富的數據集之一,LinkedIn還一直在不斷地試驗前沿的機器學習技術,使人工智能(AI)可以提升LinkedIn的體驗。他們的招聘產品的推薦經驗需要LinkedIn所有的機器學習技能,因為這是一個非常獨特的挑戰。除了處理難以置信的龐大和不斷增長的數據集,LinkedIn招聘系統還需要處理任意複雜的查詢和過濾,並提供與特定條件相關的結果。搜索環境是動態的,結果很難建模成為機器學習問題。對於招聘系統,LinkedIn使用了一個包含三個因素的指標來構建搜索和推薦模型的目標。

  1. 相關性:搜索結果不僅需要返回相關的候選人,還需要顯示可能對目標職位感興趣的候選人。
  2. 查詢智能:搜索結果不僅應該返回符合特定條件的候選人,還應該返回類似條件的候選人。例如,在搜索機器學習時,應該返回在技能集中列出數據科學的候選人。
  3. 個性化:通常,為公司尋找理想的候選人是基於符合搜索條件的屬性。其他時候,招聘系統不確定使用什麼條件。個性化搜索結果是任何成功搜索和推薦體驗的關鍵因素。

LinkedIn招聘系統搜索和推薦體驗的第四個關鍵指標不像前三個指標那麼明顯,它關注的是簡單的指標。為了簡化推薦體驗,LinkedIn對一系列關鍵指標進行了建模,這些指標是成功招聘的切實指標。例如,接受的郵件數量似乎是判斷搜索和推薦過程有效性的一個明確指標。從這個角度來看,LinkedIn將這些關鍵指標作為其機器學習算法的最大目標。

LinkedIn招聘推薦系統中的機器學習的威力

從線性迴歸到梯度提升決策樹

LinkedIn招聘系統的初始搜索和推薦經驗基於線性迴歸模型。雖然線性迴歸算法很容易解釋和調試,但線性算法不能在大型數據集(如LinkedIn的數據集)中找到非線性相關性。為了改善這種體驗,LinkedIn決定使用GBDT將不同的模型組合到一個更復雜的樹結構中。除了更大的假設空間外,GBDT還具有一些其他的優點,如能夠很好地處理特徵共線性、處理不同範圍的特徵以及丟失的特徵值等。

與線性迴歸相比,GBDT本身提供了一些切實的改進,但也未能解決搜索體驗的一些關鍵挑戰。在一個著名的例子中,搜索牙醫結果返回了帶有軟件工程頭銜的候選人,因為搜索模型優先選擇求職者。為了改善這一點,LinkedIn增加了一系列基於pairwise優化技術的上下文感知功能。本質上,該方法擴展了GBDT的pairwise排序目標,以比較相同上下文中的候選人,並評估哪個候選人更適合當前的搜索上下文。

LinkedIn招聘推薦系統中的機器學習的威力

LinkedIn招聘系統經歷的另一個挑戰是,為應聘者匹配“數據科學家”和“機器學習工程師”等相關頭銜。僅僅使用GBDT很難實現這種類型的相關性。為了解決這個問題,LinkedIn引入了基於網絡嵌入語義相似特徵的表示學習技術。在這個模型中,搜索結果將由具有相似標籤的候選人根據查詢的相關性進行補充。

LinkedIn招聘推薦系統中的機器學習的威力

可以說,LinkedIn招聘的經歷中最難應對的挑戰是個性化。從概念上講,個性化可以分為兩大類。實體級個性化側重於在招聘過程中整合對不同實體的偏好,如招聘人員、聯繫人、公司和候選人。為了應對這一挑戰,LinkedIn採用了一種著名的統計方法廣義線性混合(GLMix),它使用推理來改進預測問題的結果。具體來說,LinkedIn的招聘人員使用了一種架構,它結合了學習排序功能、樹交互功能和GBDT模型評分。將學習到的排序特徵作為預訓練的GBDT模型的輸入,該模型生成編碼到樹的交互特徵中的樹的集成,併為每個數據點生成GBDT模型的評分。然後,利用原始的學習排序的特徵及其以樹交互特徵和GBDT模型得分形式的非線性轉換,GLMix模型可以實現招聘人員級和聯繫人級的個性化。

LinkedIn招聘推薦系統中的機器學習的威力

LinkedIn招聘系統體驗要求的另一種個性化模型更側重於會話體驗。利用離線學習模型的一個缺點是,當招聘人員檢查推薦的候選人並提供反饋時,在當前的搜索過程中沒有考慮到反饋。為了解決這個問題,LinkedIn的招聘人員使用了一種叫做多臂老虎機的技術來改進不同候選人組的推薦。體系結構首先將工作的潛在候選人空間劃分為技能組。然後,利用一個多臂老虎機模型,根據招聘人員當前的意圖來了解哪一組更可取,並根據反饋更新每個技能組中的候選人排名。

LinkedIn招聘推薦系統中的機器學習的威力

結構

LinkedIn的招聘人員搜索和推薦體驗是基於一個名為Galene的專有項目,該項目建立在Lucene搜索堆棧之上。前一節中描述的機器學習模型有助於為搜索過程中使用的不同實體建立索引。

LinkedIn招聘推薦系統中的機器學習的威力

招聘人員搜索體驗的排名模型基於一個具有兩個基本層的體系結構。

The ranking model of the Recruiter Search experience is based on an architecture with two fundamental layers.

  • L1: 挖掘人才庫,對候選人進行評分/排名。在這一層,候選檢索和排序以分佈式方式完成。
  • L2: 細化入圍人才,使用外部緩存以應用更多的動態特徵。
LinkedIn招聘推薦系統中的機器學習的威力

在該體系結構中,Galene代理系統將搜索查詢請求分配到多個搜索索引分區。每個分區檢索匹配的文檔,並將機器學習模型應用於檢索到的候選者。每個分區對候選者的子集進行排序,然後代理收集排序後的候選者並將它們返回給federator。federator使用附加的排序功能對檢索到的候選項進行進一步排序,並將結果交付給應用程序。

LinkedIn是大規模構建機器學習系統的公司之一。LinkedIn招聘人員使用的推薦和搜索技術與不同行業的許多類似系統有著驚人的相關性。LinkedIn工程團隊發佈了一份詳細的幻燈片:https://www.slideshare.net/QiGuo19/talent-search-and-recommendation-systems-at-linkedin-practical-challenges-and-lessons-learned-127365935?from_action=save, 這為他們構建世界級推薦系統的過程提供了更多的見解。

英文原文:https://towardsdatascience.com/inside-the-machine-learning-powering-linkedin-recruiter-recommendation-systems-7da503ad55c0


分享到:


相關文章: