基於知識圖譜的推薦系統

作為大數據應用的兩大類應用,搜索引擎和推薦系統既相互伴隨和影響,又滿足不同的產品需求。在作為互聯網產品的連接器:連接人、信息、服務之間的橋樑,搜索和推薦有其各自的特點

移聯動互網、人工智能等技術的迅速發展為人們的工作生活帶來了很多便利,用戶面臨著海量的信息,傳統的搜索算法只能呈現給用戶相同的物品排序結果,無法針對不同用戶的興趣愛好提供相應的服務。信息爆炸使得信息的利用率反而降低,這種現象被稱為信息超載

搜索引擎和推薦系統是解決信息過載的代表技術。傳統的搜索引擎在本質上來講是幫助用戶過濾和篩選信息,這種方式滿足了大多數人的需求,但沒有提供個性化的服務。相對於傳統搜索引擎來說,推薦系統可以兼顧個性化需求和解決信息過載問題。推薦系統是信息過濾系統的一個子集,目的在於根據用戶的喜好、習慣、個性化需求以及商品的特性來預測用戶對商品的喜好,為用戶推薦最合適的商品, 幫助用戶快速地做出決策,提高用戶滿意度

基於知識圖譜的推薦系統

解決稀疏性和冷啟動問題,常用方法是在推薦算法中引入輔助信息作為輸入:社交網絡、用戶/物品屬性、圖片/視頻/音頻/文本等多媒體信息、上下文、知識圖譜。知識圖譜的出現為大數據環境下的推薦系統設計提供了一種有效途徑

知識圖譜

知識圖譜作為一種新興類型的輔助信息近幾年逐漸引起了研究人員的關注。知識圖譜是一種語義網絡,其結點代表實體或者概念,邊代表實體/概念之間的各種語義關係。一個知識圖譜由若干個三元組組成:(實體,關係,實體)、(實體,屬性,屬性值)

知識圖譜包含實體之間豐富的語義關聯,為推薦系統提供了潛在的輔助信息來源。知識圖譜在諸多推薦場景中都有應用的潛力,例如電影、新聞、景點、餐館、購物等。和其它種類的輔助信息相比,知識圖譜的引入可以讓推薦結果更加具有以下特徵

  • 精確性(precision) 知識圖譜為物品引入了更多的語義關係,可以深層次地發現用戶興趣
  • 多樣性(diversity) 知識圖譜提供了不同的關係連接種類,有利於推薦結果的發散,避免推薦結果侷限於單一類型
  • 可解釋性(explainability) 知識圖譜可以連接用戶的歷史記錄和推薦結果,從而提高用戶對推薦結果的滿意度和接受度,增強用戶對推薦系統的信任

在推薦系統領域,人們關注的往往是用戶與項目之間的聯繫,缺少對用戶與用戶、項目與項目等之間的相互聯繫的考慮。基於知識圖譜的推薦系統通過將用戶與用戶、用戶與項目以及項目與項目之間相互連接起來,增強數據的語義信息以進一步提高推薦準確度

知識圖譜的提出最初是為了優化搜索引擎, 將數據組織成相互鏈接並且對於其中的每個實體都富含屬性標籤,實體間存在多種關係,以此來實現搜索引擎的優化。在對其進行深入研究後, 瞭解到知識圖譜的應用不侷限於搜索,在諸如智能問答、推薦系統以及金融詐騙領域均有涉獵

基於知識圖譜的推薦系統總體框架

基於知識圖譜的推薦系統主要是利用知識圖譜對多源異構數據的整合性,可以對大數據環境下互聯網上的數據進行知識抽取,得到更加細粒度的用戶和項目的特徵信息,從而更精準的計算用戶與用戶、用戶與項目以及項目與項目之間的相關性,最後為用戶做出推薦

基於知識圖譜的推薦系統

基於知識圖譜的推薦系統總體框架

基於知識圖譜的常見推薦方法

  • 基於特徵的推薦方法 將知識圖譜弱化為物品屬性
  • 基於路徑的推薦方法 將知識圖譜視為一個異構信息網絡,構造物品之間基於meta-path或meta-graph的特徵
  • 知識圖譜特徵學習 為知識圖譜中的每個實體和關係學習得到一個低維向量,同時保持圖中原有的結構或語義信息。知識圖譜特徵學習是網絡特徵學習的一個子領域,知識圖譜包含特有的語義信息,因此知識圖譜特徵學習比通用的網絡特徵學習需要更細心和針對性的模型設計

知識圖譜特徵學習的模型分類兩類:基於距離的翻譯模型;基於語義的匹配模型

知識圖譜特徵學習的優點

  • 降低知識圖譜的高維性和異構性
  • 增強知識圖譜應用的靈活性
  • 減輕特徵工程的工作量
  • 減少由於引入知識圖譜帶來的額外計算負擔

將知識圖譜作為輔助信息引入到推薦系統中可以有效地解決傳統推薦系統存在的稀疏性和冷啟動問題,將知識圖譜特徵學習應用到推薦系統中主要通過三種方式

1.依次學習:首先使用知識圖譜特徵學習得到實體向量和關係向量,然後將這些低維向量引入推薦系統,學習得到用戶向量和物品向量


基於知識圖譜的推薦系統

為了將知識圖譜引入特徵學習,遵循依次學習的框架,首先需要提取知識圖譜特徵。步驟的方法如下

  • 實體連接:從文本中發現相關詞彙,並與知識圖譜中的實體進行匹配;為了更準確地刻畫實體,額外地使用一個實體的上下文實體特徵
  • 知識圖譜構建:根據所有匹配到的實體,在原始的知識圖譜中抽取子圖。子圖的大小會影響後續算法的運行時間和效果:越大的子圖通常會學習到更好的特徵,但是所需的運行時間越長

得到實體特徵後,我們的第二步是構建推薦模型,該模型是一個基於CNN和注意力機制的新聞推薦算法

  • 基於卷積神經網絡的文本特徵提取:將新聞標題的詞向量、實體向量和實體上下文向量作為多個通道(類似於圖像中的紅綠藍三通道),在CNN的框架下進行融合
  • 基於注意力機制的用戶歷史興趣融合:在判斷用戶對當前新聞的興趣時,使用注意力網絡給用戶歷史記錄分配不同的權重

2.聯合學習:將知識圖譜特徵學習和推薦算法的目標函數結合,使用端到端(end-to-end)的方法進行聯合學習

基於知識圖譜的推薦系統

在推薦系統中存在著很多與知識圖譜相關的信息:結構化知識、圖像知識、文本知識

Ripple Network模擬用戶興趣在知識圖譜上的傳播過程,整個過程類似於水波的傳播

  • 一個用戶的興趣以其歷史記錄中的實體為中心,在知識圖譜上向外逐層擴散
  • 一個用戶的興趣在知識圖譜上的擴散過程中逐漸衰減

3.交替學習:將知識圖譜特徵學習和推薦算法視為兩個分離但又相關的任務,使用多任務學習(multi-task learning)的框架進行交替學習

基於知識圖譜的推薦系統

推薦系統和知識圖譜特徵學習的交替學習類似於多任務學習的框架。該方法的出發點是推薦系統中的物品和知識圖譜中的實體存在重合,因此兩個任務之間存在相關性。將推薦系統和知識圖譜特徵學習視為兩個分離但是相關的任務,採用多任務學習的框架,可以有如下優勢

  • 兩者的可用信息可以互補
  • 知識圖譜特徵學習任務可以幫助推薦系統擺脫局部極小值
  • 知識圖譜特徵學習任務可以防止推薦系統過擬合
  • 知識圖譜特徵學習任務可以提高推薦系統的泛化能力

基於知識圖譜的推薦系統關鍵技術

基於知識圖譜的推薦系統綜合了知識圖譜和傳統推薦系統的特點,成為了一個新的研究主題,目前正處於初始發展階段

  • 數據採集與預處理 基於知識圖譜的推薦系統的實現首先是數據採集,包括用戶信息、交互信息、項目信息、上下文信息等。其中,用戶信息主要是用戶註冊信息、交互信息從日誌中獲取、上下文信息由用戶自主錄入或者通過傳感器獲取、項目信息從各大垂直網站及百科網站中獲取
  • 知識圖譜的構建 知識圖譜構建過程主要包括四個階段信息抽取、知識融合、知識加工、知識更新
  • 用戶偏好獲取 用戶偏好的獲取是為了有針對性地為用戶提供服務,為用戶提供量身打造的個性化推薦
  • 基於知識圖譜的推薦 傳統的推薦系統中,例如協同過濾、基於內容的推薦等基本算法同樣也可以與基於知識圖譜的推薦系統結合。在該過程中,主要是把知識圖譜作為一個語義豐富、邏輯推理能力強的數據集融入到推薦生成過程中
  • 推薦效用評價 效用評價在整個推薦流程中非常重要。從準確度、基於排序加權、覆蓋率以及多樣性指標等 4 個方面來對推薦系統進行評價。基於多樣性又提出了 3 個指標:選擇、發現和相關性
基於知識圖譜的推薦系統

基於知識圖譜進行推薦的典型案例

基於知識圖譜推薦的重點和難點

  • 對用戶偏好的精準建模問題
  • 對大數據的高效處理問題
  • 推薦系統的效用評價問題
  • 如何通過深度挖掘和相關性知識發現提高推薦效果
  • 推薦系統的可擴展性
  • 社交網絡信息的充分利用問題

相關學科

數據挖掘、信息檢索、計算統計學、認知科學、預測理論、營銷學

參考文獻

知識圖譜的推薦系統綜述


分享到:


相關文章: