復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用

復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用

本文約2700字,建議閱讀5分鐘。

本文為你著重介紹基於知識圖譜的搜索與推薦方面的基本內容和應用,知識圖譜領域的研究及前沿技術。

我們幾乎每天都會收到各種各樣的推薦信息,從新聞購物到吃飯娛樂個性化推薦系統作為一種信息過濾的重要手段,可以依據我們習慣和愛好推薦合適的服務,但傳統的推薦系統容易出現稀疏性和冷卻冷啟動的問題,而知識圖譜作為一種新興的輔助信息近幾年逐漸引起了研究人員的關注。本期創業沙龍有幸邀請到復旦大學大數據學院和大數據研究院副院長、副教授陽德青老師。陽老師面向大數據學院、計算機學院和新聞學院的本科生、研究生講授過多門專業課程,包括《社交網絡挖掘》、《Java Web 應用開發》、《新媒體技術導論》等。這次本文為你著重介紹基於知識圖譜的搜索與推薦方面的基本內容和應用,知識圖譜領域的研究及前沿技術。

本次特邀嘉賓

復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用


陽德青

復旦大學大數據學院和大數據研究院

副院長、副教授


2013年在復旦大學計算機科學技術學院獲得計算機軟件與理論專業的博士學位。陽老師的主要研究領域為數據挖掘、知識圖譜的構建與應用、推薦系統、社會網絡分析等,其研究成果論文先後在WWW、ICDM、CIKM、ECML等數據科學領域的國際頂尖學術會議上發表,並擁有多項發明專利。同時,他先後主持、參加了多項國家科技部、自科基金委、上海市科委、經信委、教委等專項課題,並在與阿里、華為等科技公司的合作中取得了豐碩的實際應用成果。此外,陽老師先後擔任過復旦大學學生工作部、研究說工作部副部長和學生職業發展教育服務中心主任,具有豐富的學生管理和大學生雙創指導經驗。


一、知識圖譜的基本概念


什麼是知識圖譜呢?

知識圖譜是由一條條知識組成,每條知識表示為一個SPO三元組(Subject-Predicate-Object)。形式化的進行解釋,知識圖譜是一種海量知識表徵形式,蘊含了各類實體、概念及其間的各種語義關係。通俗來講就是一種數據庫,本質上就是一種語義網路。相比於傳統語義網絡,知識圖譜具有更高的實體、概念覆蓋率,更為豐富的語義關係,自動化構建程度高以及較高的數據質量等。它研究的意義在於為語義匹配(消除語義鴻溝)、實現機器智腦提供了豐富的背景知識。


復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用


二、基於傳統知識的推薦


瞭解傳統知識推薦的特點和缺點,才可以更清晰的明白知識圖譜產生的必要性,更精準的把握知識圖譜的特質,怎麼樣做到智能推薦。


復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用



1.基於知識的傳統推薦

主要分為兩種:

  • 基於約束的知識化推薦通過用戶的輸入限定物品屬性值形成規則集合,形成候選物品的範圍約束——關於用戶的知識。類似於輸入條件的查詢。
  • 基於個案的知識化推薦是先通過某種算法產生一組候選物品給用戶選擇,將用戶的選擇作為參照物,再通過物品間的相似性計算找出其他與參照物品高度相似的候選物品,再讓用戶進一步選擇,多次與用戶的迭代交互,直至最終產生用戶最想要的物品。類似問答式的搜索。


2.傳統推薦算法的挑戰

基於協同過濾的弊端

•冷啟動 •數據稀疏 •可擴展性

當一個新用戶進入一個網絡時,我們對他的興趣愛好還一無所知,這時如何做出推薦是一個很重要的問題。一般在這個時候,我們只是向用戶推薦那寫普遍反映比較好的物品,也就是說,推薦完全是基於物品的。

新用戶問題還有一個變種就是長尾(long tail)問題,在Amazon中,不是所有的用戶都對很多書給出了評分,很多用戶只給少數的書給出了評分,這些用戶就處在一個長尾中,如何處理那些不太表露自己興趣的用戶,也是推薦系統的一個主要問題。

基於內容的弊端

•特徵描述 •同義/多義詞 •“十面埋伏”是電影?小說?還是成語? •結果的同質性(缺乏多樣性)

  • 在物品知識的獲取上,系統需要人工構建知識,對長尾實體的覆蓋有限。
  • 在用戶知識的獲取上,系統需要用戶輸入信息,甚至要反覆交互,體驗感差。


3.推薦系統中引入知識圖譜的優勢

首先,能夠提高推薦的精確性。知識圖譜中蘊含了用品直接豐富的語義信息,能夠更好的發現用戶的興趣點。

其次,還能提高推薦的多樣性。在很多的推薦場景中,比如新聞推薦,我們知道多樣性是一個很大的問題,我們很容易發現推薦算法發現了你的興趣點之後,給你推薦的東西越來越像,比如你點了幾個NBA的新聞,後面來的全是NBA新聞,一開始可能覺得還不錯,時間稍微長一點,就會覺得厭煩了,閱讀的視野也會越來越窄。這是因為很多算法是根據文本里面抽取出來的關鍵字和主題來猜測用戶偏好,這樣推薦的時候就會產生比較類似的結果。

而知識圖譜作為一種全局信息,裡面有豐富的語義信息,每個物品對應的節點通常都能擴散到很多其他的信息節點上去,比如用戶喜歡霸王別姬這部電影,可能是因為主演、題材或者導演,每種都有可能,推薦的時候就不會過於集中到一種類型中去,增加了多樣性。

第三,能增加推薦的可解釋性。可解釋性是推薦系統的非常重要的因素,其重要性甚至在很多場景中要遠遠大於推薦的準確性等效果指標,可以被很好解釋的推薦系統才能增加用戶對系統的信任感。

那麼實現一個好的推薦關鍵在於什麼?去做好物品和用戶的畫像,這兩個畫像尋找準確之後他們特徵就可以精準的把握,然後去找一些匹配的算法,那這樣的結果就是就八九不離十了。以及一些比較有挑戰的,比如說跨領域的推薦。


三、基於知識圖譜的物品畫像


顯式畫像:從知識圖譜中直接找到的關聯(例如兩部電影的共同屬性)作為刻畫兩個物品相關性的依據。有基於向量空間模式和基於異構信息網絡兩種模式。


復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用



為每種屬性生成一個表示向量,每一維對應該屬性的某個值的權重。例如,電影的演員屬性可以表示成一個向量,第一維的值可以是第1號演員對該電影的TF-IDF權重值。

復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用


將物品和其每種屬性值對應的實體都表示成異構信息網絡的一類結點,它們之間構成各種類型的邊。例如,每部電影和其每個演員都由一條表示“參演”的邊相連。

不同物品間會共享某些屬性對應的實體,所以會有一條經過該共享實體的元路徑meta-path將兩個物品相連。例如,成龍主演的不同電影之間都通過一條“電影-演員(成龍)-電影”的元路徑相連

由不同類型的元路徑相連的兩個物品都具有一定的相似度。

隱式畫像:利用基於深度神經網絡的嵌入embedding向量來表示物品,物品間的相似度計算基於其對應嵌入向量在向量空間中的距離。有基於隨機遊走的圖嵌入(graph embedding)和基於KG embedding兩種模型。


復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用


復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用



四、基於知識圖譜的用戶畫像


基於概念標籤的用戶畫像

•算法目標:根據輸入一組標籤(詞袋),生成的概念標籤數儘量少,同時在語義上儘量全地覆蓋所有原始標籤的語義。


復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用



利用記憶網絡存儲刻畫用戶對物品屬性的偏好特徵,比純基於用戶歷史上的偏好物品刻畫用戶特徵要更加準確、豐富。


五、基於知識圖譜的跨領域推薦


跨領域推薦的主要任務

•緩解冷啟動問題,為新用戶推薦提供選擇和幫助提高推薦精準度,緩解數據稀疏問題 •增加推薦多樣性

跨領域推薦面臨的挑戰

•數據海量性 •數據異構性 •數據稀疏性 •數據相依性數據低質性


復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用


主流的跨領域推薦算法

基於協同過濾 •基於語義關係 •基於深度學習

實現跨領域推薦的關鍵假設

用戶的興趣偏好或項目特徵在領域之間存在一致性或相關性(通過知識圖譜發現)


復旦數據院副院長陽德青:知識圖譜在個性化推薦系統中的應用


— 完 —

關注清華-青島數據科學研究院官方微信公眾平臺“THU數據派”及姊妹號“數據派THU”獲取更多講座福利及優質內容。


分享到:


相關文章: