清華大學:基於實體的信息檢索模型-理解實體在檢索模型中的作用

我們在實驗中通過將EDRM整合到兩個state-of-the-art的基於交互的神經信息檢索模型中(K-NRM以及Conv-KNRM),使用和K-NRM相同的實驗設置,訓練採用DCTR推斷出的label進行訓練,並設置三個測試場景:

Testing-SAME:測試採用DCTR推斷出的label;

Testing-DIFF: 測試時使用TACM推斷出的label;

Testing-RAW:測試時採用MRR來測試最符合文檔的排序結果。

通過表1我們可以看到相比較我們主要的基線模型(K-NRM和Conv-KNRM)來講,模型在Testing-DIFF和Testing-RAW上面有更好的表現,證明模型具有更好的泛化能力。

清華大學:基於實體的信息檢索模型-理解實體在檢索模型中的作用

清華大學:基於實體的信息檢索模型-理解實體在檢索模型中的作用

接下來我們驗證了實體在檢索模型中的作用(如圖3和圖4所示)。首先從圖3可以看出,SoftMatch所佔比例遠遠高於Exact Match,這與K-NRM以及Conv-KNRM的結果一樣,證明相比較傳統的Exact Match來講Soft Match更加重要;接下來我們可以看到cross-space以及entity-word之間的交互佔了較大比重,從而證明了crossmatch 以及word-entity level match的有效性。

清華大學:基於實體的信息檢索模型-理解實體在檢索模型中的作用

為了進一步探究詞語的n-gram和entity之間的交互比重,我們得到了圖4所示的結果,從結果可以看到權重基本都是均勻分佈,從而進一步證明了n-gram以及加入entity的必要性。

清華大學:基於實體的信息檢索模型-理解實體在檢索模型中的作用

清華大學:基於實體的信息檢索模型-理解實體在檢索模型中的作用

模型的提升主要是來源他的泛化能力,因此我們進一步分析其原因。首先我們做了消融實驗,如表2所示。從表中可以看出,實體的描述對於增強模型的泛化能力有很大幫助,加入三種語義元素後對於模型的效果從不同方便有了一定提升。但是相對於Conv-KNRM來說,僅僅利用實體信息(EntityEmbedding)對於模型效果提升很不明顯,我們認為,只考慮實體僅僅是一種更精確的n-gram model,在這裡Conv-KNRM已經學的很好。

清華大學:基於實體的信息檢索模型-理解實體在檢索模型中的作用

為了進一步探究實體對於檢索模型的影響,我們測試了不同場景下的模型的表現(如圖6),並發現模型在基線模型比較難做對的問題以及短的問題上,效果更加明顯,這進一步說明了引入實體的重要性。

清華大學:基於實體的信息檢索模型-理解實體在檢索模型中的作用

最後我們做了樣例分析如表3所示。首先,實體描述能夠解釋實體的含義。例如“美圖秀秀網絡版”和“美麗說”是兩個分別提供圖像處理和購物服務的網站。他們的描述提供了額外的檢索信息,從而使得文本的表述得以增強。其次,實體類型可以在問題和文檔之間建立深層聯繫。例如,不同問題中實體“蠟筆小新”和“銀魂”是共享相同的實體類型;在問題和文檔中,也是有這種隱藏的關聯,比如:“魯大師”和“系統優化”。

清華大學:基於實體的信息檢索模型-理解實體在檢索模型中的作用

本文首次將知識融合到信息檢索模型,證明了模型的效果以及泛化能力,進一步的驗證了實體的重要性以及模型取得泛化能力的原因。


分享到:


相關文章: