搜索結果牛頭不對馬嘴?谷歌用BERT改進搜索引擎,做到更懂你

曉查 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

還記得你第一次用谷歌搜索引擎的時候,老師是怎麼教你的嗎?

在多個關鍵詞中插入空格,比如你想搜一篇機器學習在醫學上應用的論文,那麼你就會在搜索框中輸入“機器學習 醫學”。

即使我們掌握了搜索引擎的使用技巧,有時候並不能返回最佳的查詢結果。


搜索結果牛頭不對馬嘴?谷歌用BERT改進搜索引擎,做到更懂你


比如搜索“2019年前往美國的巴西旅客需要簽證”(2019 brazil traveler to usa need a visa)。

搜索引擎會關注“巴西”、“美國”、“簽證”這些關鍵詞,算法無法理解其中聯繫的重要性,就會返回有關前往巴西的美國人的無關搜索結果。

搜索的核心是理解語言。因此應該做到無論如何拼寫或組合查詢中的單詞,都要弄清楚用戶搜索的內容,並從網絡上返回有用的信息。

這些年來,儘管谷歌在NLP領域取得了很多重大突破,但有時做得還不夠好,尤其是在複雜或對話式查詢中。

這也是人們經常使用“關鍵詞”搜索的原因之一,但這並不是自然的提問方式。

用BERT改善搜索

去年,谷歌提出了一種被成為BERT的NLP技術,今日谷歌宣佈將BERT用於自家的搜索引擎之中。

谷歌表示,這是過去五年中最大的飛躍,其中之一是搜索歷史上最大的飛躍。

前面提到的查詢“2019 brazil traveler to usa need a visa”,過去由於搜索引擎無法理解語義,不知道“前往”(to)在這句話中的重要性,因此返回了錯誤的結果。

在引入BERT後,谷歌就能掌握這一細微差別,並且知道單詞“ to”在這裡實際上很重要,並且為該查詢提供更相關的結果。


搜索結果牛頭不對馬嘴?谷歌用BERT改進搜索引擎,做到更懂你


這項突破是谷歌研究Transformer的結果:Transformer模型可處理與句子中與單詞之間的關聯,而不是一個接一個地單獨處理單詞。

因此,BERT模型可以通過查看單詞前後的單詞來考慮全部上下文,這對於理解搜索查詢背後的意圖尤其有用。

又比如,向搜索引擎提問:“Do estheticians stand a lot at work?” ,過去系統無法理解語句中“stand”的含義。

而BERT瞭解到“站立”(stand)是和“美容師”(estheticians)工作性質有關的詞,從而返回了正確的結果。


搜索結果牛頭不對馬嘴?谷歌用BERT改進搜索引擎,做到更懂你


在其他一些例子中,BERT可以幫助搜索引擎理解人類語音的一些細微差異,這在過去是計算機無法理解的。


搜索結果牛頭不對馬嘴?谷歌用BERT改進搜索引擎,做到更懂你


哪些語言能用上

不僅英語國家能用上BERT改進後的谷歌搜索,谷歌表示還會將這項技術推廣到其他語種,讓更多語言的人用上。

BERT模型強大之處在於,它可以從一種語言中學習並應用於其他語言。因此,谷歌可以採用從大量英語中學習的模型,並將其應用於其他語言。

谷歌正在使用BERT模型來改進20多個國家或地區的搜索引擎,其中包括使用韓語、印地語和葡萄牙語等語言的地方。

仍有改進空間

最後,谷歌在宣傳這項技術時,還大方承認了其中的一些缺陷。

比如搜索“哪個州位於內布拉斯加州以南”(what state is south of Nebraska),BERT會猜測你搜索的是“南內布拉斯加州”(South Nebraska)。

谷歌表示,語言理解仍然是一個持續的挑戰,將會繼續改進搜索。“我們一直在不斷進步,並努力在你發送的每條查詢中找到正確的含義(以及最有用的信息)。”

谷歌博客:

https://blog.google/products/search/search-language-understanding-bert/

— 完 —

量子位 QbitAI · 頭條號簽約作者

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: