業界|Dropbox 技術主管葉旭剛:AI 時代需要什麼樣的搜索引擎?

业界|Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?

AI 科技評論按:搜索技術從一開始的桌面文件搜索、互聯網搜索,發展至今日流行的程序內部搜索(In-app search),先後攻克了不同的技術難點,面對如今來勢洶洶的 AI 時代,搜索技術又該何去何從呢?

作為 2018TOP100Summit 案例分享嘉賓之一,Dropbox 技術主管葉旭剛將在本文中分享搜索技術的發展的來龍去脈,以及當下該領域所面臨的機會與挑戰。

业界|Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?

葉旭剛,機器學習和數據科學領域資深專業人士。現任美國雲服務科技公司 Dropbox 的搜索團隊的技術主管, 負責開發新一代的雲工作空間的智能搜索推薦引擎。曾在美國最大房地產搜索引擎 Zillow 任主任應用科學家, 從事房地產垂直領域的搜索以及自然語言理解的研發。曾在美國蘋果公司任主任數據科學家, 從事客服搜索的研發。並曾在美國微軟公司任高級應用科學家, 從事網頁搜索、地區搜索、企業搜索的研發。擁有約翰霍普金斯大學應用數學及統計博士, 並曾在美國國立健康研究所從事生物信息統計博士後研究。曾獲約翰霍普金斯大學博士全額研究獎, 美國國立健康研究所優秀人才獎, 海軍研究部研究專款等。曾在運籌統計、生物信息、大數據及機器學習方面的期刊及會議發表多篇第一作者文章。在頂級會議 (NIPS, INFORMS, SIAM, ICML, ISMB, CIKM) 做過報告。

搜索技術的「前生今世」

搜索領域的發展最早可追溯至微軟操作系統的基礎檢索功能——桌面文件搜索系統(index),後來隨著互聯網的普及,用戶搜索範圍不再侷限於單機系統,才誕生了互聯網搜索系統。

雅虎是最早投入互聯網搜索系統開發的公司,然而一直未能從門戶網站的商業邏輯中跳脫出來,導致錯過了搜索引擎作為新型商業模式的風口,因而被同期的小公司趕超。這種新型商業模式後來被谷歌發揚光大,逐漸發展成今日的體量。

谷歌時代最重要的技術里程碑,是強調了網頁的重要性。谷歌為此進行了大量的互聯網資源整合工作,只要出現一個站點/網頁,谷歌都會統一進行 Index 標註,日積月累下成就了龐大的 Index 系統。Index 系統有效解決了雅虎時代遺留下的問題,使用戶的查詢輸入同時映射至多個結果,並根據重要性對搜索結果進行排序,從而保證呈現在用戶面前的都是最優的搜索結果。

為此,谷歌需要付出高昂的基礎設施維護代價。據瞭解,單 2016 年,谷歌系統便已累積多達 10 萬億個網頁 index 標註,耗費存儲空間高達 100 PB(1 PB = 1024 TB)。

最近這幾年,谷歌的搜索模型逐漸從靜態封閉向開放動態發展,從單純的「搜索-返回」變為通過各種途徑揣測用戶意圖的智能化搜索服務。換句話說,谷歌系統時刻關注著用戶的搜索反饋,這些信息將被完整記錄下來,然後經過整理後更新至模型裡頭,最後通過對比檢驗模型的搜索效果。

「小而精」的 In-app search 時代

這一階段搜索技術在的特點是: Index 體量變得越來越大,Index 種類變得越來越豐富,同一時間模型理解用戶意圖(語境)的能力也在不斷地提高。

與此同時,搜索技術也迎來了新挑戰:

  1. 互聯網資源底層結構變得多元化,用戶的搜索輸入不再侷限於文字,當中還包括圖像、語音、視頻等。

  2. 一旦資源庫的體量超出系統可負荷的臨界點,後期可能導致資源管理上的問題。

對應的解決方案,是如雨後春筍般冒出的垂直領域搜索引擎

跟過去不同的是,這些平臺未必在一開始就提供檢索服務,而是在商業模式取得巨大成功後,沉澱的用戶反哺為平臺帶來了大量內容,當內容豐富到一定程度時,自然而然形成了特定領域的搜索引擎,業界將之稱作

In-app search——用戶先登陸某個具體 app 再進行特定領域搜索的行為

當中最具有代表性的 In-app search 平臺是 Facebook,Facebook 在社交領域的積澱,使其在做社交搜索方面有著得天獨厚的優勢。有人曾經斷言,In-app search 極有可能在未來取代谷歌、Bing 等一般性搜索成為主流搜索工具。

此外,隨著「機器人時代」的來臨,搜索趨勢也將從單一輸入理解變成互動式交流,由文字過渡至語音、圖像乃至視頻。為了更好地理解用戶的搜索意圖,這些機器人將擁有強大的自然語言理解能力,可以根據用戶的搜索需求將之導引至某個專屬領域 app。

目前看來,擁有龐大的開發者生態以及企業基礎數據的蘋果 app store 和 AWS 雲平臺,極有可能超越谷歌,成為 In-app search 時代的弄潮兒。

搜索領域現階段面臨的難點——「內容理解」

無論是一般性檢索還是垂直領域檢索,在「機器人時代」都不可避免地要面臨「內容理解」的難題。

為了讓搜索引擎很好地理解人類意圖,我們必須保證引擎底層的知識結構和人類的知識結構保持一致,自然語言理解在這過程中便扮演了重要的角色。換句話說,自然語言理解是搜索引擎的索引和用戶輸入之間的橋樑,一旦缺少這個橋樑,我們的檢索技術相當於倒退至幾十年前,基本沒有進步。

然而「內容理解」面對的內容不僅僅是常見的網頁,還包括了其他的文本結構如工作文檔(可進一步細分為 word 文檔、pdf 文檔等)、圖像、視頻等,這就超出了自然語言理解的範疇,必須依賴諸如卷積神經網絡、運動監測、物體檢測等一系列特定技術才能解決信息提取問題。這也推動了目前深度學習領域較熱門的 embedding 工作,試圖將字面上的 token 映射至數字空間上。只有將不同文本結構的信息提取出來,我們才能將對象映射至文本空間上,接著通過文本技術來解決搜索的問題。

總的來說,「內容理解」的目的是要讓搜索引擎找到一種近似人腦對自然觀察理解的方式,然而這塊目前還處於比較初級的階段,目前引擎的信息提取

效果大約等同於幾歲小孩,有的時候甚至還不如一隻動物。

這是搜索技術的發展當下所面臨的瓶頸,需要更多的業界人士參與進來一起努力攻克。

附:葉旭剛老師的 TOP100Summit 案例分享詳情

由 msup 主辦的技術界一年一度的 TOP100Summit 上,葉旭剛老師將與大家分享他在房地產搜索領域關於自動補全與自動建議技術的建模實現(內容鏈接頁:http://www.top100summit.com/think/13504)。作為搜索的輔助手段,智能的自動補全和自動建議可以幫助用戶快速表達搜索意圖,同時避免查詢詞重複進入深層 index 造成系統延遲。

為了實現這一目的,需要構建一套該垂直領域的知識圖譜、詞彙表、字典樹數據結構,以及相關性概率的數學模型。葉旭剛老師將在報告中採用基於貝葉斯原則和條件獨立及非條件獨立的簡化假設把相關性概率分解成區域化和個性化兩個部分。在具體實現時採用兩階段貪婪排序。也就是先用區域化的相關性概率來找到一個搜索結果列,再對這個列計算個性化打分從新排序。此外,葉旭剛老師還會在報告中介紹評價系統表現的模型,以及對應的評價指標。

通過本次分享,學員可以瞭解自動補全和自動建議的一個全貌和具體在一個垂直領域是如何建模、設計和實現的。學員可以把該模型和技術移植到他們自己的搜索領域。比如說常見的場景是開發商品搜索或專業知識搜索的移動應用。

如果你對葉旭剛老師的主題分享感興趣,也想通過活動了解更多其他領域的技術創新/研發管理實踐,歡迎大家通過活動頁面購買會議門票:http://www.top100summit.com/apply,會議提供各種購票組合,大家可以實際需進行購買。


分享到:


相關文章: