百度、谷歌搜索是怎麼工作的?

搜索引擎的工作原理是這樣的:

首先在互聯中發現、蒐集網頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給用戶。

1、抓取網頁。每個獨立的搜索引擎都有自己的網頁抓取程序(spider)。Spider順著網頁中的超鏈接,連續地抓取網頁。被抓取的網頁被稱之為網頁快照。由於互聯網中超鏈接的應用很普遍,理論上,從一定範圍的網頁出發,就能蒐集到絕大多數的網頁。

2、處理網頁。搜索引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重複網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。

3、提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;為了用戶便於判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。

搜索方式是搜索引擎的一個關鍵環節,大致可分為四種:

全文搜索引擎

元搜索引擎

垂直搜索引擎

目錄搜索引擎

它們各有特點並適用於不同的搜索環境。所以,靈活選用搜索方式是提高搜索引擎性能的重要途徑。全文搜索引擎是利用爬蟲程序抓取互聯網上所有相關文章予以索引的搜索方式;元搜索引擎是基於多個搜索引擎結果並對之整合處理的二次搜索方式;垂直搜索引擎是對某一特定行業內數據進行快速檢索的一種專業搜索方式;目錄搜索引擎是依賴人工收集處理數據並置於分類目錄鏈接下的搜索方式。在此,我們對四種搜索方式的特徵作一比對:

四種搜索方式各有利弊並適用於不同的網絡使用環境:

1)一般網絡用戶適用於全文搜索引擎。這種搜索方式方便、簡捷,並容易獲得所有相關信息。但搜索到的信息過於龐雜,因此用戶需要逐一瀏覽並甄別出所需信息。尤其在用戶沒

有明確檢索意圖情況下,這種搜索方式非常有效。

百度、谷歌搜索是怎麼工作的?

2)元搜索引擎適用於廣泛、準確地收集信息。不同的全文搜索引擎由於其性能和信息反饋能力差異,導致其各有利弊。元搜索引擎的出現恰恰解決了這個問題,有利於各基本搜索引擎間的優勢互補。而且本搜索方式有利於對基本搜索方式進行全局控制,引導全文搜索引擎的持續改善。

3)垂直搜索引擎適用於有明確搜索意圖情況下進行檢索。

例如,用戶購買機票、火車票、汽車票時,或想要瀏覽網絡視頻資源時,都可以直接選用行業內專用搜索引擎,以準確、迅速獲得相關信息。

4)目錄搜索引擎是網站內部常用的檢索方式。本搜索方式旨在對網站內信息整合處理並分目錄呈現給用戶,但其缺點在於用戶需預先了解本網站的內容,並熟悉其主要模塊構成。總而觀之,目錄搜索方式的適應範圍非常有限,且需要較高的人工成本來支持維護。總之,用戶只有對上述四種搜索方式特點較為了解的基礎上,才能在不同情境下靈活選擇出最適合自己的搜索方式。


分享到:


相關文章: