搜索引擎的原理，架構與細節

2018-11-08 13:57:00 程序員界的彭于晏

全網搜索引擎架構與流程

全網搜索的宏觀架構長啥樣？

全網搜索的宏觀流程是怎麼樣的？

全網搜索引擎的宏觀架構如上圖，核心子系統主要分為三部分（粉色部分）：

（1）spider爬蟲系統

（2）search&index建立索引與查詢索引系統，這個系統又主要分為兩部分：

一部分用於生成索引數據build_index

一部分用於查詢索引數據search_index

（3）rank打分排序系統

核心數據主要分為兩部分（紫色部分）：

（1）web網頁庫

（2）index索引數據

全網搜索引擎的業務特點決定了，這是一個“寫入”和“檢索”完全分離的系統：

【寫入】

系統組成：由spider與search&index兩個系統完成

輸入：站長們生成的互聯網網頁

輸出：正排倒排索引數據

流程：如架構圖中的1，2，3，4

（1）spider把互聯網網頁抓過來

（2）spider把互聯網網頁存儲到網頁庫中（這個對存儲的要求很高，要存儲幾乎整個“萬維網”的鏡像）

（3）build_index從網頁庫中讀取數據，完成分詞

（4）build_index生成倒排索引

【檢索】

系統組成

：由search&index與rank兩個系統完成

輸入：用戶的搜索詞

輸出：排好序的第一頁檢索結果

流程：如架構圖中的a，b，c，d

（a）search_index獲得用戶的搜索詞，完成分詞

（b）search_index查詢倒排索引，獲得“字符匹配”網頁，這是初篩的結果

（c）rank對初篩的結果進行打分排序

（d）rank對排序後的第一頁結果返回

三、站內搜索引擎架構與流程

做全網搜索的公司畢竟是少數，絕大部分公司要實現的其實只是一個站內搜索，站內搜索引擎的宏觀架構和全網搜索引擎的宏觀架構有什麼異同？

以58同城100億帖子的搜索為例，站內搜索系統架構長啥樣？站內搜索流程是怎麼樣的？

站內搜索引擎的宏觀架構如上圖，與全網搜索引擎的宏觀架構相比，差異只有寫入的地方：

（1）全網搜索需要spider要被動去抓取數據

（2）站內搜索是內部系統生成的數據，例如“發佈系統”會將生成的帖子主動推給build_data系統

看似“很小”的差異，架構實現上難度卻差很多：全網搜索如何“實時”發現“全量”的網頁是非常困難的，而站內搜索容易實時得到全部數據。

對於spider、search&index、rank三個系統：

（1）spider和search&index是相對工程的系統

（2）rank是和業務、策略緊密、算法相關的系統，搜索體驗的差異主要在此，而業務、策略的優化是需要時間積累的，這裡的啟示是：

a）Google的體驗比Baidu好，根本在於前者rank牛逼

b）國內互聯網公司（例如360）短時間要搞一個體驗超越Baidu的搜索引擎，是很難的，真心需要時間的積累

四、搜索原理與核心數據結構

什麼是正排索引？

什麼是倒排索引？

搜索的過程是什麼樣的？

會用到哪些算法與數據結構？

前面的內容太宏觀，為了照顧大部分沒有做過搜索引擎的同學，數據結構與算法部分從正排索引、倒排索引一點點開始。

提問：什麼是正排索引（forward index）？

回答：由key查詢實體的過程，是正排索引。

用戶表：t_user(uid, name, passwd, age, sex)，由uid查詢整行的過程，就是正排索引查詢。

網頁庫：t_web_page(url, page_content)，由url查詢整個網頁的過程，也是正排索引查詢。

網頁內容分詞後，page_content會對應一個分詞後的集合list。

簡易的，正排索引可以理解為Map>，能夠由網頁快速（時間複雜度O(1)）找到內容的一個數據結構。

提問：什麼是倒排索引（inverted index）？

回答：由item查詢key的過程，是倒排索引。

對於網頁搜索，倒排索引可以理解為Map>，能夠由查詢詞快速（時間複雜度O(1)）找到包含這個查詢詞的網頁的數據結構。

舉個例子，假設有3個網頁：

url1 -> “我愛北京”

url2 -> “我愛到家”

url3 -> “到家美好”

這是一個正排索引Map。

分詞之後：

url1 -> {我，愛，北京}

url2 -> {我，愛，到家}

url3 -> {到家，美好}

這是一個分詞後的正排索引Map>。

分詞後倒排索引：

我 -> {url1, url2}

愛 -> {url1, url2}

北京 -> {url1}

到家 -> {url2, url3}

美好 -> {url3}

由檢索詞item快速找到包含這個查詢詞的網頁Map>就是倒排索引。

正排索引和倒排索引是spider和build_index系統提前建立好的數據結構，為什麼要使用這兩種數據結構，是因為它能夠快速的實現“用戶網頁檢索”需求（業務需求決定架構實現）。

提問：搜索的過程是什麼樣的？

假設搜索詞是“我愛”，用戶會得到什麼網頁呢？

（1）分詞，“我愛”會分詞為{我，愛}，時間複雜度為O(1)

（2）每個分詞後的item，從倒排索引查詢包含這個item的網頁list，時間複雜度也是O(1)：

我 -> {url1, url2}

愛 -> {url1, url2}

（3）求list的交集，就是符合所有查詢詞的結果網頁，對於這個例子，{url1, url2}就是最終的查詢結果

看似到這裡就結束了，其實不然，分詞和倒排查詢時間複雜度都是O(1)，整個搜索的時間複雜度取決於“求list的交集”，問題轉化為了求兩個集合交集。

字符型的url不利於存儲與計算，一般來說每個url會有一個數值型的url_id來標識，後文為了方便描述，list統一用list替代。

list1和list2，求交集怎麼求？

方案一：for * for，土辦法，時間複雜度O(n*n)

每個搜索詞命中的網頁是很多的，O(n*n)的複雜度是明顯不能接受的。倒排索引是在創建之初可以進行排序預處理，問題轉化

成兩個有序的list求交集，就方便多了。

方案二：有序list求交集，拉鍊法

有序集合1{1,3,5,7,8,9}

有序集合2{2,3,4,5,6,7}

兩個指針指向首元素，比較元素的大小：

（1）如果相同，放入結果集，隨意移動一個指針

（2）否則，移動值較小的一個指針，直到隊尾

這種方法的好處是：

（1）集合中的元素最多被比較一次，時間複雜度為O(n)

（2）多個有序集合可以同時進行，這適用於多個分詞的item求url_id交集

這個方法就像一條拉鍊的兩邊齒輪，一一比對就像拉鍊，故稱為拉鍊法

方案三：分桶並行優化

數據量大時，url_id分桶水平切分+並行運算是一種常見的優化方法，如果能將list1和list2分成若干個桶區間，每個區間利用多線程並行求交集，各個線程結果集的並集，作為最終的結果集，能夠大大的減少執行時間。

舉例：

有序集合1{1,3,5,7,8,9, 10,30,50,70,80,90}

有序集合2{2,3,4,5,6,7, 20,30,40,50,60,70}

求交集，先進行分桶拆分：

桶1的範圍為[1, 9]

桶2的範圍為[10, 100]

桶3的範圍為[101, max_int]

於是：

集合1就拆分成

集合a{1,3,5,7,8,9}

集合b{10,30,50,70,80,90}

集合c{}

集合2就拆分成

集合d{2,3,4,5,6,7}

集合e{20,30,40,50,60,70}

集合e{}

每個桶內的數據量大大降低了，並且每個桶內沒有重複元素，可以利用多線程並行計算：

桶1內的集合a和集合d的交集是x{3,5,7}

桶2內的集合b和集合e的交集是y{30, 50, 70}

桶3內的集合c和集合d的交集是z{}

最終，集合1和集合2的交集，是x與y與z的並集，即集合{3,5,7,30,50,70}

方案四：bitmap再次優化

數據進行了水平分桶拆分之後，每個桶內的數據一定處於一個範圍之內，如果集合符合這個特點，就可以使用bitmap來表示集合：

如上圖，假設set1{1,3,5,7,8,9}和set2{2,3,4,5,6,7}的所有元素都在桶值[1, 16]的範圍之內，可以用16個bit來描述這兩個集合，原集合中的元素x，在這個16bitmap中的第x個bit為1，此時兩個bitmap求交集，只需要將兩個bitmap進行“與”操作，結果集bitmap的3，5，7位是1，表明原集合的交集為{3,5,7}

水平分桶，bitmap優化之後，能極大提高求交集的效率，但時間複雜度仍舊是O(n)

bitmap需要大量連續空間，佔用內存較大

方案五：跳錶skiplist

有序鏈表集合求交集，跳錶是最常用的數據結構，它可以將有序集合求交集的複雜度由O(n)降至O(log(n))

集合1{1,2,3,4,20,21,22,23,50,60,70}

集合2{50,70}

要求交集，如果用拉鍊法，會發現1,2,3,4,20,21,22,23都要被無效遍歷一次，每個元素都要被比對，時間複雜度為O(n)，能不能每次比對“跳過一些元素”呢？

跳錶就出現了：

集合1{1,2,3,4,20,21,22,23,50,60,70}建立跳錶時，一級只有{1,20,50}三個元素，二級與普通鏈表相同

集合2{50,70}由於元素較少，只建立了一級普通鏈表

如此這般，在實施“拉鍊”求交集的過程中，set1的指針能夠由1跳到20再跳到50，中間能夠跳過很多元素，無需進行一一比對，跳錶求交集的時間複雜度近似O(log(n))，這是搜索引擎中常見的算法。

五、總結

文字很多，有宏觀，有細節，對於大部分不是專門研究搜索引擎的同學，記住以下幾點即可：

（1）全網搜索引擎系統由spider， search&index， rank三個子系統構成

（2）站內搜索引擎與全網搜索引擎的差異在於，少了一個spider子系統

（3）spider和search&index系統是兩個工程系統，rank系統的優化卻需要長時間的調優和積累

（4）正排索引（forward index）是由網頁url_id快速找到分詞後網頁內容list的過程

（5）倒排索引（inverted index）是由分詞item快速尋找包含這個分詞的網頁list的過程

（6）用戶檢索的過程，是先分詞，再找到每個item對應的list，最後進行集合求交集的過程

（7）有序集合求交集的方法有

a）二重for循環法，時間複雜度O(n*n)

b）拉鍊法，時間複雜度O(n)

c）水平分桶，多線程並行

d）bitmap，大大提高運算並行度，時間複雜度O(n)

e）跳錶，時間複雜度為O(log(n))

------------------------------------------------------------------------------

分享到:

閱讀更多 程序員界的彭于晏 的文章

關鍵字: 數據結構百度網絡爬蟲

網站首頁標題添加網站網址，對SEO優化有沒有幫助？

seo優化有什麼注意事項?

網站死鏈、404頁面會對網站造成哪些影響？

01.28 如何優化網站才能事網站的潛在關鍵詞不斷增加

如何快速挖掘更多優質的長尾關鍵詞

SEO問題之首頁被K內頁正常

做網站關鍵詞排名時容易忽略的問題有哪些？—竹晨網絡

做好網站優化seo的七個步驟

怎麼優化網站內鏈結構

網站被降權的原因有哪些

把握關鍵詞密度的幾點規律

深入淺出mysql索引

5個方面做好快速提高網站排名

搜索引擎的基本原理

導致網站被降權的原因有哪些

網站SEO優化雷區，新手SEO必看

站內SEO優化都優化什麼？SEO站內優化7個技巧

導致網站SEO排名不穩定的原因有哪些？

搜索引擎相關性計算

Robots中Meta標籤簡介

網站內鏈的意義有哪些？

網站排名優化方法要注意適度

分析對營銷型網站進行外鏈建設的三個要素

關鍵詞選擇技巧，如何能讓網站關鍵詞快速排名

【初念科技】搜索引擎推廣的通配符正確使用，你會嗎？

SEO優化應該選擇http還是https？

網站優化過程中常見的幾個問題

附子：誤區解讀，網站降權無需看SITE命令，SEO知識點深度分析！

為什麼“頁面訪問深度”對SEO很重要？

網站的404頁面有什麼用？如何設置？

網站日誌-一個常被忽略的seo重要因素

什麼是反向鏈接？有什麼用處？

SEO必備——長尾關鍵詞

04.02 單頁面網站的SEO優化利弊以及技巧

分享網站精細化操作（第十二天）

【Google優化】SEO優化穩定關鍵詞網站排名

03.21 【Google優化】SEO優化內鏈之重

03.19 保持網站關鍵詞優化排名的因素有哪些？

shell 在手分析服務器日誌不愁

阿里開發強制要求的11條索引創建規範，提高性能

2898站長資源平臺：網站建設前要做好的SEO準備

網站Robots文件需要了解的知識

2898站長資源平臺：網址優化對網站的重要性

TF-IDF介紹

新老網站排名，搜索引擎賦予頁面得分知識！

06.22 高質量的友鏈對seo的好處

06.06 網站seo優化方案與具體思路，值得參考

05.26 如何進行誇庫數據分頁

nginx重寫URL尾部自動添加斜槓，讓你url變的更美

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"