12.20 淺談跳躍鏈表的基本原理

2019-12-20 20:42:12 sandag

0.前言

通過本文將瞭解到以下內容：

跳躍鏈表的基本概念
跳躍鏈表的實現原理
跳躍鏈表的應用簡介

注：以下簡稱跳躍鏈表為跳錶，由於跳錶內容較多，分為2-3次寫完。跳錶的實現可以是單鏈表和雙鏈表，本文主要基於單鏈表闡述。

1.跳躍鏈表的基本概念

初識跳錶

跳躍列表是一種數據結構。它允許快速查詢一個有序連續元素的數據鏈表。跳躍列表的平均查找和插入時間複雜度都是O(log n)，優於普通隊列的O(n)。

跳躍列表由威廉·普發明，發明者對跳躍列表的評價：跳躍列表是在很多應用中有可能替代平衡樹而作為實現方法的一種數據結構。

跳躍列表的算法有同平衡樹一樣的漸進的預期時間邊界，並且更簡單、更快速和使用更少的空間。

這種數據結構是由 William Pugh (音譯為威廉·普)發明的，最早出現於他在1990年發表的論文《Skip Lists: A Probabilistic Alternative to Balanced Trees》，在谷歌上想進一步查一下這個大佬的履歷，信息並不多，不過找到一篇作者關於跳錶的論文，感興趣強烈建議下載閱讀：

https:// epaperpress.com/sortsea rch/download/skiplist.pdfWillliam

看下這篇論文的摘要部分：

用我2009年考過的六級給翻譯一下：

跳躍鏈表是一種可以用來代替平衡樹的數據結構。跳錶使用概率平衡而非嚴格平衡，因此基於跳錶實現的算法在插入和刪除操作上比平衡樹更簡單且明顯更快。

從中我們獲取到的信息是：

跳錶在動態查找過程中使用了一種非嚴格的平衡機制來讓插入和刪除都更加便利和快捷，這種非嚴格平衡是基於概率的，而不是平衡樹的嚴格平衡。

說到非嚴格平衡，首先想到的是紅黑樹RbTree，它同樣採用非嚴格平衡來避免像AVL那樣調整樹的結構，這裡就不展開講紅黑樹了，不過後面一定講一下紅黑樹，看來跳錶也是一樣的路子，但是是基於概率實現的。

動態查找的數據結構

所謂動態查找就是查找的過程中存在元素的刪除和插入，這樣就對實現查找的數據結構有一定的挑戰，因為在每次刪除和插入時都要調整數據結構，來保持秩序。可以作為查找數據結構的包括：

線性結構：數組、鏈表
非線性結構：平衡樹

來分析一下各種數據結構在應對動態查找時的優劣：

數組結構

數組結構簡單內存連續，可以實現二分查找等基於下標的操作，我一直認為數組的殺手鐧就是下標，連續的內存也帶來了問題。當進行插入和刪除時就面臨著整體的調整，就像在火車站排隊買票，隊頭走一個整個隊伍向前挪一步，有加塞的後面的又整體向後挪一步，這種整體移動操作在數組結構中性能損耗很大，並且在大數據量時對連續內存要求很高，當然這個在大內存機器上可能沒有什麼問題。

如圖演示插入6和刪除5時數組元素的移動：

鏈表結構

鏈表結構也比較簡單，但是不要求內存連續，不連續也就沒有下標可以加速，但是鏈表在執行刪除和插入時影響的只是插入刪除點的前後元素，影響非常小。但是每次查找元素是需要進行遍歷，就算我知道某個元素一定在大致的什麼位置，也只能一步步走過去，看到這裡要覺得有優化的空間，那你也蠻厲害的了，說不定早幾年跳錶就是你的發明了。

如圖演示了刪除元素5和插入元素49時的處理：

平衡樹

平衡樹也是處理動態查找問題的一把好手，樹一般是基於鏈表實現的，只不過樹的節點之間並不是鏈表簡單的線性關係，會有兄弟姐妹父親等節點，並且各個層級有數量的限制，可以看到樹其實還是蠻複雜的。節點需要存儲的信息很多，各個指針指來指去，複雜的結構增加了調整平衡性的難度，不同情況下的左旋右旋，所以出現了紅黑樹這種工程版本的AVL，但是在實際場景中可能並不需要這些兄弟姐妹父親關係，有種殺雞宰牛刀的意味了。

紅黑樹的 節點結構定義 ：

<code> 1 #define COLOR_RED  0x0
 2 #define COLOR_BLACK 0x1
 3 
 4 typedef struct RBNode{
 5    int key;
 6    unsigned char color;
 7    struct RBNode *left;
 8    struct RBNode *right;
 9    struct RBNode *parent;
10 }rb_node_t, *rb_tree_t;

/<code>

另外紅黑樹調整屬性過程中插入分為3種情況，刪除分為4種情況，還是比較難以理解的。

三種結構對比

從上面的對比可以看到：數組並不能很好滿足要求，鏈表在搜索過程又顯得更笨拙，平衡樹又有點複雜，到底該怎麼辦？

跳錶的雛形

有條件要上，沒有條件創造條件也要上。

沒有條件，那麼就創造條件。上面的三類結構都存在一些問題，所以要進行改造，可以看到數組和平衡樹的某些特性決定了它們不容易被改造(數組內存連續性、平衡樹節點多指針和層級關係)，相反鏈表最有潛力被改造優化。

不要一步步走我要跳起來

在有序鏈表中插入和刪除都比較簡單，搜索時無法依靠下標只能遍歷，但是明明知道要走兩步可以到達目的地，偏偏只能一步步走，這就是痛點。

如圖演示了O(n)遍歷元素35和跳躍搜索元素35的過程：

貌似看到了曙光，那麼如何實現跳躍呢？

沒錯！給鏈表加索引，讓索引告訴我們下一步該跳到哪裡。

看到這裡又讓我想起來那個經典的中間層理論，遇到問題，試著加個中間層試試，或許就完美解決了。

2.跳躍鏈表的實現原理

前面說了可以給普通鏈表加索引來解決，但是具體該怎麼操作，以及其中有什麼難點？一步步來分析。在工程中對跳錶索引層數和結點是否作為索引結點，是其很重要的屬性，後面就詳細講一下，現在先看一種簡單場景，說明索引帶來的便利性。

簡單的索引

選擇每隔1個結點為索引結點，並且索引為一層，雖然在工程中這種形式比較標準化，不過足以說明索引帶來的加速。

可以將鏈表中的偶數序號節點增加一層指針，讓其指向下一個偶數節點，如圖所示：

搜索過程：加入要搜索值為55的節點，則先在上層進行搜索，由16跳到38，在38的下一跳將到達72，因此向下降一級繼續類似的搜索，則找到55。

我要一步一步向上爬

基於偶數節點增加索引並且只有兩層的情況下，最高層的節點數是n/2，整體來看搜索的複雜度降低為O(n/2)，並不要小看這個1/2的係數，看到這裡會想增加索引層數到k，那麼複雜度將指數降低為O(n/2^k)。

索引層數不是無休止增加的，取決於該層索引的節點數量，如果該層的索引的節點數量等於2了，那麼再往上加層也就沒有意義了，

畫個圖看一下：

這個非常好理解，如果所在層索引結點只有1個，比如4層索引的結點16，只能順著16向下遍歷，無法向後跳到4層其他結點，

因此當所在層索引結點數量等於2，則到達最高索引層，這個約束在分析跳錶複雜度時很重要。

索引層數和索引結點密度

跳錶的複雜度和索引層數、索引結點的稀疏程度有很大關係。索引層數我們從上面也看到了，稀疏程度相當於索引結點的數量比例，如果跳錶的索引結點數量很少，那麼將接近退化為普通鏈表，這種情況在數據量是較大時非常明顯，畫圖看下(藍色部分表示有很多結點)：

圖中可以看到雖然有索引層，但是索引結點數量相對全部數據比例較低，這種情況下搜索35相比無索引情況優勢並不明顯。

所以跳錶的效率和索引層數和索引結點的密度有密切的關係，當然索引結點太多也就等於沒有索引了。太少的索引結點和太多的索引結點都是一樣的低效。

複雜度分析

從前面的分析可知，跳錶的複雜度和索引層數m以及索引結點間隙d有直接關係，其中索引結點間隙理解為相隔幾個結點出現索引結點，體現了對應層索引結點的稀疏程度，在無索引結點時只能遍歷無法跳躍。

推導過程：

如何確定最高索引層數m 呢？

如果一個鏈表有 n 個結點，如果每兩個結點取出一個結點建立索引，那麼第一級索引的結點數是 n/2，

第二級索引的結點數是n/4，以此類推第 m 級索引的結點數為 n/(2^m)，前面說過最高層結點數為2，因此存在關係：

算上最底層的原始鏈表，整個跳錶的高度為h=logn(底數為2)，每一層需要遍歷的結點數是d，那麼整個過程的複雜度為:O(d*logn)。

d表明了層間結點的稀疏程度，也就是每隔2個結點選取索引結點、或者每隔3個結點選取索引結點，每個4個結點選取索引結點......最密集的情況下d=2，

但是索引結點密集也意味著存儲空間的增加，跳錶相比較普通鏈表就是典型的用空間換時間的數據結構，這樣就達到了AVL的複雜度O(logn)。

跳錶的空間存儲

以d=2的最密集情況為例，計算跳錶的索引結點總數：

2+4+8+......n/8+n/4+n/2=n-2

由等比數列求和公式得d=2的跳錶額外空間為O(n-2)。

跳錶的插入和刪除

工程中的跳錶並不嚴格要求索引層結點數量遵循2:1的關係，因為這種要求將導致插入和刪除數據時的調整，成本很大，因此跳錶的每個插入的結點在插入時進行選擇是否作為索引結點，如果作為索引結點則隨機出層數，整個過程都是基於概率的，但是在大數據量時卻能很好地解決索引層數和結點數的權衡。

跳錶元素17插入：

鏈表的插入和刪除是結合搜索過程完成的，貼一張William Pugh在論文中給出的在跳錶中插入元素17的過程圖(暫時忽略結點17是否作為索引結點以及索引層數，後面會詳細說明)：

跳錶元素1刪除：

跳錶元素的刪除與普通鏈表相比增加了索引層的判斷，如果結點是非索引結點則正常處理，如果結點是索引結點那邊需要進行索引層結點的處理。

3.跳躍鏈表的應用簡介

一般討論查找問題時首先想到的是平衡樹和哈希表，但是跳錶這種數據結構也非常犀利，性能和實現複雜度都可以和紅黑樹媲美，甚至某些場景由於紅黑樹，從1990年被髮明目前廣泛應用於多種場景中，包括Redis、LevelDB等數據存儲引擎中，後續將詳細介紹。

4.小結

本文主要講述了跳錶的基本概念和簡單原理、以及索引結點層級、時間和空間複雜度等相關部分，並沒有涉及概率平衡以及工程實現部分，後續將陸續推出。

分享到:

閱讀更多 sandag 的文章

關鍵字: 算法跳躍國創上頭條

數組、鏈表、leetcode

Freertos的鏈表(list)分析

為什麼 HashMap 是線程不安全的？

介紹常用的數據結構：數組，棧，鏈表，隊列，樹，圖，堆，散列表

03.01 介紹常用的數據結構：數組，棧，鏈表，隊列，樹，圖，堆，散列表

紅黑樹從結構到源碼

圖解數據結構之數組、鏈表、棧、隊列

「C與指針心得」21.鏈表-雙向鏈表

「C與指針心得」20.鏈表-單項鍊表

06.21 Redis 的基礎數據結構（一）可變字符串、鏈表、字典

「BAT常問」40道Java基礎面試題及詳細答案整理匯總「9—16」

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"