前綴樹--打開了我的新思路

2020-03-17 21:38:22 故事凌

故事凌

今天刷算法題, 前綴樹, 字典樹, 真的是一個好東西啊, 在思想上又給自己打開了一個新的思路啊!

前綴樹被廣泛的運用在字典查找中, 也被稱為字典樹

舉例: 給定一系列字符串, 這些字符串構成了一種字典, 要求你在這個字典當中找出所有以"ABC"開頭的字符串

解法一: 暴利搜索

直接遍歷一遍字典, 然後逐個判斷每個字符串是否由"ABC"開頭, 假設字典很大, 有N個單詞, 要對比的不是"ABC", 而是任意的, 那不妨假設所要對比的開頭平均長度為M, 那麼時間複雜度是O(M x N)

解法二: 前綴樹

如果用前綴樹頭幫助對字典的存儲進行優化, 那麼可以把搜索的時間複雜度下降為O(M), 其中M表示字典裡最長的那個單詞的字符個數, 很多情況下, 字典裡的單詞個數N是遠遠大於M的, 因此, 前綴樹在各種場合中是非常高效的.

經典應用

網站的搜索框會羅列出以搜索文字作為開頭的相關搜索信息, 這裡運用了前綴樹進行後端的快速檢索
漢字拼音輸入法的聯想輸出功能也是運用了前綴樹

Trie (發音為 "try") 或前綴樹是一種樹數據結構，用於檢索字符串數據集中的鍵。這一高效的數據結構有多種應用：

1. 自動補全

2. 拼寫檢查

3. IP路由(最長前綴匹配)

4. T9(九宮格) 打字預測

5. 單詞遊戲

還有其他的數據結構，如平衡樹和哈希表，使我們能夠在字符串數據集中搜索單詞。為什麼我們還需要 Trie 樹呢？儘管哈希表可以在 O(1)O(1) 時間內尋找鍵值，卻無法高效的完成以下操作：

找到具有同一前綴的全部鍵值。
按詞典序枚舉字符串的數據集。

Trie 樹優於哈希表的另一個理由是，隨著哈希表大小增加，會出現大量的衝突，時間複雜度可能增加到 O(n)O(n)，其中 nn 是插入的鍵的數量。與哈希表相比，Trie 樹在存儲多個具有相同前綴的鍵時可以使用較少的空間。此時 Trie 樹只需要 O(m)O(m) 的時間複雜度，其中 mm 為鍵長。而在平衡樹中查找鍵值需要 O(m \\log n)O(mlogn) 時間複雜度。

Trie 樹的結點結構

Trie 樹是一個有根的樹，其結點具有以下字段：。

最多 RR 個指向子結點的鏈接，其中每個鏈接對應字母表數據集中的一個字母。本文中假定 RR 為 26，小寫拉丁字母的數量。
布爾字段，以指定節點是對應鍵的結尾還是隻是鍵前綴。

前綴樹的java代碼:

<code>class TrieNode {

   // R links to node children
// 連接到 R 條子節點
   private TrieNode[] links;

   // 最初只有26個字符, 最多有26條子節點
   private final int R = 26;

// 判斷是否是一個單詞是否結束
   private boolean isEnd;

  // 構造器, 初始化的時候, 都要創建26子節點
   public TrieNode() {
       links = new TrieNode[R];
  }

   // 判斷子節點是否存在, ch - 'a' 是0-25
   public boolean containsKey(char ch) {
       return links[ch -'a'] != null;
  }
   // 獲取到子節點
   public TrieNode get(char ch) {
       return links[ch -'a'];
  }
   // 往子節點中放元素
   public void put(char ch, TrieNode node) {
       links[ch -'a'] = node;
  }
   // 設置為單詞的結束符
   public void setEnd() {
       isEnd = true;
  }
   // 獲取單詞的結束符
   public boolean isEnd() {
       return isEnd;
  } 

}/<code>

舉例: 假如有一個字典, 字典裡面有下面詞: "A", "to", "tea", "ted", "ten", "i", "in", "inn", 每個單詞還能有自己的一些權重值, 那麼用前綴樹來構建這個字典將會是如下的樣子:

性質

每個節點至少包含兩個基本屬性
Childern: 數組或者集合, 羅列出每個分支當中包含的所有字符

idEnd, 布爾值, 表示是該節點是否為某字符串的結尾
前綴樹的根節點是空的

所謂空, 即只利用這個節點的children屬性, 即只關心在這個字典裡, 有哪些打頭的字符

除了根節點, 其他所有節點都有可能是單詞的結尾, 葉子節點一定都是單詞的結尾

實現

前綴叔最基本的操作就是兩個: 創建和搜索

1. 創建

遍歷一遍輸入的字符串, 對每個字符串的字符進行遍歷
從前綴的根節點開始, 將每個字符加入到節點的children字符集當中.
如果字符集已經包含了這個字符, 則跳過
如果當前字符是字符串的最後一個, 則把當前節點的isEnd標記為真.

由上, 創建的方法很直觀

前綴樹真正強大的地方在於, 每個每個節點還能用來保存額外的信息, 比如可以用來記錄擁有相同前綴的所有字符串, 因此, 當用戶輸入某個前綴時, 就能在O(1)的時間內給出對應的推薦字符串

我們通過搜索 Trie 樹來插入一個鍵。我們從根開始搜索它對應於第一個鍵字符的鏈接。有兩種情況：

鏈接存在。沿著鏈接移動到樹的下一個子層。算法繼續搜索下一個鍵字符。鏈接不存在。創建一個新的節點，並將它與父節點的鏈接相連，該鏈接與當前的鍵字符相匹配。重複以上步驟，直到到達鍵的最後一個字符，然後將當前節點標記為結束節點，算法完成。

向前綴樹中插入元素:

<code>class Trie {
   private TrieNode root;

   public Trie() {
       root = new TrieNode();
  }

   // Inserts a word into the trie.
   public void insert(String word) {
       TrieNode node = root;
       for (int i = 0; i            // 獲取到每個字符
           char currentChar = word.charAt(i);
           // 判斷是否存在, 不存在, 直接放入子節點
           if (!node.containsKey(currentChar)) {
               node.put(currentChar, new TrieNode());
          }
           // 子節點變成父節點, 進行下一次的循環
           node = node.get(currentChar);
      }
       // 設置最後的字符為單詞的結束符
       node.setEnd();
  }
}/<code>

2. 搜索

與創建方法類似, 從前綴的根節點出發, 逐個匹配輸入的前綴字符, 如果遇到了就繼續往下一層搜索, 如果沒遇到, 就立即返回.

在 Trie 樹中查找鍵每個鍵在 trie 中表示為從根到內部節點或葉的路徑。我們用第一個鍵字符從根開始，。檢查當前節點中與鍵字符對應的鏈接。有兩種情況：

存在鏈接。我們移動到該鏈接後面路徑中的下一個節點，並繼續搜索下一個鍵字符。不存在鏈接。若已無鍵字符，且當前結點標記為 isEnd，則返回 true。否則有兩種可能，均返回 false :還有鍵字符剩餘，但無法跟隨 Trie 樹的鍵路徑，找不到鍵。沒有鍵字符剩餘，但當前結點沒有標記為 isEnd。也就是說，待查找鍵只是Trie樹中另一個鍵的前綴。

在樹中查找元素

<code>class Trie { 

  ...

   // search a prefix or whole key in trie and
   // returns the node where search ends
   // 搜索前綴
   private TrieNode searchPrefix(String word) {
       TrieNode node = root;
       for (int i = 0; i           // 獲取到單詞的每一個字符
          char curLetter = word.charAt(i);
          // 如果子節點包含, 就把子節點當成新的父節點, 進入下一次循環
          if (node.containsKey(curLetter)) {
              node = node.get(curLetter);
          } else {
            // 否則, 就返回空
              return null;
          }
      }
       // 返回最終的子節點
       return node;
  }

   // Returns if the word is in the trie.
   // 判斷單詞是否存在於前綴樹中
   public boolean search(String word) {
      TrieNode node = searchPrefix(word);
      // 最後的節點不能為空, 而且該節點上必須有單詞的結束符
      return node != null && node.isEnd();
  }
}/<code>

查找 Trie 樹中的鍵前綴該方法與在 Trie 樹中搜索鍵時使用的方法非常相似。我們從根遍歷 Trie 樹，直到鍵前綴中沒有字符，或者無法用當前的鍵字符繼續 Trie 中的路徑。與上面提到的“搜索鍵”算法唯一的區別是，到達鍵前綴的末尾時，總是返回 true。我們不需要考慮當前 Trie 節點是否用 “isend” 標記，因為我們搜索的是鍵的前綴，而不是整個鍵。

<code>class Trie {
  ...

   // Returns if there is any word in the trie
   // that starts with the given prefix.
   public boolean startsWith(String prefix) {
       TrieNode node = searchPrefix(prefix);
       return node != null;
  }
}/<code>

例題分析

單詞搜索 II](https://leetcode-cn.com/problems/word-search-ii/)

給定一個二維網格 board 和一個字典中的單詞列表 words，找出所有同時在二維網格和字典中出現的單詞。

單詞必須按照字母順序，通過相鄰的單元格內的字母構成，其中“相鄰”單元格是那些水平相鄰或垂直相鄰的單元格。同一個單元格內的字母在一個單詞中不允許被重複使用。

示例:

<code>輸入:
words = ["oath","pea","eat","rain"] and board =
[
['o','a','a','n'],
['e','t','a','e'],
['i','h','k','r'],
['i','f','l','v']
]

輸出: ["eat","oath"]/<code>

說明:你可以假設所有輸入都由小寫字母 a-z 組成。

提示:

你需要優化回溯算法以通過更大數據量的測試。你能否早點停止回溯？如果當前單詞不存在於所有單詞的前綴中，則可以立即停止回溯。什麼樣的數據結構可以有效地執行這樣的操作？散列表是否可行？為什麼？前綴樹如何？如果你想學習如何實現一個基本的前綴樹，請先查看這個問題：實現Trie（前綴樹）。

<code>import java.util.HashSet;
import java.util.LinkedList;
import java.util.List;
import java.util.Set;

public class findWords_212 {
   public List<string> findWords(char[][] board, String[] words) {
       //構建字典樹
       wordTrie myTrie=new wordTrie();
       trieNode root=myTrie.root;
       for(String s:words)
           myTrie.insert(s);

       //使用set防止重複
       Set<string> result =new HashSet<>();
       int m=board.length;
       int n=board[0].length;
       boolean[][] visited=new boolean[m][n];
       //遍歷整個二維數組
       for(int i=0;i<board.length>           for (int j = 0; j                find(board,visited,i,j,m,n,result,root);
          }
      }
       System.out.print(result);
       return new LinkedList<string>(result);
  } 

   private void find(char [] [] board, boolean [][]visited,int i,int j,int m,int n,Set<string> result,trieNode cur){
       //邊界以及是否已經訪問判斷
       if(i<0||i>=m||j<0||j>=n||visited[i][j])
           return;
       cur=cur.child[board[i][j]-'a'];
       visited[i][j]=true;
       if(cur==null)
      {
           //如果單詞不匹配，回退
           visited[i][j]=false;
           return;
      }
       //找到單詞加入
       if(cur.isLeaf)
      {
           result.add(cur.val);
           //找到單詞後不能回退，因為可能是“ad” “addd”這樣的單詞得繼續回溯
//           visited[i][j]=false;
//           return;
      }
     //上下左右去遍歷, 通過遞歸的方法去實現
       find(board,visited,i+1,j,m,n,result,cur);
       find(board,visited,i,j+1,m,n,result,cur);
       find(board,visited,i,j-1,m,n,result,cur);
       find(board,visited,i-1,j,m,n,result,cur);
       //最後要回退，因為下一個起點可能會用到上一個起點的字符
       visited[i][j]=false;
  }


}

//字典樹
class wordTrie{
   public trieNode root=new trieNode();
   public void insert(String s){
       trieNode cur=root;
       for(char c:s.toCharArray()){
           if(cur.child[c-'a']==null){
               cur.child [c-'a'] = new trieNode(); 

               cur=cur.child[c-'a'];
          }else
               cur=cur.child [c-'a'];
      }
       cur.isLeaf=true;
       cur.val=s;
  }
}
//字典樹結點
class trieNode{
   public String val;
   public trieNode[] child=new trieNode[26];
   public boolean isLeaf=false;

   trieNode(){

  }
}/<string>/<string>/<board.length>/<string>/<string>/<code>

分享到:

閱讀更多 故事凌 的文章

關鍵字: 數據結構新思路前綴

新思路：基於 web worker 的雙線程前端框架

新思路，這樣學Python開發更容易入門！

新思路，10分鐘帶你瞭解Python！

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"