技術分享丨Elasticsearch實操乾貨分享

2018-08-29 09:30:03 易觀

導讀

ElasticSearch是基於Lucene的搜索服務器。它是提供了分佈式多用戶能力的全文搜索引擎。Elasticsearch提供了強大的搜索、集合功能。這裡主要想跟大家探討下Elasticsearch索引結構設計的優化以及Elasticsearch在易觀鋯雲產品中的實踐經驗。

一、概述

Elasticsearch提供了豐富的數據類型，支持各種複雜的數據結構和複雜的業務場景。為了能夠實現更快的索引速度和查詢速度，在設計索引結構時，會考慮儘量減少字段數，減小文檔大小，縮短索引過程，以期提高檢索的速度。另外也會結合業務場景在不同數據結構之間要有所取捨。

二、優化策略

1._id生成策略

_id的生成策略對索引速度影響非常大。索引數據時，如果指定_id，Elasticsearch的版本檢查機制會校驗該_id是否存在，並生成新的版本號，默認先從緩存中取版本信息。如緩存中不存在，則要執行一次檢索，隨著數據量的增加，該過程的耗時將逐步增加，寫入速度逐步下降。如果不指定_id，使用Elasticsearch自增ID，可以跳過版本檢查機制，大大提高索引速度。但是，這種場景主要用於不可變數據導入的場景，例如日誌導入。而對於大多數業務場景，都需要指定_id,在很多情況下，需要使用文檔中一個或多個字段拼接生成唯一字符串，作為_id。這種情況下，能很好地保證數據的唯一性，但是，無規則的字符串作為_id會明顯拖累索引速度，根據測試結果，純數字的_id，效率最高。

2. text or keyword

Elasticsearch中，字符串類型可以選擇text和keyword，text類型在寫入數據時，會被分詞。因此，如果沒有分詞查詢的需要，字符串類型一律使用keyword類型更為高效。

3. number or keyword

我們並非一定要用數值類型的字段（byte、integer、long...）存儲數字，Elasticsearch在索引數據的時候，對不同數據類型做了不同優化以便於應對不同檢索場景，對數值類型，提高了range query的查詢速度，而對keyword類型，提高了term query 的查詢速度. 因而在設計索引的時，針對數字，如各種ID，若不存在range query的情況，優先使用keyword類型。

4. 儘量避免join

作為全文檢索的搜索引擎，join查詢，一直是Elasticsearch的弱項。但在日常業務中，有些情況下，又不可避免的需要使用join查詢。Elasticsearch 提供了nested、parent-child兩種關聯查詢的方式。但不幸的是，這兩種查詢方式極大地降低了查詢效率，nested會是查詢效率下降基本，而會產生幾十上百倍的下降。在doc數較小，併發較小的情況下，這種損失可以承受，但是對於億級甚至十億級的集群，這種性能損失是無法忍受的，另外，使用關聯查詢，索引結構變得複雜，索引數據的速度同樣受到影響，nested結構的文檔無法進行索引排序(index sorting)，而這種方式可以很好的提高檢索性能。

5.慎用doc_values

Elasticsearch使用倒排索引存儲數據，能夠提供極高的檢索性能，但有得必有失，這種結構並不能帶來很好的排序性能。Elasticsearch提供了doc_values功能，實現對倒排索引的裝置，這是一種列式存儲，能夠提供高效的排序和聚合，默認情況下，Elasticsearch會個每個字段開啟doc_values，如果某個字段並沒有排序和聚合的需求，可以禁用該字段的doc_values屬性，以減少索引數據和存儲的性能消耗。

6._all 字段的使用

_all字段是把其它字段值當作一個大字符串來索引的特殊字段，query_string 查詢子句(搜索 ?q=john )在沒有指定字段時默認使用 _all 字段，這種設置有利於全文檢索，在6.0.0以前的版本里，_all字段默認開啟。實際使用過程中，我們並不一定需要這麼大的字段，甚至不需要這個字段。根據業務需求，我們可以考慮禁用_all字段，或者使用使用copy_to指定字段拼接。

7._source 字段的優化

_source字段存儲了原始json文檔，默認包含所有字段。雖然在獲取文檔字段或整個文檔內容時，非常高效，但同樣也佔用了大量存儲空間。如果某些字段只需要進行檢索，無需返回值，那麼可以通過在_soucrce 中配置includes和excludes來自定義字段存儲，節省存儲空間。

8.dynamic mapping的使用

Elasticsearch默認允許在索引數據的時候可以動態新增字段，但是這種配置有相當風險。因為Elasticsearch的字段不允許刪除和修改數據類型，一旦在索引數據時出現意外，這可能導致索引結構急速膨脹。而且，為了提高讀寫性能我們需要對很多字段進行特殊設置，建議禁用dynamic mapping功能，或者通過dynamic_templates預設數據類型。

9.更少的索引字段

由於Elasticsearch 的join查詢功能的弱項，通常情況下，每個文檔都包含大量字段，有些字段我們需要用來進行檢索過濾，有些字段僅僅用來存儲數據。因而在設計索引的時候，對於無需檢索的字段可以設置enable=false，這樣只存儲不索引，可以提高索引速度，同時，這種字段可以合併成單個字段。

10.預索引數據

在某些業務場景下，為了提高檢索和聚合的速度，我們可以對某些字段的進行預分組。如年齡字段經常有需要按照年齡段進行檢索或聚合，這種情況下，我們可以在每個文檔增加年齡段這個字段，使用keyword類型，這樣可以大大提高檢索和聚合的速度。

三、易觀鋯雲產品中ES索引的設計

易觀鋯雲面向企業級用戶，提供一站式的第三方數據交易及算力加持服務。基於Elasticsearch提供實時/離線數據服務，數據總量大，文檔字段多，業務複雜，併發高，伴隨著高速寫入，讀寫矛盾嚴重。對此我們做了多方位的優化，盡最大努力提高集群性能，以下是索引結構方面優化總結：

1. 文檔含數十個字段，且多個字段中存儲數十條數據。因業務需要，唯一標識的字段是無規則的字符串。索引數據時，我們對該字段進行了散列轉換、取hash等操作，保證了極低的重複率，也提高了數據索引速度。

2. 大量字段經過標準化處理過後，都使用id存儲，在設計索引結構時，統一使用keyword存儲，提高了檢索和聚合性能；禁用了dynamic mapping，自定義copy_to 。

3. 增加分組字段，如，年齡age按照age_range進行預處理，提高檢索和聚合性能。

4. 在鋯雲產品中，有多個字段，是 id -> [value1，value2...]結構，並且需要進行關聯查詢，就需要使用nested Object結構，這大大降低了數據寫入速度和查詢速度，同時，nested結構使得我們無法在寫入數據時，使用順序存儲（index sorting）。對此，我們將字段合併，避開了object結構，同時，更好的支持了關聯查詢。

如, app_tgi:{id:integer, tgi:float},每個app_tgi字段都要存儲幾十條數據，業務中，需要對id及tgi進行關聯查詢過濾，在實際索引中，我們通過將id和tgi分別定長，然後拼裝成一個整數，如id=1000023,tgi=1.6558 最終生成的app_tgi = 10000230000016558，同時，對app_tgi字段進行索引排序，這樣，在實際使用過程中，如果需要讀檢索 id=id=1000023,tgi> 1.6558,就可以通過 app_tgi > 10000230000016558 && app_tgi < 10000239999999999，nested 查詢轉變成數值的range查詢，大大提高了檢索速度。

綜上所述，針對Elasticsearch索引結構的優化就是讓字段更少，文檔更小，讀寫更快。業務場景不同，取捨不同，鋯雲產品查詢的壓力高於寫入壓力，某些情況下我們犧牲了寫入的性能來獲得更好的查詢性能。Elasticsearch的調優是多方位的，在後續的文章中，我們將逐步介紹易觀在使用Elasticsearch過程中，在服務端、客戶端針對讀、寫、穩定性等各方面的優化經驗。

想看更多，請移步Analysys易觀（ID：enfodesk）微信公眾號。

分享到:

閱讀更多易觀的文章

關鍵字: 乾貨 ElasticSearch 分享

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

技術分享丨Elasticsearch實操乾貨分享

導讀

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

五萬內的摩托跑車有幾種？

30000以下電噴帶ABS的摩托車有哪些？

最近想買一個摩托車排量150，價格一萬二左右有沒有好的推薦？

手裡有五萬塊閒錢，有推薦的摩托車嗎？

預算一萬五左右，有什麼摩托車可以推薦？

想買一輛摩托車，萬元左右，求網友推薦？

長期吃阿司匹林、頭孢、布洛芬的危害有哪些？

為什麼有些人抽菸對肺部沒有造成任何影響？

煙齡25年，突然戒菸會有什麼壞處？

很多病人去醫院檢查時會發現肌酐升高，其具體臨床意義是什麼？

如何防止肺大泡變大？

患腦梗的病人為什麼老愛小便？

晚上睡覺老出汗，白天暈暈沉沉是怎麼回事？

戒菸半年是什麼感覺？

長期大量飲酒對人體的哪個臟器損害最嚴重？

心電圖檢查沒問題，但心臟部位持續不舒服，如何判斷是不是心臟問題？

漢十高鐵什麼時候可以通車？

原子從激發態躍遷到基態有哪幾種類型？

怎麼看待小罐茶這種營銷型的公司？

部分科學家何以能在不清楚量子糾纏原理的時候開發量子技術應用，這種情況有無先例？

中國石墨炸彈威力有多大？一枚能讓整個城市陷入癱瘓？

湖北的發展為什麼要落後於周邊省份？

洛倫茲力不守牛三定律，會有哪些影響？

湖北有哪些地級城市屬於鐵路樞紐城市？

宜昌可能成為湖北省會嗎？

算法競賽的時候，用cin cout輸入輸出比用scanf printf慢多少？

大家對於QQ、163、Gmail、outlook郵箱的評價怎麼樣呢？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪