Elasticsearch 漫談

2019-11-30 08:37:05 戚小柒說IT

在ES中，索引構建和查詢因為沒有做分離，所以他們之間存在著非常激烈的競爭關係，而ES所暴露出來的那無數參數就是調整兩者之間關係的。

Merge ，Shard數，索引數

Merge的影響其實是非常大的。現在大部分存儲系統對於更新和刪除其實都是生成新的文件，並不會直接去更新原來的文件，查詢時對應的Reader會讀取這些文件，從而實現類似合併後的效果。在ES中，Merge由兩部分構成，MergeScheduler和MergePolicy。MergeScheduler控制合併的使用的工作線程以及一次合併多少文件等。MergePolicy則是控制如何進行文件的合併。默認的TireMergePolicy，會生成多個不大於5G的文件。

所以，對於Merge其實我們可以調整MergeScheduler和MergePolicy。對應的你可以在ElasticsearchConcurrentMergeScheduler和MergePolicyConfig兩個類裡看到詳細的可配置參數列表。

Merge有啥影響的？其實它和Shard數的控制也有很大關係。假設我們有100臺服務器，2400顆核，單機24顆核心，那麼默認每個分片會有四個線程用於Merge操作。假設我們有500個分片，那麼Merge可以使用的CPU核數達到了2000個，在一個數據寫入非常頻繁的系統，大部分CPU可能都會被Merge給消耗掉。所以並不是分片越多越好，這裡需要考慮Merge對系統的影響，並且分片越多，那麼用於Bulk的CPU就越多，對Search的性能其實也是有影響的。

在我的實際測試過程中，如果我將分片數設置為服務器數，並且將merge線程設置為1，也就是一個Shard一個merge線程，這種情況下，CPU會有效的降低，並且索引構建性能也能得到一定的提升。我猜測，如果調低 index.merge.policy.max_merged_segment，假設現在設置為1G,那麼將一個2M的新的Segment合併到1G的文件將比原來5G的快得多，消耗的CPU也更少，然而帶來的影響可能是索引查詢性能的下降以及可能導致系統文件句柄的耗盡。

如果一個Shard分片裡的數據過大，那麼譬如聚合查詢的響應時間基本就難以接受了，對於數據規模在五六億的一個分片而言，簡單的groupby 加sum的查詢可能耗時都能夠達到2分鐘，相對而言，Shard的文檔數量在百萬規模，能夠獲得一個較好的查詢響應時間,然而可能依然以秒計。

Shard一多,Merge以及Bulk構建索引消耗的CPU都會變得巨大，讓Search變得愈加困難。而隨著數據量規模的日益龐大，而單個Shard數據量又不宜太大，那麼只能加大Shard數量，這就導致我們陷入了一個困境。

解決上面的問題似乎有兩個簡單而有效的方案：

讓同一Node實例的Shard共用一個Merge線程池，而不是現在的每個Shard單獨戰友一個Merge線程池。
將Shard 字段的列式存儲，最好是能夠分成多個block,然後利用其有序性，對每個Block保留Min-Max值，從而在做equal或者range類的過濾時，跳過部分Block,避免時間消耗和Shard的數據量成線性關係。而且如果單個文件，則很難全部緩存起來，無法高效利用系統緩存。

聚合的精度問題

之前我曾經說過，在ES中，

有些查詢理論上是不精準的，有誤差的，然而大部分場景下卻都是準確的。
有些理論上是不精準的，有誤差的，實際場景也是有誤差的。

前者如簡單的group by 查詢，後者如distinct類的查詢。那為啥查詢會有誤差呢？比如簡單的groupby查詢，其實是做了一個假設，局部(各個分片的)的topN 放到一起，重新排序得到的topN會是全局的的topN，這種假設大部分場景是正確的。所以有了我上面的第一個結論。而對於比如distinct則使用了hyperloglog++之類的算法，這種算法本來就是一個估算算法，所以他肯定是有誤差的。一般而言百分之幾到千分之幾的誤差。

那為啥ES不能做精準的計算呢？那是因為ES是一個存儲，而不是一個正真意義上的分佈式計算引擎。分佈式計算引擎一定要有一個強大的Reduce能力,而ES目前還只能在單機做Reduce,這就導致它必定受限於單機的內存，所以他必須做一些假設或者採用某種估算算法才能避免內存被耗盡。

和Spark的整合問題

ES-Hadoop基本就是個半成品。為啥說是半成品呢？因為我們確實能夠利用ES-Hadoop項目很好的和Spark做結合，將數據導入到ES中。然而進行查詢的時候，因為ES-Hadoop採用了http協議，通過RestAPI 去獲取ES的數據導入到Spark中做計算，導致加載效率極低。加載效率低的原因其實不僅僅是採用了HTTP協議的緣故(如果換做RPC據說效率有50%以上的提升)，還有如：

Scroll API 需要每次重新獲得和過濾候選集，然後得到新批次的數據
Scan後獲得DocId集合，然後fetch _source 是一個隨機讀過程而讓IO性能無法接受

其中影響最大的是fetch _source。這也是Spark Data source API 帶來的問題，也不能全怪ES。為什麼這麼說呢？因為Spark Data Source API 依然無法發揮底層存儲的計算能力，它只能下沉(PushDown)一些filter,而無法接受groupby後的結果進行計算，這就導致數據規模下不來。

Task Manager

能夠跑後臺任務對類似ES這種系統是很重要的。現在的ES無法實現把任務丟進去(或者查詢)，然後可以異步監控獲取結果。一種比較直觀的場景是，我丟一個SQL進去，類似 insert to newtable from (select * from oldtalbe)這種，然後第二天就可以出結果，然後BI報表讀取newtable就能夠顯示了。這個只是功能的話是比較容易做的，最大的難點是資源的控制，不能說一個query任務就耗盡了所有的資源甚至跑掛了ES。實際上涉及到兩個點：

資源隔離
任務調度

資源隔離是基礎，否則Task後臺運行就華而不實了。任務調度保證以最優的方式完成多任務的，不然只能一個接著一個跑，可能使用價值也就沒有那麼大了。

要實現資源隔離，只能自己去管理內存，可能需要JVM實現一個TaskMemoryManager的管理器，然後所有task都需要到這裡來申請資源，其實是很複雜的一件事情。

ES-SQL

我們知道 ES是有自己的DSL的，是一個用JSON來定義的查詢語言。寫起來還是比較繁瑣的，而相當一部分功能其實是可以映射到SQL上的。我覺得官方有必要提供對SQL的支持，Solr現在已經做了，但是ES目前還只有第三方在做。在我的視角里，沒有SQL支持的查詢系統，我基本是不考慮的。Spark 提供了那麼多易用的API，然而純SQL還是最好用的。

什麼時候生成Segment(磁盤文件)

在討論這個問題之前，我們先要理解一下文件的寫入過程。當我們打開一個文件描述符往裡面寫入數據的時候，一般而言會寫入文件系統的緩存裡，所以再最後需要fsync一下，強制將所有數據刷入磁盤。那麼對應的，Segment產生也分兩個階段，一個是產生了文件，一個是fsync到磁盤後不再變化了。

我們這裡指的產生Segment就是指已經被commit到磁盤的segment.

Segment這個名詞來自於Lucene，在前面Merge相關的內容裡已經反覆有所提及。Translog是觸發Segment生成一個比較重要的地方，因為他們本來就是起互補作用的。當我們要清空Translog然後打開新的Translog時，就會將現有的數據持久化到Segment裡。所以Translog的配置直接影響了Segment的生成頻率。另外，Translog做Recovery的時候，其實也是會觸發flush動作的，比如做SNAPSHOT。當然，ES也可以通過API手動觸發Flush從而產生Flush動作。

副本

ES副本對索引性能的影響幾乎是100%。然而目前的機制而言，你是不能去掉副本的，因為一旦發生主片丟失，就不僅僅是已經存在的數據丟失，還包括新的數據部分也無法進入集群。至於為啥影響是100%呢？因為副本和主片都是通過HTTP協議完成的，而不是類似傳統的文件拷貝的方式。在5.0之後有一個優化，就是fsync可以實現異步化，可以有效提高吞吐。

索引速度

隨著ES在數據分析領域的大放異彩，索引速度越來越是個瓶頸。企業似乎也願意投資，使用百臺高性能服務器錄入千億規模數據的大有人在。然而和原生的Lucene的速度相比較，差距仍然是比較大的。那麼速度到底差在哪裡呢？

大體有幾個因子影響了索引的速度：

Translog ,你可以類比MySQL的Binlog
Version,版本檢查
一些特殊字段，譬如_all,_fieldNames等
Schema Mapping相關的(譬如mapping Dynamic Update)
JSON的解析(ES 交互基本是以JSON為主體的)
Segments 的Merging
Refresh Interval ，索引的刷新週期

Translog

在默認參數下，Translog 寫入的CPU消耗甚至比Lucene 的addDocument 還高兩倍。這點我還是蠻詫異的。Translog也要落磁盤，也需要commit，所以我們可以通過將index.translog.durability設置為async，這樣translog的寫入由默認的每次請求後就執行改成定時(5s)commit一次。這樣帶來的額外好處是減少 Translog寫磁盤的次數，也就了減少了構建索引的消耗。

Translog並不會無限存在，到了一定程度，就需要觸發索引的flush,具體動作是

commit index segment
clear translog
open new translog

那麼這裡就有個需要權衡的地方：

flush的越少，那麼索引性能越高
flush的越少，translog就可能越大，那麼當發生故障時，恢復時間就可能越長。

這裡解釋下translog和故障恢復的關係。當數據進行recovery的時候，大致是如下一個流程：

INIT -> INDEX -> VERIFY_INDEX -> TRANSLOG -> FINALIZE -> DONE

大家如果使用marvel之類的，一般能夠看到INDEX 和 TRANSLOG階段，因為其他階段一般時間都比較短。INDEX其實就是先對索引進行SNAPSHOT,然後將文件拷貝過去，這個期間新增的數據都會寫入到Translog，並且translog會被Hold住而不被刪除。接著驗證沒有問題後就進入TRANSLOG階段進行日誌回放。回放的量取決於INDEX拷貝的時間長短。TRANSLOG回放其實是非常慢的。當然，這個你在做恢復的時候，把灌數據的程序停了就能有效縮短TRANSLOG階段時間。

第二種情況是重新Load某個Shard,比如某個Node被快速重啟了，這個時候因為數據還沒來得及commit成segment就掛了，再次啟動後，丟失的數據就可以從Trasnlog裡恢復了，如果Translog多了，就讓恢復變得很慢。所以在這種情況下，Translog保留多少條就變得很重要了，可以通過參數index.translog.flush_threshold_ops 控制。

當然，前面討論的一些設置讓translog也變得不可靠，一旦產生當機等問題，可能在內存中的translog沒有及時commit到磁盤而導致數據丟失。吞吐和可靠總是存在某種矛盾。

關於Translog的內容，大致就如上了。我覺得Translog的寫入和讀取等還是有優化空間的。這裡再說說5.0裡和Translog有關的一個優化，在ES裡實時Get的話，其實是通過內存中通過docId拿到translog offset ，然後再去拿的，5.0之後不需要這樣了，只要在內存維護最新文檔的docId而不是docId和translog offset的映射關係，然後有請求的話，將數據flush到segment裡然後直接去取。

Version

我們再說說Version機制,Version大致會有一個Map緩存，如果緩存沒有，就會走磁盤。索引Version檢查其實是一個昂貴的操作。如果是時序數據(不變數據)，則讓系統auto generate id可以跳過Version檢查，這樣的話對性能也是巨大的提升。

特殊字段

在ES裡有一些特殊字段，比如_all,_fieldNames，_source等。_all性能影響還是比較大的。_source我們一般需要保留，否則會有很多不便，因為無法還原完整的記錄。_all一般而言可以關掉。之前我沒注意到_fieldNames這個字段，通過JProfiler我發現如下的代碼竟然佔了整個Bulk過程CPU的6%左右的消耗。

Snip20161024_35.png

後來一查，發現是為了生成_fieldNames字段的。如果你要追求索引灌入的性能，果斷關掉這個字段吧。

Mapping

ES的Mapping其實消耗也非常大，比如Dynamic update 特性。建議固定好的你Schema,然後在ETL過程中規範你的數據，然後關掉該特性。

JSON

JSON的解析其實是比較慢的，通過性能分析發現，比如StringFieldMapper裡的parseCreateFieldForString方法消耗CPU就特別厲害，仔細一看，

Snip20161024_36.png

裡面其實都是從JSON Parser裡拿出具體的數據呢。這塊似乎並沒有太多辦法。或許如果bulk使用RPC協議能夠更快的原因是因為Http協議使用的是JSON格式。

作者：祝威廉
鏈接：https://www.jianshu.com/p/746c85627448
來源：簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。

分享到:

閱讀更多 戚小柒說IT 的文章

關鍵字: 中央處理器我的第一部5G手分佈式計算

ElasticSearch 基本概念與操作

Elasticsearch 清空index數據的方法

Elasticsearch

Elasticsearch 優化

SpringBoot 快速集成 Elasticsearch 實戰

Elasticsearch Nested類型深入詳解

Python Elasticsearch DSL 搜索

Python Elasticsearch DSL 的使用

Elasticsearch Dynamic Mapping動態映射策略-動態模板

SpringData Elasticsearch、Elasticsearch、Spring Boot兼容矩陣

ElasticSearch & Kibana版本選擇與安裝

Elasticsearch Dynamic Mapping動態映射策略-Part 2

Elasticsearch dynamic mapping動態映射策略

Elasticsearch：將mysql數據導入到Elasticsearch中

Elasticsearch(docker)環境搭建

ElasticSearch-hard插件及IK分詞器安裝

一篇就懂 Elasticsearch

03.04 一篇就懂 Elasticsearch

02.28 ElasticSearch 介紹及使用方法

02.26 elasticsearch 操作報錯只讀 read-only

Elasticsearch 中映射參數doc

Elasticsearch 與傳統數據庫到底有什麼不同

Elasticsearch：一個索引只能包含一個映射類型

ElasticSearch 倒排索引簡析

Elasticsearch 開箱指南

Elasticsearch JAVA API ---索引api（二）

Elasticsearch JAVA API ---Springboot2.x中配置使用（一）

Elasticsearch 索引分片與副本設置技巧

Spring Boot (4) 整合 Elasticsearch

12.22 Elasticsearch Java 客戶端

12.05 ElasticSearch 最全詳細使用教程

12.04 為什麼需要 Elasticsearch？

ElasticSearch QueryCache漫談

ElasticSearch Rest

Elasticsearch 億級數據檢索性能優化案例實戰

Flink 實時寫入數據到 ElasticSearch 性能調優

Elasticsearch 7.3.2 發佈，分佈式搜索和數

Elasticsearch 7.x Nested 嵌套類型查詢

Elasticsearch、MongoDB和Hadoop比較

Elasticsearch—基礎介紹及索引原理分析

ElasticSearch 集群搭建

SpringBoot+Elasticsearch

聽說你還沒掌握 ElasticSearch Normalizer 的使用方法？

elasticsearch-php安裝

elasticsearch-6.3.2 安裝（三）安裝ik中文分詞（ik+pinyin）

Elasticsearch SQL

elasticsearch 單機多節點配置

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"