大數據核心企業級海量數據的搜尋引擎elasticsearch架構解析

2018-07-21 18:37:31 全棧步道者

最近有很多粉絲髮私信想讓我寫一下關於數據搜索方面的文章，前面關於數據的鋪墊基本上都講過了，從hdfs到mr到hbase、zk、hive在之後的文章我會對數據的採集和處理的兩個組件sqoop和flume進行實例的講解，本文只對ES的架構和基本的使用進行講解

什麼是elasticsearch？

簡單的說es就是一個高擴展、開源的全文檢索和分析引擎，它可以準實時地快速存儲、搜索、分析海量的數據。他是基於Lucene進行編寫的：

而Lucene其實可以說是一個開源的全文檢索引擎工具包（類似於Java api），而Elasticsearch底層是基於這些包，對其進行了擴展，提供了比Lucene更為豐富的查詢語言，可以非常方便的通過Elasticsearch的HTTP接口與底層Lucene交互

那麼什麼是全文檢索呢？

全文檢索是指計算機索引程序通過掃描文章中的每一個詞，對每一個詞建立一個索引，指明該詞在文章中出現的次數和位置，當用戶查詢時，檢索程序就根據事先建立的索引進行查找，並將查找的結果反饋給用戶的檢索方式。這個過程類似於通過字典中的檢索字表查字的過程。全文搜索搜索引擎數據庫中的數據。

簡單來看一下標準的定義

Lucene 定義

lucene是一個開放源代碼的全文檢索引擎工具包，但它不是一個完整的全文檢索引擎，而是一個全文檢索引擎的架構，提供了完整的查詢引擎和索引引擎，部分文本分析引擎。

ElasticSearch 定義

ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎，基於RESTful web接口。Elasticsearch是用Java開發的，並作為Apache許可條款下的開放源碼發佈，是當前流行的企業級搜索引擎。設計用於雲計算中，能夠達到實時搜索，穩定，可靠，快速，安裝使用方便。

關於他們二者之間的關係前面已經說過了，就是一個ES是基於lucene進行開發的。

提到海量數據的搜索有一個solr肯定有很多人聽說過了

Solr 定義：

Solr是Apache 下的一個開源項目，使用Java基於Lucene開發的全文檢索服務是一個獨立的企業級搜索應用服務器，它對外提供類似於Web-service的API接口。用戶可以通過http請求，向搜索引擎服務器提交一定格式的XML文件，生成索引；也可以通過Http Get操作提出查找請求，並得到XML格式的返回結果。

ElasticSearch vs Solr 優缺點

ElasticSearch vs Solr 檢索速度

當單純的對已有數據進行搜索時，Solr更快。

當實時建立索引時, Solr會產生io阻塞，查詢性能較差, Elasticsearch具有明顯的優勢。

隨著數據量的增加，Solr的搜索效率會變得更低，而Elasticsearch卻沒有明顯的變化。

大型互聯網公司，實際生產環境測試，將搜索引擎從Solr轉到Elasticsearch以後的平均查詢速度有了50倍的提升。

ElasticSearch vs 關係型數據庫

可以看到ES是通過一個個的索引庫去進行海量數據的搜索的

ElasticSearch 架構

ElasticSearch 工作原理

ElasticSearch 在Hadoop生態圈的位置

在hadoop生態圈中我們把設計為三層，分別為source、data system 和app，那麼ES就是對data system通過建立各種索引及其他進行連接和搜索的使用者

在一個web數據的採集場景中，多臺web服務器，產生的數據包含日誌和其他數據通過flume進行採集後，根據不同的場景通過不同的sink分別傳輸到hadoop的存儲（hdfs）、和

ES的存儲中，hadoop的存儲和ES之間可以通過mr、hbase等進行數據的相互調用和傳輸

ElasticSearch 應用場景

1.站內搜索：主要和 Solr 競爭，屬於後起之秀

2.NoSQL Json文檔數據庫：主要搶佔 Mongo 的市場，它在讀寫性能上優於 Mongo ，同時也支持地理位置查詢，還方便地理位置和文本混合查詢。

3.監控：統計、日誌類時間序的數據存儲和分析、可視化，這方面是引領者

4.國外：Wikipedia（維基百科）使用ES提供全文搜索並高亮關鍵字、StackOverflow（IT問答網站）結合全文搜索與地理位置查詢、Github使用Elasticsearch檢索1300億行的代碼

5.國內：百度（在雲分析、網盟、預測、文庫、錢包、風控等業務上都應用了ES，單集群每天導入30TB+數據，總共每天60TB+）、新浪、阿里巴巴、騰訊等公司均有對ES的使用

分享到:

閱讀更多 全棧步道者 的文章

關鍵字: ElasticSearch Solr 海量

「大數據」（一百四十八）常用算法及數據結構之Stacks

「大數據」（一百三十六）常見算法及數據結構之Bitmap樹

大數據：瞭解Hadoop生態中Hive和HBase兄弟倆的區別

「大數據」（一百二十七）Python基礎之字符串：字符串方法

「大數據」（一百二十五）Python基礎之元組：tuple函數

「大數據」（一百二十三）Python基礎之列表：列表方法

「大數據」（一百二十一）Python基礎之序列：成員資格

「大數據」（一百二十）Python基礎之序列：乘法

「大數據」（一百一十九）Python基礎之序列：序列相加

「大數據」（一百一十七）Python基礎之字符串

「大數據」（一百一十六）Python基礎之註釋

大數據，Hadoop生態詳解

「大數據」（一百一十五）Python基礎之常用魔法函數

「大數據」（一百一十四）Python基礎知識之函數

「大數據」（一百一十三）Python基礎知識之獲取用戶輸入

「大數據」（一百一十二）Python基礎之數字和表達式

「大數據」（一百零一）常用分區工具

「大數據」（一百）磁盤分區類型及各自作用

「大數據」（九十七）Scala之文件操作

「大數據」（九十二）Scala之輔助構造器

「大數據」（八十八）Scala之數組

「大數據」（八十七）Scala之控制器和函數

「大數據」（八十六）Scala基礎

「大數據」（八十五）Spark之MLlib體驗

「大數據」（八十三）Spark之Streaming實時流

「大數據」（八十二）Spark之SparkSQL應用案例

「大數據」（八十一）Spark之SparkSQL運行架構

03.08 「大數據」（八十一）Spark之SparkSQL運行架構

「大數據」（八十）Spark之Shuffle機制

「大數據」（七十九）Spark之Lineage機制

「大數據」（七十八）Spark之通信模塊

03.03 「大數據」（七十六）Spark之工作機制

02.27 大數據：瞭解Hive和HBase的區別

02.26 「大數據」（七十）Spark之生態系統

大數據 Hadoop（中）筆記大全收藏加關注

大數據 Linux筆記大全

大數據：Yarn應用程序提交流程

大數據、Hadoop核心框架和MapReduce原理

大數據：清洗流程以及入門實例

大數據：數據清洗的定義以及數據清洗的方法

大數據、雲計算系統頂級架構師課程學習路線圖

大數據:Hbase的知識大全都在這裡

大數據：基於zookeeper協調的分布式日誌系統Kafka的文件存儲機制

大數據、機器學習和深度學習類命令行工具

大數據，Java丶Python丶Web前端等300G的學習資料無償分享！

大數據——MapReduce

大數據-hadoop生態系統及版本演化