Elasticsearch 6.x 的基本概念及特点_技术 _ 頭條網

每一个成功人士的背后，必定曾经做出过勇敢而又孤独的决定。

放弃不难，但坚持很酷~

本章节主要是对 Elasticsearch 的入门讲解篇，包括 Elasticsearch 是做什么的，有什么特点，优秀使用案例，还有和 Mysql 等关系型数据库的对比等进行了一定的讲解。

本文以 Elasticsearch 6.4.0 的角度来讲解其基本概念。

一、简介

Lucene：简单来说，就是一个 jar 包，里面包含了封装好的各种建立倒排索引，以及进行搜索的代码，包含各种算法，我们用java开发的时候，引入 lucene.jar 就可以进行开发了。

ElasticSearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于 RESTful web 接口。ElasticSearch 是用 Java 开发的，并作为 Apache 许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到近实时搜索，稳定，可靠，快速，安装使用方便。

Elasticsearch 有如下几个特点：

分布式存储，每个字段都被索引并可被搜索

分布式的近实时分析搜索引擎

可以扩展到上百台服务器，处理 PB 级结构化或非结构化数据

二、ES国内外使用优秀案例

1） 2013 年初，GitHub 抛弃了 Solr，采取 ElasticSearch 来做 PB 级的搜索。“GitHub 使用 ElasticSearch 搜索 20TB 的数据，包括 13 亿文件和 1300 亿行代码”。

2）维基百科：启动以 Elasticsearch 为基础的核心搜索架构。

3）SoundCloud：“SoundCloud 使用 ElasticSearch 为 1.8 亿用户提供即时而精准的音乐搜索服务”。

4）百度：百度目前广泛使用 ElasticSearch 作为文本数据分析，采集百度所有服务器上的各类指标数据及用户自定义数据，通过对各种数据进行多维分析展示，辅助定位分析实例异常或业务层面异常。目前覆盖百度内部 20 多个业务线（包括 casio 、云分析、网盟、预测、文库、直达号、钱包、风控等），单集群最大 100 台机器，200 个 Elasticsearch 节点，每天导入 30 TB+数据。

5) 淘宝等电商网站，新闻网站，OA 办公系统等。

三、基本概念

参考官方文档：

https://www.elastic.co/guide/en/elasticsearch/reference/6.4/getting-started-concepts.html

1. 节点(Node) 和集群(Cluster)

集群是一个或多个 Elasticsearch 节点（服务器）的集合，这些节点共同保存整个数据，并在所有节点上提供联合索引和搜索功能。一个集群由一个唯一集群 ID 确定，并指定一个集群名（默认为 “elasticsearch” ）。该集群名非常重要，因为节点可以通过这个集群名加入集群，一个节点是集群的一部分。

2. Index(索引)

索引是具有相似特征的文档的集合。例如，您可以为客户数据创建索引，为产品目录创建另一个索引，为订单数据创建另一个索引。索引由名称标识（必须全为小写，不能以下划线开头，不能包含逗号）。

在一个 Elasticsearch 集群中，您可以定义任意数量的索引。

3. Type(类型)

在 Elasticsearch 6.0.0 或更高版本中创建的索引只能包含一个映射类型。类型将在 Elasticsearch 7.0.0 中的 API 中弃用，并在 8.0.0 中完全删除。

详情可参考：

https://www.elastic.co/guide/en/elasticsearch/reference/6.4/removal-of-types.html#_why_are_mapping_types_being_removed

4. Document(文档)

文件是可以建立索引的基本信息单位，以 json 表示。你可以用其来定义单个产品信息或是员工信息。我们可以把文档理解为 Mysql 表中的行级数据。在 Index(索引) 中，您可以存储大量文档。文档中有几个公共不可或缺的属性，分别为 _index、_type、_id、_source。

_index：表示所在的 index 名。

_type：在 6.x 版本只能指定一个类型，在 6.4.0 版本中默认为 “doc”。

_id：文档的唯一标识，类似于 Mysql 数据库的主键 id 。

_source：文档数据以 json 的形式保存在该字段内。

针对特定一个或一类文档进行操作时，必须指定这些属性。

5. Mapping(映射)

模式映射（schema mapping，或简称为映射）用于定义 Index(索引) 的元数据，指定要索引并存储文档的字段类型。Elasticsearch 在 Mapping 中存储有关字段的信息。Mapping 在文件中以 json 表示。

6. Field(字段)

Elasticsearch 里最小单元，相当于 Mysql 表的某个字段，类似于 json 里一个键。

7、Shards(分片)

索引可能会存储大量数据，这些数据可能超过单个节点的硬件限制。例如，十亿个文档的单个索引占用了 1 TB的磁盘空间，可能不适合单个节点的磁盘，或者可能太慢而无法单独满足来自单个节点的搜索请求。

为了解决此问题，Elasticsearch 提供了 Shards(分片) 的概念。每个 Shards(分片) 本身就是一个功能齐全且独立的 Lucene “索引”，可以存储在 Elasticsearch 集群中的任何节点上，这就是分布式存储。

分片的好处？

当你查询的索引分布在多个分片上时，Elasticsearch 会把查询发送给每个相关的分片，并将结果合并在一起。所以，多个分片可以加快查询，提高吞吐量。

通过将分片放在不同节点，可以存储超过单节点容量的数据。

8、Replica(副本)

当集群某节点宕机了，为了防止数据丢失，Elasticsearch 还提供了 Replica(副本) 概念。副本分片(Replica Shards)是一个分片的精确复制，每个分片可以有零个或多个副本。换句话说，Elasticsearch 可以有许多相同的分片，其中之一被自动选择去更改索引操作，这种特殊的分片称为主分片（primary shards），其余称为副本分片（replica shards）。在主分片丢失时，例如该分片数据所在服务器不可用，集群则将副本分片提升为新的主分片。

Replica(副本)的好处：

提供高可用性。当主分片节点故障时，可升级一个副本分片为新的主分片来应对节点故障。需要特别说明的是：副本分片(Replica Shards) 永远不会与主分片(primary Shards) 分配在同一节点上。

由于每个 Shards(分片) 本身就是一个功能齐全且独立的 Lucene “索引”，所以也可以在所有的副本分片(Replica Shards)上并行执行搜索，从而加快 Elasticsearch 查询，提高吞吐量。

增加副本分片，可以将数据存储到更多节点上，更好地处理并发请求。

可以在创建 索引(Index)时定义主分片(Primary Shards)和副本分片(Replica Shards)的数量。创建索引后，您还可以动态更改副本数，但要更改分片数就不那么轻松了。因此，预先规划正确的分片数量是最佳方法。

默认情况下，Elasticsearch 中的每个索引分配有 5 个主分片和 1 个副本分片，这意味着如果集群中至少有两个节点，则索引将具有 5 个主分片和另外 5 个副本分片（1个完整副本），总计每个索引 10 个分片。

四、关系型数据库和ElasticSearch中的对应关系

在 6.4.x 的官方文档中表示，“ 索引 ”类似于SQL数据库中的“ 数据库 ”，而“ 类型 ”等同于 “ 表 ”，这是一个不好的类比。但为了方便理解，其它概念还是有一些对应关系的。如下表所示：

<table><thead>关系型数据库Elasticsearch/<thead><tbody>数据行 Row文档 Document，但不需要固定结构，不同文档可以具有不同字段集合模式 Schema映射 Mapping数据列 Column字段 Field/<tbody>/<table>

欢迎大家留言讨论

ElasticSearch 基本概念与操作

Elasticsearch 清空index数据的方法

Elasticsearch

Elasticsearch 优化

Elasticsearch Nested类型深入详解

Python Elasticsearch DSL 搜索

Python Elasticsearch DSL 的使用

Elasticsearch Dynamic Mapping动态映射策略-动态模板

SpringData Elasticsearch、Elasticsearch、Spring Boot

ElasticSearch & Kibana版本选择与安装

Elasticsearch Dynamic Mapping动态映射策略-Part 2

Elasticsearch dynamic mapping动态映射策略

Elasticsearch：将mysql数据导入到Elasticsearch中

Elasticsearch(docker)环境搭建

一、简介

二、ES国内外使用优秀案例

三、基本概念

1. 节点(Node) 和 集群(Cluster)

2. Index(索引)

3. Type(类型)

4. Document(文档)

5. Mapping(映射)

6. Field(字段)

7、Shards(分片)

8、Replica(副本)

四、关系型数据库和ElasticSearch中的对应关系

相關文章:

ElasticSearch 基本概念与操作

Elasticsearch 清空index数据的方法

Elasticsearch

Elasticsearch 优化

Elasticsearch Nested类型深入详解

Python Elasticsearch DSL 搜索

Python Elasticsearch DSL 的使用

Elasticsearch Dynamic Mapping动态映射策略-动态模板

SpringData Elasticsearch、Elasticsearch、Spring Boot

ElasticSearch & Kibana版本选择与安装

Elasticsearch Dynamic Mapping动态映射策略-Part 2

Elasticsearch dynamic mapping动态映射策略

Elasticsearch：将mysql数据导入到Elasticsearch中

Elasticsearch(docker)环境搭建

ElasticSearch-hard插件及IK分词器安装

一篇就懂 Elasticsearch

03.04 一篇就懂 Elasticsearch

02.28 ElasticSearch 介绍及使用方法

02.26 elasticsearch 操作报错只读 read-only

Elasticsearch 中映射参数doc

Elasticsearch 与传统数据库到底有什么不同

Elasticsearch：一个索引只能包含一个映射类型

ElasticSearch 倒排索引简析

Elasticsearch 开箱指南

Elasticsearch JAVA API ---索引api（二）

Elasticsearch JAVA API ---Springboot2.x中配置使用（一）

Elasticsearch 索引分片与副本设置技巧

Spring Boot (4) 整合 Elasticsearch

12.22 Elasticsearch Java 客户端

12.05 ElasticSearch 最全详细使用教程

12.04 为什么需要 Elasticsearch？

ElasticSearch QueryCache漫谈

Elasticsearch 漫谈

ElasticSearch Rest

Elasticsearch 亿级数据检索性能优化案例实战

Flink 实时写入数据到 ElasticSearch 性能调优

Elasticsearch 7.3.2 发布，分布式搜索和数

Elasticsearch 7.x Nested 嵌套类型查询

Elasticsearch、MongoDB和Hadoop比较

Elasticsearch—基础介绍及索引原理分析

ElasticSearch 集群搭建

SpringBoot+Elasticsearch

听说你还没掌握 ElasticSearch Normalizer 的使用方法？

elasticsearch-php安装

elasticsearch-6.3.2 安装（三）安装ik中文分词（ik+pinyin）

Elasticsearch SQL

elasticsearch 单机多节点配置

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

1. 节点(Node) 和集群(Cluster)

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪