ElasticSearch 分詞器，瞭解一下

2021-03-24 12:29:04 佚名

這篇文章主要來介紹下什麼是 Analysis ，什麼是分詞器，以及 ElasticSearch 自帶的分詞器是怎麼工作的，最後會介紹下中文分詞是怎麼做的。

首先來說下什麼是 Analysis：

什麼是 Analysis？

顧名思義，文本分析就是把全文本轉換成一系列單詞（term/token）的過程，也叫分詞。在 ES 中，Analysis 是通過分詞器（Analyzer） 來實現的，可使用 ES 內置的分析器或者按需定製化分析器。

舉一個分詞簡單的例子：比如你輸入 Mastering Elasticsearch，會自動幫你分成兩個單詞，一個是 mastering，另一個是 elasticsearch，可以看出單詞也被轉化成了小寫的。

再簡單瞭解了 Analysis 與 Analyzer 之後，讓我們來看下分詞器的組成：

分詞器的組成

分詞器是專門處理分詞的組件，分詞器由以下三部分組成：

Character Filters：針對原始文本處理，比如去除 html 標籤
Tokenizer：按照規則切分為單詞，比如按照空格切分
Token Filters：將切分的單詞進行加工，比如大寫轉小寫，刪除 stopwords，增加同義語

分詞器的組成

同時 Analyzer 三個部分也是有順序的，從圖中可以看出，從上到下依次經過 Character Filters，Tokenizer 以及 Token Filters，這個順序比較好理解，一個文本進來肯定要先對文本數據進行處理，再去分詞，最後對分詞的結果進行過濾。

其中，ES 內置了許多分詞器：

Standard Analyzer - 默認分詞器，按詞切分，小寫處理
Simple Analyzer - 按照非字母切分（符號被過濾），小寫處理
Stop Analyzer - 小寫處理，停用詞過濾（the ，a，is）
Whitespace Analyzer - 按照空格切分，不轉小寫
Keyword Analyzer - 不分詞，直接將輸入當做輸出
Pattern Analyzer - 正則表達式，默認 \W+

Language - 提供了 30 多種常見語言的分詞器
Customer Analyzer - 自定義分詞器

接下來會對以上分詞器進行講解，在講解之前先來看下很有用的 API：_analyzer API：

Analyzer API

它可以通過以下三種方式來查看分詞器是怎麼樣工作的：

直接指定 Analyzer 進行測試

<code>GET _analyze
{
    "analyzer"
: "standard",
    "text"
 : "Mastering Elasticsearch , elasticsearch in Action"
}
/<code>

指定索引的字段進行測試

<code>POST books/_analyze
{
    "field"
: "title" 
,
    "text"
: "Mastering Elasticesearch"
}
/<code>

自定義分詞進行測試

<code>POST /_analyze
{
    "tokenizer"
: "standard", 
    "filter"
: ["lowercase"],
    "text"
: "Mastering Elasticesearch"
}
/<code>

再瞭解了 Analyzer API 後，讓我們一起看下 ES 內置的分詞器：

ES 分詞器

首先來介紹下 Stamdard Analyzer 分詞器：

Stamdard Analyzer

它是 ES 默認的分詞器，它會對輸入的文本按詞的方式進行切分，切分好以後會進行轉小寫處理，默認的 stopwords 是關閉的。

下面使用 Kibana 看一下它是怎麼樣進行工作的，在 Kibana 的開發工具（Dev Tools）中指定 Analyzer 為 standard，並輸入文本 In 2020, Java is the best language in the world.，然後我們運行一下：

<code>GET _analyze
{
  "analyzer"
: "standard",
  "text"
: "In 2020, Java is the best language in the world."
}
/<code>

運行結果如下：

<code>{

"tokens"

: [ {

"token"

"in"

"start_offset"

"end_offset"

"type"

"position"

}, {

"token"

"2020"

"start_offset"

"end_offset"

"type"

"position"

}, {

"token"

"java"

"start_offset"

"end_offset"

"type"

"position"

}, {

"token"

"is"

"start_offset"

"end_offset"

"type"

"position"

}, {

"token"

"the"

"start_offset"

"end_offset"

"type"

"position"

}, {

"token"

"best"

"start_offset"

"end_offset"

"type"

"position"

}, {

"token"

"language"

"start_offset"

"end_offset"

"type"

"position"

}, {

"token"

"in"

"start_offset"

"end_offset"

"type"

"position"

}, {

"token"

"the"

"start_offset"

"end_offset"

"type"

"position"

}, {

"token"

"world"

"start_offset"

"end_offset"

"type"

"position"

} ] } /<code>

可以看出是按照空格、非字母的方式對輸入的文本進行了轉換，比如對 Java 做了轉小寫，對一些停用詞也沒有去掉，比如 in。

其中 token 為分詞結果；start_offset 為起始偏移；end_offset 為結束偏移；position 為分詞位置。

下面來看下 Simple Analyzer 分詞器：

Simple Analyzer

它只包括了 Lower Case 的 Tokenizer，它會按照非字母切分，非字母的會被去除，最後對切分好的做轉小寫處理，然後接著用剛才的輸入文本，分詞器換成 simple 來進行分詞，運行結果如下：

<code>{

"tokens"

: [ {

"token"

"in"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"java"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"is"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"the"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"best"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"language"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"in"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"the"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"world"

"start_offset"

"end_offset"

"type"

"word"

"position"

} ] } /<code>

從結果中可以看出，數字 2020 被去除掉了，說明非字母的的確會被去除，所有的詞也都做了小寫轉換。

現在，我們來看下 Whitespace Analyzer 分詞器：

Whitespace Analyzer

它非常簡單，根據名稱也可以看出是按照空格進行切分的，下面我們來看下它是怎麼樣工作的：

<code>{

"tokens"

: [ {

"token"

"In"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"2020,"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"Java"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"is"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"the"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"best"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"language"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"in"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"the"

"start_offset"

"end_offset"

"type"

"word"

"position"

}, {

"token"

"world."

"start_offset"

"end_offset"

"type"

"word"

"position"

} ] } /<code>

可以看出，只是按照空格進行切分，2020 數字還是在的，Java 的首字母還是大寫的，, 還是保留的。

接下來看 Stop Analyzer 分詞器：

Stop Analyzer

它由 Lowe Case 的 Tokenizer 和 Stop 的 Token Filters 組成的，相較於剛才提到的 Simple Analyzer，多了 stop 過濾，stop 就是會把 the，a，is 等修飾詞去除，同樣讓我們看下運行結果：

<code>{
  "tokens" : [
    {
      "token"
 : "java",
      "start_offset"
 : 9,
      "end_offset"
 : 13,
      "type"
 : "word",
      "position"
 : 1
    },
    {
      "token"
 : "best",
      "start_offset"
 : 21,
      "end_offset"
 : 25,
      "type"
 : "word",
      "position" 
 : 4
    },
    {
      "token"
 : "language",
      "start_offset"
 : 26,
      "end_offset"
 : 34,
      "type"
 : "word",
      "position"
 : 5
    },
    {
      "token"
 : "world",
      "start_offset"
 : 42,
      "end_offset"
 : 47,
      "type"
 : "word",
      "position"
 : 8
    }
  ]
}
/<code>

可以看到 in is the 等詞都被 stop filter過濾掉了。

接下來看下 Keyword Analyzer：

Keyword Analyzer

它其實不做分詞處理，只是將輸入作為 Term 輸出，我們來看下運行結果：

<code>{
  "tokens" : [
    {
      "token"
 : "In 2020, Java is the best language in the world.",
      "start_offset"
 : 0,
      "end_offset"
 : 48 
,
      "type"
 : "word",
      "position"
 : 0
    }
  ]
}
/<code>

我們可以看到，沒有對輸入文本進行分詞，而是直接作為 Term 輸出了。

接下來看下 Pattern Analyzer：

Pattern Analyzer

它可以通過正則表達式的方式進行分詞，默認是用 \W+ 進行分割的，也就是非字母的符合進行切分的，由於運行結果和 Stamdard Analyzer 一樣，就不展示了。

Language Analyzer

ES 為不同國家語言的輸入提供了 Language Analyzer 分詞器，在裡面可以指定不同的語言，我們用 english 進行分詞看下：

<code>{
  "tokens" : [
    {
      "token"
 : "2020",
      "start_offset"
 : 3,
      "end_offset"
 : 7,
      "type"
 : "",
      "position"
 : 1
    },
    {
      "token"
 : "java",
      "start_offset"
 : 9,
      "end_offset"
 :  
13,
      "type"
 : "",
      "position"
 : 2
    },
    {
      "token"
 : "best",
      "start_offset"
 : 21,
      "end_offset"
 : 25,
      "type"
 : "",
      "position"
 : 5
    },
    {
      "token"
 : "languag",
      "start_offset"
 : 26,
      "end_offset"
 : 34,
      "type"
 : "",
      "position"
 : 6
    },
    {
       
"token"
 : "world",
      "start_offset"
 : 42,
      "end_offset"
 : 47,
      "type"
 : "",
      "position"
 : 9
    }
  ]
}
/<code>

可以看出 language 被改成了 languag，同時它也是有 stop 過濾器的，比如 in,is 等詞也被去除了。

最後，讓我們看下中文分詞：

中文分詞

中文分詞有特定的難點，不像英文，單詞有自然的空格作為分隔，在中文句子中，不能簡單地切分成一個個的字，而是需要分成有含義的詞，但是在不同的上下文，是有不同的理解的。

比如以下例子：

<code>在這些，企業中，國有，企業，有十個/在這些，企業，中國，有企業，有十個
各國，有，企業，相繼，倒閉/各，國有，企業，相繼，倒閉
羽毛球，拍賣，完了/羽毛球拍，賣，完了
/<code>

那麼，讓我們來看下 ICU Analyzer 分詞器，它提供了 Unicode 的支持，更好的支持亞洲語言！

我們先用 standard 來分詞，以便於和 ICU 進行對比。

<code>GET _analyze
{
  "analyzer"
: "standard",
  "text"
: "各國有企業相繼倒閉"
}
/<code>

運行結果就不展示了，分詞是一個字一個字切分的，明顯效果不是很好，接下來用 ICU 進行分詞，分詞結果如下：

<code>{
  "tokens" : [
    {
      "token"
 : "各國",
      "start_offset"
 : 0,
      "end_offset"
 : 2,
      "type"
 : "",
      "position"
 : 0
    },
    {
       
"token"
 : "有",
      "start_offset"
 : 2,
      "end_offset"
 : 3,
      "type"
 : "",
      "position"
 : 1
    },
    {
      "token"
 : "企業",
      "start_offset"
 : 3,
      "end_offset"
 : 5,
      "type"
 : "",
      "position"
 : 2
    },
    {
      "token"
 : "相繼",
      "start_offset"
 : 5,
      "end_offset"
 :  
7,
      "type"
 : "",
      "position"
 : 3
    },
    {
      "token"
 : "倒閉",
      "start_offset"
 : 7,
      "end_offset"
 : 9,
      "type"
 : "",
      "position"
 : 4
    }
  ]
}
/<code>

可以看到分成了各國，有，企業，相繼，倒閉，顯然比剛才的效果好了很多。

還有許多中文分詞器，在這裡列舉幾個：

IK：

支持自定義詞庫，支持熱更新分詞字典
https://github.com/medcl/elasticsearch-analysis-ik

jieba：

Python 中最流行的分詞系統，支持分詞和詞性標註
支持繁體分詞、自定義詞典、並行分詞等
https://github.com/sing1ee/elasticsearch-jieba-plugin

THULAC：

THU Lexucal Analyzer for Chinese, 清華大學自然語言處理和社會人文計算實驗室的一套中文分詞器
https://github.com/thunlp/THULAC-Java

大家可以自己安裝下，看下它中文分詞效果。

總結

本文主要介紹了 ElasticSearch 自帶的分詞器，學習了使用 _analyzer API 去查看它的分詞情況，最後還介紹下中文分詞是怎麼做的。

參考文獻

Elasticsearch頂尖高手系列

Elasticsearch核心技術與實戰

分享到:

關鍵字: end 相繼 word

Elasticsearch-單機部署避坑指南

Elasticsearch+Kibana+Log-Pilot收集 kubernetes和業務日誌

Elasticsearch WildcardQuery 檢索總結

圖文教程帶您瞭解 Elasticsearch 中，如何進行索引管理

乾貨 | Elasticsearch 索引設計實戰指南

5分鐘掌握Elasticsearch的BBox查詢

瞭解“茶黃素”

【瞭解】孔家鈞窯作品

絕佳的充電時間：自我隔離時何不探索這些數據科學技術

Elasticsearch集群工作原理

從零開始的Spring Cloud實戰日記- 技術選型

通過ELKB實現分佈式實時日誌的幾種架構

Elasticsearch Java API操作（增刪改查，索引創建）

瞭解《中華人民共和國外國人永久居留管理條例（徵求意見稿）》

一文搞懂 Elasticsearch 之 Mapping

Elasticsearch 之聚合分析入門

看完這篇還不會 Elasticsearch 搜索，那我就哭了

elasticsearch 組合查詢

讓容器擁有固定IP

Elasticsearch 踩坑，小 Tips

Elasticsearch 官方說明：支持哪些查詢 DSL？

Elasticsearch Mapping 的字段類型簡介

基於Elasticsearch源碼編譯調試「7.7.0」

Elasticsearch之Alias別名經典應用場景

Nutch-MongoDB-ElasticSearch搭建搜索引擎

Uber 不使用 Elasticsearch，自己造了個輪子

自定義Spark Partitioner提升es-hadoop Bulk效率

Elasticsearch(GEO)數據寫入和空間檢索

道瓊斯高風險客戶觀察名單遭洩露，數量高達240萬條記錄！

Graylog日誌管理

Elasticsearch-datatran v6.1.0發佈，Elasticsearch數據同步工具

ElasticSearch 開發人員最佳實戰指南

Elasticsearch實戰 | 如何從數千萬手機號中識別出情侶號？

居家隔離只能遛狗？不，快來探索一下這些數據科學技術

數起簡歷信息洩露事件曝光——涉及中國企業的5.9億份簡歷

經歷多次面試後,來自美團面試官給我的建議（附:java崗經驗分享）

圍觀：基於事件機制的內部解耦之心路歷程

這是什麼神仙面試寶典？半月看完25大專題，居然斬獲阿里P7offer

Elastic Stack個人系列整理「2020-05-07更新」

手把手教你如何快速搭建 ELK 實時日誌分析平臺

Elasticsearch集群規模和性能調優

基於Spring Boot技術棧的博客系統企業級實戰教程分享

清華大學到底有多難考入？瞭解

ElasticSearch 是什麼

瞭解清明節

ELK環境部署

一張圖快速瞭解榮耀V20

螃蟹:大招秒滿血瞭解下[摳鼻]

IBM340億美金的收購，來了解一下。

皮一下我是認真的。你了解嗎？金華·橫店影視城

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

記者從河北省公安廳獲悉，日前公安部通緝的13名A級通緝犯中的2號通緝犯魯某某近日向河北邯鄲警方投案自首，這是公安部A級通緝令後又一通緝犯主動投案。

當我們在談 SaaS 的時候，在談什麼？

當我們在談SaaS 的時候，在談什麼？什麼是 SaaSSaaS 優缺點SaaS 銷售模式SaaS 產品指標SaaS 業務指標SaaS 收入計算一、什麼是 SaaS這個模式讓軟件變得和水電氣很相似，只需要每月繳納固定的費用即可享受服務。

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

現階段，隨著國家供給側結構性改革的不斷深入，人們在市場中的互易行為日益頻繁，合同在經濟活動發揮的作用也日漸凸顯。

5月西安招聘會時間安排來了！找工作的別錯過

乘車路線:西安市內乘坐12路、14路、14路區間、26路、215路、215路區間、216路、224路、229路、239路、31路、36路、321路、323路、521路、600路、603路、616路、701路、704路、709路、教育專線、K605路、K616路、遊6路、遊8路61

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

剛剛:剛剛工作的畢業生，一個月只有2000多，是不是太少了？根據你城市消費水平來看啊，還有你從事的工作，假如你在二三線城市做一份事業單位或者是編制類的工作，薪資水平是隨著你工作年限逐年增長的，而且在年終也有很多福利補貼待遇等等，算下來收入也是可觀的，再舉一個例:-畢業生 2000

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

基於以太坊區塊鏈的主要穩定幣包括：Tether、TrueUSD、GeminiDollar、Paxos Standard、Binance USD、USD Coin、Huobi USD和MakerDAO等。

“幫助當地居民解決用水難題”-今日頭條-手機光明網

晨曦初露，9歲的米格爾和弟弟妹妹們抱著水罐，穿過一片田野，到達安哥拉首都羅安達郊區的指定取水點。葛洲壩安哥拉有限公司市場部負責人劉世軒介紹說，公司每天派出送水車兩次，一次3車，將潔淨水從羅安達水廠直接運往指定取水點。

灌籃高手無水印壁紙，每一張都是回憶

那些年，我們追過的灌籃高手，你更喜歡誰呢？流川楓櫻木花道赤木剛憲宮城良田三井壽你喜歡哪個球員呢？歡迎評論區留言。

通遼藍天救援隊成功解救遼河公園水上被困群眾

2020年5月1日，通遼藍天救援隊假期例行在遼河公園水域進行安全巡邏任務，下午15時10分，巡邏隊員發現遼河水面有被困群眾向巡邏船隻求救，接到求救信號後，巡邏隊員緊急前往事故現場展開研判、救援準備工作。

5月6日·武漢要聞及抗擊肺炎快報

今天零時起高速公路恢復收費了，這些車輛還能免費5月6日零時起全國高速公路恢復收費在武漢北收費站ETC和人工車道全部可通行零時左右通過收費站的車輛並不多以大貨車為主有工作人員在一旁引導貨車進入高速收費站前要通過入口稱重檢測車道進入沒有超重超限便可順利通過現場沒有出現排隊的現象全省聯

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

2020年4月29日下午，肖副省長等省市領導來到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作，肖副省長等省市領導在學校領導陪同下，重點對校門口出入、保健室、教室、學生心理輔導室、洗手池等進行了非常細緻的檢查，對孝感市楚澴中學的復學和疫情防控工作給予充分的肯定。

相聲界的顏值擔當張雲雷稱號大揭祕

這個播放量就連師傅身為相聲演員的張雲雷卻有著堪比娛樂圈小鮮肉的顏值，一個相聲演員長成這樣，張雲雷不火誰能火。

美國百年薅羊毛攻略

當德國向法軍陣地傾洩400多萬發炮彈，揚言要讓凡爾登成為「碾碎法軍的絞肉機」時，遠在大西洋的美國人。

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

近日，由楊洋、江疏影主演的劇版《全職高手》在騰訊視頻正式開播了，該劇改編自蝴蝶藍同名小說，先前還被改編成動畫版。

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

前言：IG這隻老牌戰隊在我們LPL賽區以來都擁有著非常高的人氣，特別是在2018年之後，他們幫助我們LPL賽區奪得了第一個寶貴的S賽世界冠軍，而IG戰隊的打法一直以來也是非常有觀賞性的。

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

Doinb表示："可以的話我不想參加，首先這場比賽沒有任何意義，獲得勝利既不會有獎金也不會有榮譽，但萬一輸掉比賽FPX就會成為大家吐槽的焦點"。

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

大家都知道天后王菲和前夫李亞鵬他們育有一個女兒，名叫李嫣。於是李嫣因為偷偷的開了直播從而也導致了她被大家所發現，但李嫣的樂觀和開朗卻也讓李亞鵬放下心來，決定放飛女兒，讓她自由的去探索她想要的世界。

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

天王郭富城近日參加活動，首度承認妻子方媛懷有二胎的消息。從去年2017年兩人結婚，低調的愛情讓媒體都捕捉不到邊際，天王嫂31歲兩人相差了20歲的愛戀，始終不少人不看好啊。

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

演員在我們眼中一直都是光鮮亮麗、收入頗高的職業，並且現在有很多靠流量躋身一線，卻毫無演技以及實力的演員。

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

曾經賈乃亮是“陽光”的代名詞，大家看到他都覺得很暖，只不過後來就不是了。今天早上，他發了一條微博“人生的美好就是每天醒來都能看到上帝賜予我的那一米陽光”，這句話當中，賈乃亮用到了“一米陽光”這個詞。

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

當一名理髮師也不容易這是一隻有航天夢想的老鼠寶寶！什麼？這麼貴！把我賣了得了。小朋友，你贏了，我甘拜下風！

為什麼只有edg賺錢？

電競行業作為一個新興產業，這幾年發展勢頭越來越好，IG戰隊，FPX戰隊先後奪得了s8-s9世界賽的冠軍，據俱樂部知情人士透露，除了國內的幾家豪門俱樂部之外，其他俱樂部基本都是虧錢在做的，當然EDG也是:-edg 賺錢:為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

程瀟可謂是才女，她是中韓宇宙少女的成員之一，今年她只有20歲。不要看程瀟年紀比較小，但是她身材還是挺好的，身材也是典型S型曲線，魅力不小。

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

張柏芝是許多80後90後心目中的女神，除了顏值高有演技外，她和謝霆鋒的婚姻和戀情也曾是吃瓜群眾津津樂道的事。

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

前言：目前各大賽區的春季賽都已經結束了，T1戰隊在重組之後再度拿下了lck賽區的冠軍，這讓很多的玩家非常意外，這也從側面反映出來了，核心選手和主教練的個人能力，同時faker的實力再度被玩家們認可，最近一段時間他也是一直在直播，很多的人都在詢問，今年李哥的目標是什麼？

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

上線之後迅速引發了大量玩家的好評，就在最近，官方也是迎來了10.9版本，可是在目前的版本中再度出現了太多的畸形玩法了，應該是有史以來最不平衡的版本，因為一費卡的爆率大大提升，導致遊戲成為了三星的天下，全員搶一費卡，運氣成為吃雞的關鍵。

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

在本期節目中會評選出一位最美麗LPL女解說，其中瞳夕、Rita、餘霜等都在名單之中，最有趣的是管澤元居然也出現在了“女解說”名單中，全因餘霜一張P過的照片，論梗的話，管澤元第一，若是輪顏值，估計這也排不上名次。

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

不過要是像唐嫣和羅晉那樣用公費談戀愛的故事不多，大多數還是和不是心愛的人拍得多，但要是遇上岳雲鵬和佟麗婭拍親熱戲的話，那個畫面或許大家想象不出來吧。

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

LPL賽區的春季賽結束也有一段時間了，作為冠軍戰隊JDG，並沒有因為拿到冠軍而出現“人氣”的高漲，依舊平平淡淡，熟悉LPL賽區的玩家都知道，在LPL賽區中，一直以來都是由RNG、IG、EDG三家從“遠古”時期就開始統治LPL賽區，期間也有OMG和LGD、WE幾個戰隊打破了這個規律

#戰疫必勝#“症和狀”都有了，我與新冠擦肩而過

學習結束，回到家後，在武大短暫學習的那段時光時常讓我懷念，並曾立下誓言，抽個暑假一定要帶著老婆孩子一起去“逛”武大。機會就這麼悄然而至！2019年第28屆世界腦力錦標賽全球總決賽的舉辦地就是武漢，比賽的日期是12月6日到8日，三天的時間。其實，我也沒有想到第一次參加這樣比賽的女兒

T1提議中韓友誼賽，但LPL隊伍都不想參加？理由其實很簡單

這不今天就有網友在論壇中聊起了這個話題，有網友表示“LPL隊伍其實都不想參加中韓友誼賽，LPL隊伍才剛結束春季賽，18天之後就要打夏季賽了，像IG可能會有人員變動FPX TES 應該也會利用這段時間來檢討分析，也許只有JDG 比較願意參加，doinb只是第一表態的選手，可能還有很

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽

網友投稿：光山縣潑陂河鎮至白雀園鎮的X015縣道德兩座壞橋經過5個月的等待終於開修啦#光山 #信陽，於2020年04月28日上線，由信陽本地聯盟上傳。西瓜視頻為您提供高清視頻，畫面清晰、播放流暢，看豐富、高質量視頻就上西瓜視頻。

2020最佳韓劇追起來~《愛的迫降》僅排名第二，TOP 1絕對實至名歸

TOP20 - 「優雅的家」這部由林秀香、李章宇、裴宗玉等人所主演的《優雅的家》，當時一播出就引起不少話題，雖然劇情有點浮誇，但卻莫名好看，而當時該劇還刷新了MBN電視臺的記錄呢~《優雅的家》主要講述一位擁有完美外貌和身材的MC集團獨生女毛碩熙，為了查明15年母親去世的真相，因此

搞笑GIF開心一刻：我正在睡覺，誰敢打擾我

我這暴脾氣，等你剝完我能吃五個你帶著你家貓去做演員吧！這貓太有前途了！這是我見過最牛的啦啦隊！自從有了弟弟，老大就和家務結緣了狼狗：要不是主人在，我非吃了你兩個小子！

備考消防的幾大錯覺，你有這個情況嗎？

講真，很多時候我們會把事情想當然，並因為這些錯覺而採取錯誤的舉動，一消備考是一場毅力和心智的戰鬥，大家難免會產生一些錯覺，從而影響自己的備考效率，甚至導致備考失敗。

“頂流”李敏鎬啞火，渣男出軌劇出圈，韓劇觀眾也長大了？

豆瓣開分8.3，漸漸跌到7.7分，熱門短評寫道：“同樣是金編，差距怎麼這麼大”、“看了四集節奏真的是一團糟，比起隔壁《夫妻的世界》真的差一大截”。

網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？

20000:網上羅馬仕充電寶20000毫安的，參數怎麼很多樣？哪個是真的？天貓旗艦店，或者淘寶旗艦店，或者京東旗艦店肯定包真，質量好，再說可以官方驗證啊，不能圖那十塊五塊的便宜，畢竟一個充電寶要用好久呢，一兩年沒問題的。:-羅馬仕馬仕毫安

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患

隨著“五一”期間氣溫大幅回升全國大部分地區已經進入初夏在享受小長假春日美景的同時森林火險等級也隨之明顯提升新疆森林消防提示您春季氣溫回升快野外草木乾燥你的一個失當用火行為就有可能引發森林大火勿念蔥林繁似海一星燃盡只塵埃

搞笑GIF開心一刻：拍照啦，趕緊看鏡頭

弟弟：姐姐你能利索點嗎家裡有個熊孩子，說實話心很累同學感覺你好可伶，一個人跳舞多尷尬啊！看我病好了怎麼收拾你們！真的是以迅雷不及掩耳之勢啊。姑涼，你……掉毛啊！小姐姐你是想找男朋友嗎用這樣的方式，結局很意外此處注意安全！

工程發承包、工程造價條款，或迎來大調整

第二章建設規劃與設計第一節建設規劃第八條建設規劃的體系第九條建設規劃的編制與審批第十條建設規劃的內容第十一條建設規劃的實施與評估第二節城市設計第十二條城市設計的基本要求第十三條城市設計的編制和審批第十四條城市設計的實施和管理第三節建築設計第十五條建築設計的基

新增四省！關於2019年一級建造師考試證書、複核發佈公告

快來看看吧~青海關於恢復專業技術人員職業資格證書的發放、補辦工作的通知各位考生：隨著疫情防控進入常態化，青海省新冠疫情得到有效控制，專業技術人員職業資格證書的印製、發放工作正在逐步恢復，為方便廣大考生辦理證書業務，4月28日起青海省人力資源和社會保障服務中心一樓大廳65、66號辦

學霸也會復讀？朱廣權這個圈粉無數的國民段子手是如何煉成的！

“煙籠寒水月籠沙，不止東湖與櫻花，門前風景雨來佳，蓮藕魚糕玉露茶，鳳爪藕帶熱乾麵，米酒香菇小龍蝦，守住金蓮不自誇，趕緊下單買回家，買它買它就買它，熱乾麵和小龍蝦。”

幸福的人，總會忘記舊愛

幸福從來不可能是有個人幫你搞定所有的一切，而你只需要坐享其成。她喜歡喝銀耳蓮子羹而且必須是上好的銀耳，用小火慢慢燉到砧稠那一日，他去看她，她冷冷地從屋裡走出來，丟給他一本書.對他說:"廚房裡小鍋燉著東西，你幫我去看看。”他真真地守了一個多小時，端到她面前。

真人芭比：一直說自己“沒整容”最後晒出舊照，打臉的卻是自己

俗話說的好“愛美之心人人都有”而讓自己快速變美的方法無疑就是“整容”如今的社會整容看起來似乎很平常。

驚了！這件事沒有做，一消證書等於白考！

不要慌，同學們，遇到問題不要怕，拿到證書不去註冊，相當於證書無效，今天就為大家一一解答註冊證書的相關問題。

8年後，有哪些人會留在農村生活？以下4類人群或將留下，有你嗎

從九十年代末開始，在我國農村地區就興起了一股“進城潮”，記得那個時候，農村的經濟發展相對滯後，村民生活條件艱苦，鄉親們為了擺脫貧困，只能告別親人，遠離家鄉去外面打拼賺錢。

唯一回絕張藝謀力捧的女生，被報送上清華，25歲有上百億身家

25歲有上百億身家文/娛樂深扒爆姐圖/網絡張藝謀是一位非常有實力的導演，同時非常出名，而且他拍攝的作品中有不少獲獎無數的經典影片，同時也捧紅過不少藝人。

疫情下的悲劇：買不起手機上網課，那個女孩決定吞藥自殺

有人為了生計不顧自身安危，有人躲在家中安然度日，還有人僅僅因為一個手機，就要放棄自己的生命...這個女孩，今年上初三，因為疫情的原因，全國各地都展開了網課線上教育，女孩的學校也不例外。

李棟旭劉仁娜新劇開拍，互對臺詞歡樂多，終於要開始撒狗糧了嗎？

這部劇是2016年年底播出的，熱度一直持續到了2017年，相關的周邊和景點都相當熱門，像是池恩卓跟鬼怪大叔相遇的海邊、劇中出現的鬼怪玩偶、還有鬼怪大叔的拔劍特效等等。

高考延期：七月的高考，最熱的天，做最難的題！

後來，由於7月份氣候較差，極端天氣頻發，尤其是南方地區，要麼極端高溫，要麼就是颱風，對於高考來說非常不友好，不僅考生的考試質量會下降，而且閱卷老師、高考工作者也不方便，因此，從2003年開始，高考日期都固定在了每年的6月7日、8日。

ElasticSearch 分詞器，瞭解一下

什麼是 Analysis？

分詞器的組成

Analyzer API

ES 分詞器

Stamdard Analyzer

Simple Analyzer

Whitespace Analyzer

Stop Analyzer

Keyword Analyzer

Pattern Analyzer

Language Analyzer

中文分詞

總結

相關文章:

Elasticsearch-單機部署避坑指南

Elasticsearch+Kibana+Log-Pilot收集 kubernetes和業務日誌

Elasticsearch WildcardQuery 檢索總結

圖文教程帶您瞭解 Elasticsearch 中，如何進行索引管理

乾貨 | Elasticsearch 索引設計實戰指南

5分鐘掌握Elasticsearch的BBox查詢

瞭解“茶黃素”

【瞭解】孔家鈞窯作品

絕佳的充電時間：自我隔離時何不探索這些數據科學技術

Elasticsearch集群工作原理

從零開始的Spring Cloud實戰日記- 技術選型

通過ELKB實現分佈式實時日誌的幾種架構

Elasticsearch Java API操作（增刪改查，索引創建）

瞭解《中華人民共和國外國人永久居留管理條例（徵求意見稿）》

一文搞懂 Elasticsearch 之 Mapping

Elasticsearch 之聚合分析入門

看完這篇還不會 Elasticsearch 搜索，那我就哭了

elasticsearch 組合查詢

讓容器擁有固定IP

Elasticsearch 踩坑，小 Tips

Elasticsearch 官方說明：支持哪些查詢 DSL？

Elasticsearch Mapping 的字段類型 簡介

基於Elasticsearch源碼編譯調試「7.7.0」

Elasticsearch之Alias別名經典應用場景

Nutch-MongoDB-ElasticSearch搭建搜索引擎

Uber 不使用 Elasticsearch，自己造了個輪子

自定義Spark Partitioner提升es-hadoop Bulk效率

Elasticsearch(GEO)數據寫入和空間檢索

道瓊斯高風險客戶觀察名單遭洩露，數量高達240萬條記錄！

Graylog日誌管理

Elasticsearch-datatran v6.1.0發佈，Elasticsearch數據同步工具

ElasticSearch 開發人員最佳實戰指南

Elasticsearch實戰 | 如何從數千萬手機號中識別出情侶號？

居家隔離只能遛狗？不，快來探索一下這些數據科學技術

數起簡歷信息洩露事件曝光——涉及中國企業的5.9億份簡歷

經歷多次面試後,來自美團面試官給我的建議（附:java崗經驗分享）

圍觀：基於事件機制的內部解耦之心路歷程

這是什麼神仙面試寶典？半月看完25大專題，居然斬獲阿里P7offer

Elastic Stack個人系列整理「2020-05-07更新」

手把手教你如何快速搭建 ELK 實時日誌分析平臺

Elasticsearch集群規模和性能調優

基於Spring Boot技術棧的博客系統企業級實戰教程分享

清華大學到底有多難考入？瞭解

ElasticSearch 是什麼

瞭解 清明節

ELK環境部署

一張圖快速瞭解榮耀V20

螃蟹:大招秒滿血瞭解下[摳鼻]

IBM340億美金的收購，來了解一下。

皮一下我是認真的。 你了解嗎？ 金華·橫店影視城

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

Elasticsearch Mapping 的字段類型簡介

瞭解清明節

皮一下我是認真的。你了解嗎？金華·橫店影視城

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患