Spark Streaming｜Spark，從入門到精通

2018-09-10 19:18:33 美圖數據技術團隊

歡迎閱讀美圖數據技術團隊的「Spark，從入門到精通」系列文章，本系列文章將由淺入深為大家介紹 Spark，從框架入門到底層架構的實現，相信總有一種姿勢適合你，歡迎大家持續關注：）

注：本文節選自「酷玩 Spark」開源項目，原文地址：https://github.com/lw-lin/CoolplaySpark

Spark Streaming 是批處理的流式實時計算框架，支持從多種數據源獲取數據，如 Kafka、TCP sockets、文件系統等。它可以使用諸如 map、reduce、join 等高級函數進行復雜算法的處理，最後還可以將處理結果存儲到文件系統，數據庫等。

Spark Streaming 有三個特點：

基於 Spark Core Api，因此其能夠與 Spark 中的其他模塊保持良好的兼容性，為編程提供了良好的可擴展性；
粗粒度的準實時處理框架，一次讀取完成,或異步讀完數據之後，再處理數據，且其計算可基於大內存進行，因而具有較高的吞吐量；
採用統一的 DAG 調度以及 RDD，對實時計算有很好的容錯支持；

運行原理

圖 1

如圖 1 所示是 Spark 的整體架構圖，它主要分為四個模塊：

靜態的 RDD DAG 模版，表示處理邏輯；
動態的工作控制器，將連續的 streaming data 切分為數據片段，並按照模板複製出新的 RDD DAG 的實例，對數據片段進行處理；
原始數據的產生和導入；
對長時運行任務的保障，包括輸入數據的失效後的重構和處理任務的失敗後的重調。

DAG 靜態定義

DAG 靜態定義是將整個計算邏輯描述為一個 RDD DAG 的「模版」，在後面 Job 動態生成的時候，針對每個 batch，Spark Streaming 都將根據這個「模板」生成一個 RDD DAG 的實例。

圖 2

接下來我們瞭解下 RDD 和 DStream 的關係。DStream 維護了對每個產出的 RDD 實例的引用，如圖 2 所示，DStream 在 3 個 batch 裡分別實例化了 3 個 RDD， a[1]、a[2]、a[3]，然後 DStream 就保留了 batch 所產出的 RDD 的哈希表。

我們在考慮的時候，可以認為 RDD 加上 batch 維度就是 DStream，DStream 去掉 batch 維度就是 RDD。Spark 定義靜態的計算邏輯後，通過動態的工作控制來調度。

Job 動態生成

在 Spark Streaming 程序的入口我們都會定義一個 batchDuration，即每隔固定時間就比照靜態的 DStreamGraph 來動態生成一個 RDD DAG 實例。在 Spark Streaming 內整體負責動態作業調度的具體類是 JobScheduler，由 start() 運行。

JobScheduler 有兩個非常重要的成員：JobGenerator 和 ReceiverTracker。JobScheduler 將每個 batch 的 RDD DAG 具體生成工作委託給 JobGenerator，而將源頭輸入數據的記錄工作委託給 ReceiverTracker。

JobGenerator 維護了一個定時器，週期就是上文提到的 batchDuration，定時為每個 batch 生成 RDD DAG 的實例，其中每次 RDD DAG 實際生成包含 5 個步驟：

要求 ReceiverTracker 將目前已收到的數據進行一次分配，即將上個批次切分後的數據，切分到到本次新的批次裡；
要求 DStreamGraph 複製出一套新的 RDD DAG 的實例， DStreamGraph 將要求圖裡的尾 DStream 節點生成具體的 RDD 實例，並遞歸的調用尾 DStream 的上游 DStream 節點……以此遍歷整個 DStreamGraph，遍歷結束也就正好生成了 RDD DAG 的實例；
獲取第 1 步 ReceiverTracker 分配到本 batch 的源頭數據的 meta 信息；
將第 2 步生成的本 batch 的 RDD DAG，和第 3 步獲取到的 meta 信息，一同提交給 JobScheduler 異步執行；
只要提交結束（不管是否已開始異步執行），就馬上對整個系統的當前運行狀態做一個 checkpoint。

數據產生與導入

DStream 的子類 ReceiverInputDStream 在某個 batch 裡實例化 RDD，通過 Receiver 為這個 RDD 生產數據。Spark Streaming 在程序剛開始運行時：

由 Receiver 的總指揮 ReceiverTracker 分發多個 job，到多個 executor 上分別啟動 ReceiverSupervisor 實例；
每個 ReceiverSupervisor 啟動後將馬上生成一個用戶提供的 Receiver 實現的實例並在 Receiver 實例生成後調用 Receiver.onStart()，這時 Receiver 啟動工作已經運行完畢。

Receiver 在 onStart() 啟動後，就將持續不斷地接收外界數據，並持續交給 ReceiverSupervisor 進行數據轉儲；
ReceiverSupervisor 持續不斷地接收到 Receiver 轉來的數據，如果數據很細小，就需要 BlockGenerator 攢多條數據成一塊(4a)、然後再成塊存儲(4b 或 4c)；反之就不用攢，直接成塊存儲(4b 或 4c)；
每次成塊在 executor 存儲完畢後，ReceiverSupervisor 就會及時上報塊數據的 meta 信息給 driver 端的 ReceiverTracker，這裡的 meta 信息包括數據的標識 id、數據的位置、數據的條數、數據的大小等信息；
ReceiverTracker 再將收到的塊數據 meta 信息直接轉給自己的成員 ReceivedBlockTracker，由 ReceivedBlockTracker 專門管理收到的塊數據 meta 信息。

後續在 driver 端，就由 ReceiverInputDStream 在每個 batch 去檢查 ReceiverTracker 收到的塊數據 meta 信息，界定哪些新數據需要在本 batch 內處理，然後生成相應的 RDD 實例去處理這些塊數據。

舉個例子

import org.apache.spark.streaming._
import org.apache.spark.SparkConf
object example{
 def main(args:Array[String]):Unit = {
 val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
 val ssc = new StreamingContext(conf, Seconds(1))
 val lines = ssc.socketTextStream("localhost", 9999)
 val words = lines.flatMap(_.split(" ")) // DStream transformation
 val pairs = words.map(word => (word, 1)) // DStream transformation
 val wordCounts = pairs.reduceByKey(_ + _) // DStream transformation
 wordCounts.print() // DStream output
 ssc.start()
 ssc.awaitTermination()
 }
}

如以上代碼所示：

啟動 Spark Streamingg 實例後將 batchDuration 設置為 1 秒；
ssc.socketTextStream() 將創建一個 SocketInputDStream，這個 InputDStream 的 SocketReceiver 將監聽本機 9999 端口；
接下來幾行利用 DStream transformation 構造出了 lines -> words -> pairs -> wordCounts -> .print() 從lines 到 wordCounts print(）的一個 DStreamGraph；
到目前只是是定義好了產生數據的 SocketReceiver 及 DStreamGraph，這些都是靜態的；
下面這行 start() 將在幕後啟動 JobScheduler，進而啟動 JobGenerator 和 ReceiverTracker，其中 JobGenerator 開始不斷的生成一個一個 batch，ReceiverTracker 創建和啟動 Receiver；
然後用戶 code 主線程就 block 在awaitTermination了，block 的效果就是，後臺的 JobScheduler 開始不斷的生成一個一個 batch，也就是在這裡，我們前面靜態定義的 DStreamGraph 的 print()，才一次一次被在 RDD 實例上調用，一次一次打印出當前 batch 的結果；

長時容錯

首先看 executor 端，在 executor 端 ReceiverSupervisor 和 Receiver 失效後直接重啟即可，關鍵點是保障收到的塊數據的安全，保障了源頭塊數據就能夠保障 RDD DAG （Spark Core 的 lineage）重做。

Spark Streaming 對源頭塊數據的保障，分為 4 個層次，全面、相互補充，又可根據不同場景靈活設置：

熱備：熱備是指在存儲塊數據時，將其存儲到本 executor、並同時 replicate 到另外一個 executor 上去。這樣在一個 replica 失效後，可以立刻無感知切換到另一份 replica 進行計算。實現方式是，在實現自己的 Receiver 時，即指定一下 StorageLevel 為 MEMORY_ONLY_2 或 MEMORY_AND_DISK_2 就可以了。
*1.5.2 update 這已經是默認了
冷備：冷備是每次存儲塊數據前，先把塊數據作為 log 寫出到 WriteAheadLog 裡，再存儲到本 executor。executor 失效時，就由另外的 executor 去讀 WAL，再重做 log 來恢復塊數據。WAL 通常寫到可靠存儲如 HDFS 上，所以恢復時可能需要一段 recover time。
重放：如果上游支持重放，比如 Apache Kafka，那麼就可以選擇不用熱備或者冷備來另外存儲數據了，而是在失效時換一個 executor 進行數據重放即可。
忽略：最後，如果應用的實時性需求大於準確性，那麼一塊數據丟失後我們也可以選擇忽略、不恢復失效的源頭數據。

上文曾提到塊數據的 meta 信息上報到 ReceiverTracker，然後交給 ReceivedBlockTracker 做具體的管理。ReceivedBlockTracker 也採用 WAL 冷備方式進行備份，在 driver 失效後，由新的 ReceivedBlockTracker 讀取 WAL 並恢復 block 的 meta 信息。

另外，需要定時對 DStreamGraph 和 JobScheduler 做 Checkpoint，來記錄整個 DStreamGraph 的變化、和每個 batch 的 job 的完成情況。

注意到這裡採用的是完整 checkpoint 的方式，和之前的 WAL 的方式都不一樣。Checkpoint 通常也是落地到可靠存儲如 HDFS。Checkpoint 發起的間隔默認的是和 batchDuration 一致；即每次 batch 發起、提交了需要運行的 job 後就做 Checkpoint，另外在 job 完成了更新任務狀態的時候再次做一下 Checkpoint。

這樣一來，在 driver 失效並恢復後，可以讀取最近一次的 Checkpoint 來恢復作業的 DStreamGraph 和 job 的運行及完成狀態。

Spark Streaming 窗口操作

Structured Streaming

Structured Streaming 是一種基於 Spark SQL 引擎構建的可擴展且容錯的流處理引擎，它可以以靜態數據表示批量計算的方式來表達流式計算。 Spark SQL 引擎將隨著 streaming data 持續到達而增量地持續地運行，並更新最終結果。

StreamExecution 的初始狀態

值得注意的是，Structured Streaming 也是先純定義、再觸發執行的模式。前面大部分代碼是純定義 Dataset/DataFrame 的產生、變換和寫出，後面位置再真正 start 一個新線程去觸發執行之前的定義。在新的執行線程裡我們需要持續地去發現新數據，進而持續地查詢最新計算結果至寫出。

這些 DataFrame的產生、變換和寫出的信息就對應保存在 StreamExecution非常重要的 3 個成員變量中：

sources: streaming data 的產生端（如 kafka等）；
logicalPlan: DataFrame/Dataset 的一系列變換，即計算邏輯；

sink: 最終結果寫出的接收端（比如 file system 等）。

Structured Streaming 持續查詢

StreamExecution 通過 Source.getOffset() 獲取最新的 offsets，即最新的數據進度，將 offsets 寫入到 offsetLog 裡，將來可用作故障恢復用。在 3a 將預先定義好的邏輯（即 logicalPlan 成員變量）製作一個副本出來，3b 給定剛剛取到的 offsets，通過 Source.getBatch(offsets) 獲取本執行新收到的數據的 DataFrame 表示。經過這兩步，構造完成的 LogicalPlan 就是針對本執行新收到的數據的 DataFrame 整個處理邏輯。

接著將表示計算結果的 DataFrame 交給 Sink，6a 通過 Source.commit() 告知 Source 數據已經完整處理結束，6b 將本次執行的批次 id 寫入到 batchCommitLog 裡。

StreamExecution 增量持續查詢

Structured Streaming 在編程模型上暴露給用戶的是每次持續查詢看做面對全量數據，所以每次執行的結果是針對全量數據進行計算的結果，但是在實際執行過程中，由於全量數據會越攢越多，每次對全量數據進行計算的代價和消耗會越來越大。

因此 Structured Streaming 引入全局範圍、高可用的 StateStore 轉全量為增量，即在每次執行時先從 StateStore 裡 restore 出上次執行後的狀態，再加入本執行的新數據進行計算，如果有狀態改變，將把改變的狀態重新 save 到 StateStore 裡。

所以 Structured Streaming 在具體實現上轉換為增量的持續查詢。

故障恢復

由於 exectutor 節點的故障可由 Spark 框架本身很好的 handle，不引起可用性問題，因此只討論 driver 故障恢復。如果在某個執行過程中發生 driver 故障，那麼重新起來的 StreamExecution 讀取 WAL offsetlog 恢復出最新的 offsets ，並讀取 batchCommitLog 決定是否需要重做最近一個批次。

事件時間

當我們有一系列到達的記錄時，首先對時間列 timestamp 做長度為10m，滑動為5m 的 window() 操作。

如圖右上角的虛框部分，當達到一條記錄 12:22|dog 時，會將 12:22 歸入兩個窗口 12:15-12:25、12:20-12:30，所以產生兩條記錄：12:15-12:25|dog、12:20-12:30|dog，所以這裡 window() 操作的本質是 explode()，可由一條數據產生多條數據。

接著對 window() 操作的結果，以 window 列和 word 列為 key，做 groupBy() 操作。這個操作的聚合過程是增量的最後得到一個有 window、 word、count 三列的狀態集。

val windowedCounts = words
 .withWatermark("timestamp", "10 minutes") // 注意這裡的 watermark 設置！
 .groupBy(
 window($"timestamp", "10 minutes", "5 minutes"),
 $"word")
 .count()

對於數據延遲通過 withWatermark("timestamp", "10 minutes") 告訴 Structured Streaming，以 timestamp 列的最大值為錨點，往前推 10min 以前的數據不會再接收。

在 12:20 這個批次結束後，錨點變成了 12:20|dog，owl 這條記錄的 event time 12:20 ，watermark 變成了 12:20 - 10min = 12:10；
在 12:30 批次結束時，即知道 event time 12:10 以前的數據不再收到了，因而 window 12:00-12:10 的結果也不會再被更新，即可以安全地輸出結果 12:00-12:10|cat|2；
在結果 12:00-12:10|cat|2 輸出以後，State 中也不再保存 window 12:00-12:10 的相關信息，即 State Store 中的此條狀態得到了清理。

接下來看 structured streaming 的輸出模式，complete 輸出模式如同上面的流程，接著主要講另外兩種輸出模式：append 和 update。

Append 的語義將保證一旦輸出了某條 key，未來就不會再輸出同一個 key。所以，在上圖 12:10 這個批次直接輸出 12:00-12:10|cat|1, 12:05-12:15|cat|1 將是錯誤的，因為在 12:20 將結果更新為了12:00-12:10|cat|2，但是 Append 模式下卻不會再次輸出 12:00-12:10|cat|2，因為前面輸出過了同一條 key 12:00-12:10|cat 的結果12:00-12:10|cat|1。

為了解決這個問題，在 Append 模式下 Structured Streaming 需要知道某一條 key 的結果什麼時候不會再更新了，當確認結果不會再更新的時候就可以將結果進行輸出。

如上圖所示，如果我們確定 12:30 這個批次以後不會再有對 12:00-12:10 這個 window 的更新，那麼我們就可以把 12:00-12:10 的結果在 12:30 這個批次輸出，並且也會保證後面的批次不會再輸出 12:00-12:10 的 window 的結果，維護了 Append 模式的語義。

Update 模式是在 Spark 2.1.1 及以後版本獲得正式支持。

如上圖所示，在 Update 模式中，只有本執行批次 State 中被更新了的條目會被輸出：

在 12:10 這個執行批次，State 中全部 2 條都是新增的（因而也都是被更新了的），所以輸出全部 2 條；
在 12:20 這個執行批次，State 中 2 條是被更新了的、 4 條都是新增的（因而也都是被更新了的），所以輸出全部 6 條；
在 12:30 這個執行批次，State 中 4 條是被更新了的，所以輸出 4 條。這些需要特別注意的一點是，如 Append 模式一樣，本執行批次中由於（通過 watermark 機制）確認 12:00-12:10 這個 window 不會再被更新，因而將其從 State 中去除，但沒有因此產生輸出。

分享到:

閱讀更多 美圖數據技術團隊 的文章

關鍵字: Spark HDFS 算法

Spark-local本地環境搭建

Spark SQL

Spark 網頁式開發（五）

Spark SQL 使用反射推斷模式

Spark SQL簡介

Spark 安裝教程

Spark RDD介紹

Spark 簡介與特徵

Spark 網頁式開發（二）

Spark 網頁式開發（一）

spark-submit之後，spark集群內發生了什麼？讓我們一探究竟

03.02 Spark+Zookeeper搭建高可用Spark集群

Spark SQL常見4種數據源詳解

Spark 機器學習四大類算法

Spark for Java: SparkCore RDD Value類型方法案例

Spark SQL概述

12.21 Spark RDD 概念以及核心原理

Spark Troubleshooting（故障排除）

Spark 數據傾斜解決方案

Spark JVM調優

Spark Shuffle調優

Spark 算子調優

Spark 常規性能調優

Spark BlockManager解析

Spark 內存管理

Spark-Core：調度

大數據乾貨分享：Spark Streaming 數據清理機制

Spark 核心概念

Spark Streaming狀態管理函數的選擇比較

hive on spark,spark sql 對比測試結果相差很大

Spark，從入門到精通

Hello Spark!

Spark Standalone集群模式部署（Window）及其Python開發環境搭建

11.14 Spark——診斷內存消耗

Spark-關於Shuffle

Spark 處理大數據的異常解決方案彙總

Spark Streaming VS Flink

Spark Graphx的API操作

Spark SQL與DataFrame詳解以及使用

Spark 彈性分佈式數據集（RDD）

Spark SQL支持的功能測試

Spark Shuffle 過程

spark-sql對多層級parquet支持

spark hadoop數據傾斜問題

Spark Runtime概述

Spark Streaming的容錯

Spark 讀取單個文本文件速度很慢解決方法

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"