流式計算模型 Structured Streaming:快速入門開發

本人在GitChat上開啟了關於 structured streaming 的Chat,目前在預定階段,歡迎感興趣的同學前往訂閱。

從 Spark2.0 開始,Spark 引入了一套新的流式計算模型:Structured Streaming。該模型在未來很可能會替代調掉 Spark Streaming 成為實時計算的主流。那麼 Structured Streaming 到底有什麼優勢,在設計以及思想上為何比目前主流的 Spark Streaming 更受官方推崇,本 Chat 將為您逐一解答,而且不光有從入門級的開始,更有理論和代碼演示,讓讀者快速瞭解 Structured Streaming 並上手開發。

在本場 Chat 中,會講到如下內容:

  • Structured Streaming 概述及快速入門
  • Structured Streaming 輸入表、結果表、輸出等基本概念
  • Structured Streaming 處理事件及容錯語義
  • 創建 Streaming DataFrame/DataSet 的幾種方式
  • 基本 API 操作
  • 基於 event-time 的窗口操作
  • 基於 watermark 處理延遲數據
  • 流數據去重
  • Stream-static joins 和 Stream-stream joins
  • 輸出模式(Append/Complete/Update)
  • 輸出接收器(file/kafka/console/memory等)
  • Trigger 觸發器--連續處理模式
流式計算模型 Structured Streaming:快速入門開發

以上內容請前往程序員技術交流平臺GitChat,公眾號或App均有,搜索此文標題即可找到,或關注作者Kane,保證內容物超所值。(也可私信索要10個免費名額中的一個,先到先得)

本文只針對頭條中關注小編的讀者,用於通知,掃描圖中二維碼即可進入內容。不喜者勿入。

只有HR忽悠程序員,程序員絕不忽悠自己人!


分享到:


相關文章: