流式计算模型 Structured Streaming:快速入门开发

本人在GitChat上开启了关于 structured streaming 的Chat,目前在预定阶段,欢迎感兴趣的同学前往订阅。

从 Spark2.0 开始,Spark 引入了一套新的流式计算模型:Structured Streaming。该模型在未来很可能会替代调掉 Spark Streaming 成为实时计算的主流。那么 Structured Streaming 到底有什么优势,在设计以及思想上为何比目前主流的 Spark Streaming 更受官方推崇,本 Chat 将为您逐一解答,而且不光有从入门级的开始,更有理论和代码演示,让读者快速了解 Structured Streaming 并上手开发。

在本场 Chat 中,会讲到如下内容:

  • Structured Streaming 概述及快速入门
  • Structured Streaming 输入表、结果表、输出等基本概念
  • Structured Streaming 处理事件及容错语义
  • 创建 Streaming DataFrame/DataSet 的几种方式
  • 基本 API 操作
  • 基于 event-time 的窗口操作
  • 基于 watermark 处理延迟数据
  • 流数据去重
  • Stream-static joins 和 Stream-stream joins
  • 输出模式(Append/Complete/Update)
  • 输出接收器(file/kafka/console/memory等)
  • Trigger 触发器--连续处理模式
流式计算模型 Structured Streaming:快速入门开发

以上内容请前往程序员技术交流平台GitChat,公众号或App均有,搜索此文标题即可找到,或关注作者Kane,保证内容物超所值。(也可私信索要10个免费名额中的一个,先到先得)

本文只针对头条中关注小编的读者,用于通知,扫描图中二维码即可进入内容。不喜者勿入。

只有HR忽悠程序员,程序员绝不忽悠自己人!


分享到:


相關文章: