本人在GitChat上开启了关于 structured streaming 的Chat,目前在预定阶段,欢迎感兴趣的同学前往订阅。
从 Spark2.0 开始,Spark 引入了一套新的流式计算模型:Structured Streaming。该模型在未来很可能会替代调掉 Spark Streaming 成为实时计算的主流。那么 Structured Streaming 到底有什么优势,在设计以及思想上为何比目前主流的 Spark Streaming 更受官方推崇,本 Chat 将为您逐一解答,而且不光有从入门级的开始,更有理论和代码演示,让读者快速了解 Structured Streaming 并上手开发。
在本场 Chat 中,会讲到如下内容:
- Structured Streaming 概述及快速入门
- Structured Streaming 输入表、结果表、输出等基本概念
- Structured Streaming 处理事件及容错语义
- 创建 Streaming DataFrame/DataSet 的几种方式
- 基本 API 操作
- 基于 event-time 的窗口操作
- 基于 watermark 处理延迟数据
- 流数据去重
- Stream-static joins 和 Stream-stream joins
- 输出模式(Append/Complete/Update)
- 输出接收器(file/kafka/console/memory等)
- Trigger 触发器--连续处理模式
以上内容请前往程序员技术交流平台GitChat,公众号或App均有,搜索此文标题即可找到,或关注作者Kane,保证内容物超所值。(也可私信索要10个免费名额中的一个,先到先得)
本文只针对头条中关注小编的读者,用于通知,扫描图中二维码即可进入内容。不喜者勿入。
只有HR忽悠程序员,程序员绝不忽悠自己人!
閱讀更多 kane0409 的文章