Streaming System( Google 流式团队著作) -Streaming 101(5)


Unbounded Data:Streaming

上面利用批量的方法来处理无边界数据不存在普遍适用性,需要很多adhoc的特性,流式系统就是用来处理无边界数据的,因此将存在更加普遍的适用性。正如早些时候提到的,在真实的环境中,将面临的挑战,不仅是无边界数据,还将面临如下的问题

· 无序的数据,意味着如果想变成有序的,需要有一些shuffle策略将无序数据变得有序。

· 由于存在eventime-skew(https://www.toutiao.com/i6802549049162465804/详细有介绍),所以无法预测什么时候,目前要处理的时间结束

目前有几种方法可以处理这些问题:time-agnostic(直译是时间不可知,看了下文,更多是说处理语义和时间关系不大的情况,比如过滤)估算,processing time的窗口和event time的窗口

上一篇:https://www.toutiao.com/i6802848088206606851/


分享到:


相關文章: