Unbounded Data:Streaming
上面利用批量的方法来处理无边界数据不存在普遍适用性,需要很多adhoc的特性,流式系统就是用来处理无边界数据的,因此将存在更加普遍的适用性。正如早些时候提到的,在真实的环境中,将面临的挑战,不仅是无边界数据,还将面临如下的问题
· 无序的数据,意味着如果想变成有序的,需要有一些shuffle策略将无序数据变得有序。
· 由于存在eventime-skew(https://www.toutiao.com/i6802549049162465804/详细有介绍),所以无法预测什么时候,目前要处理的时间结束
目前有几种方法可以处理这些问题:time-agnostic(直译是时间不可知,看了下文,更多是说处理语义和时间关系不大的情况,比如过滤)估算,processing time的窗口和event time的窗口
上一篇:https://www.toutiao.com/i6802848088206606851/
閱讀更多 北京IT民工 的文章