StreamingSystem (Google 流式團隊著)-c2.The 4 W-10

Chapter 2. The What, Where, When, and How of Data Processing-2

其他章節的內容可以點擊作者頭像在主頁列表找到

為了更好理解概念之間的關係,我們用川通服的4W的方式來介紹這些概念,這些問題和概念在流式處理中都是比較重要和常見的。

What:流式處理中到底要處理什麼樣的結果呢?在典型的流式處理中一樣,流式處理主要用來計算Sum,構建直方圖,進行機器學習模型的訓練等等。

Where:結果在什麼地方計算?目前主要是通過基於事件時間的窗口計算來實現的,在第一章中已經介紹了固定窗口,滑動窗口,會話窗口等。

When:什麼時候應該將進行結果的計算?觸發器和水印是用來做進行條件觸發的。這個主題有無限的變化,但是最常見的模式是進行更新的模式(即,物化視圖的語義),那些使用水印僅在認為相應的輸入完成後才使用每個窗口提供單個輸出的模式或兩者的某種組合。

How:是通過什麼方法來實現上述的結果。累積器是一個典型的方法,可以通過丟棄,累積,或者累加之後回收。(簡單解釋下,這裡想說的是對於結果的處理,由於有上面的各種問題,真正要實現的話,可以通過累加,如果中間結果無用的話,可以直接拋棄)

後續我們會針對上述的問題進行詳細的介紹。


分享到:


相關文章: