阿里新一代流式計算引擎 大數據培訓Flink學習寶典奉上

5個月的好程序員大數據培訓學習,只是冰山一角,對於大數據職業生涯,我們要走的路還很長。苦是真的,但是活著,身上的責任和夢想就應該去承擔、去實現,要微笑的去面對磨礪。

馬上就要上戰場了,今年畢業生820萬,想想都可怕。付出不一定有結果,但是,不付出一定什麼都沒有!大數據學習內容雜而多,要系統的掌握整體,需要很多的時間。包括Apache官網的各個框架的熟悉,更是需要時間的沉澱。好在遇到了好程序員的負責講師,整體課程安排也十分科學,以下是我對大數據Flink部分學習的一些總結:

Flink是一個分佈式流處理的開源框架,提供準確的結果,即使在無序或遲到數據的情況下也是如此,具有狀態和容錯能力,可以在保持一次性應用程序狀態的同時無縫地從故障中恢復,大規模執行,在數千個節點上運行,具有非常好的吞吐量和延遲特性。

阿里新一代流式計算引擎 大數據培訓Flink學習寶典奉上

此前,我們討論了將數據集的類型(有界還是無界)與執行模型的類型(批量與流媒體)進行對齊。下面列出的許多Flink功能 - 狀態管理,無序數據的處理,靈活的窗口 - 對於在無界數據集上計算精確的結果非常重要,並且由Flink的流式執行模型來實現。

Flink保證有狀態計算的exactly-once。“有狀態的”意味著應用程序可以維護一段時間內已經處理的數據的彙總或彙總,並且Flink的檢查點設置機制確保在發生故障時應用程序的狀態exactly-once。Flink支持流處理和窗口事件時間semantics。事件時間可以輕鬆計算事件到達順序不正確,事件可能延遲到達的流的精確結果。

除了數據驅動的窗口,Flink還支持基於時間,計數或會話的靈活窗口。Windows可以通過靈活的觸發條件進行定製,以支持複雜的流模式。Flink的窗口可以模擬數據創建環境的實際情況。Flink的容錯功能是輕量級的,可以讓系統保持高吞吐率,同時提供一次性一致性保證。Flink從零數據丟失的故障恢復,而可靠性和延遲之間的折衷可以忽略不計。

阿里新一代流式計算引擎 大數據培訓Flink學習寶典奉上

Flink能夠提供高吞吐量和低延遲(快速處理大量數據)。下面的圖表顯示了Apache Flink和Apache Storm的性能,完成了需要流式數據混洗的分佈式項目計數任務。

Flink的保存點提供了一個狀態版本管理機制,可以更新應用程序或重新處理歷史數據,而且不會丟失狀態,停機時間最短。Flink設計用於在數千個節點的大型集群上運行,除了獨立集群模式之外,Flink還提供對YARN和Mesos的支持。

阿里新一代流式計算引擎 大數據培訓Flink學習寶典奉上

希望我們能用大數據人工智能去改變這個世界!


分享到:


相關文章: