流失計算實例講解

流失計算實例講解


流式計算一般結構

2011年在海量數據處理領域,Hadoop是人們津津樂道的技術,Hadoop不僅可以用來存儲海量數據,還以用來計算海量數據。因為其高吞吐、高可靠等特點,很多互聯網公司都已經使用Hadoop來構建數據倉庫,高頻使用並促進了Hadoop生態圈的各項技術的發展。一般來講,根據業務需求,數據的處理可以分為離線處理和實時處理,在離線處理方面Hadoop提供了很好的解決方案,但是針對海量數據的實時處理卻一直沒有比較好的解決方案。就在人們翹首以待的時間節點,storm橫空出世,與生俱來的分佈式、高可靠、高吞吐的特性,橫掃市面上的一些流式計算框架,漸漸的成為了流式計算的首選框架。如果龐麥郎在的話,他一定會說,這就是我要的滑板鞋!

我在微信公眾號:大數據小世界 , 等你,歡迎來到你的大數據我的小世界

流失計算實例講解

上圖是流式分析的一般架構圖,抽象出四個步驟就是數據採集、數據緩衝、數據處理、數據輸出。一般情況下,我們採用Flume+kafka+Storm+Redis的結構來進行流式數據分析。實時部分的課程主要是針對Kafka、Storm進行學習

在此小編特地整理了一份免費學習資料,給各位學習,需要資料的請加群:862879153

流式計算可以用來幹什麼

一淘-實時分析系統:實時分析用戶的屬性,並反饋給搜索引擎。最初,用戶屬性分析是通過每天在雲梯上定時運行的MR job來完成的。為了滿足實時性的要求,希望能夠實時分析用戶的行為日誌,將最新的用戶屬性反饋給搜索引擎,能夠為用戶展現最貼近其當前需求的結果。

攜程-網站性能監控:實時分析系統監控攜程網的網站性能。利用HTML5提供的performance標準獲得可用的指標,並記錄日誌。Storm集群實時分析日誌和入庫。使用DRPC聚合成報表,通過歷史數據對比等判斷規則,觸發預警事件。


分享到:


相關文章: