雲計算與大數據的結合(科普文系列(五))

3大數據時代,眾人拾柴火焰高

雲計算與大數據的結合(科普文系列(五))

雲計算與大數據的結合(科普文系列(五))

當數據量很小時,很少的幾臺機器就能解決。慢慢的,當數據量越來越大,最牛的服務器都解決不了問題時,怎麼辦呢?這時就要聚合多臺機器的力量,大家齊心協力一起把這個事搞定,眾人拾柴火焰高。

對於數據的收集:就IoT來講,外面部署這成千上萬的檢測設備,將大量的溫度、溼度、監控、電力等數據統統收集上來;就互聯網網頁的搜索引擎來講,需要將整個互聯網所有的網頁都下載下來。這顯然一臺機器做不到,需要多臺機器組成網絡爬蟲系統,每臺機器下載一部分,同時工作,才能在有限的時間內,將海量的網頁下載完畢。

雲計算與大數據的結合(科普文系列(五))

對於數據的傳輸:一個內存裡面的隊列肯定會被大量的數據擠爆掉,於是就產生了基於硬盤的分佈式隊列,這樣隊列可以多臺機器同時傳輸,隨你數據量多大,只要我的隊列足夠多,管道足夠粗,就能夠撐得住。

雲計算與大數據的結合(科普文系列(五))

對於數據的存儲:一臺機器的文件系統肯定是放不下的,所以需要一個很大的分佈式文件系統來做這件事情,把多臺機器的硬盤打成一塊大的文件系統。

雲計算與大數據的結合(科普文系列(五))

對於數據的分析:可能需要對大量的數據做分解、統計、彙總,一臺機器肯定搞不定,處理到猴年馬月也分析不完。於是就有分佈式計算的方法,將大量的數據分成小份,每臺機器處理一小份,多臺機器並行處理,很快就能算完。例如著名的Terasort對1個TB的數據排序,相當於1000G,如果單機處理,怎麼也要幾個小時,但並行處理209秒就完成了。

雲計算與大數據的結合(科普文系列(五))

雲計算與大數據的結合(科普文系列(五))

雲計算與大數據的結合(科普文系列(五))

所以說什麼叫做大數據?說白了就是一臺機器幹不完,大家一起幹。可是隨著數據量越來越大,很多不大的公司都需要處理相當多的數據,這些小公司沒有這麼多機器可怎麼辦呢?

4,大數據需要雲計算,雲計算需要大數據

說到這裡,大家想起雲計算了吧。當想要幹這些活時,需要很多的機器一塊做,真的是想什麼時候要就什麼時候要,想要多少就要多少。

例如大數據分析公司的財務情況,可能一週分析一次,如果要把這一百臺機器或者一千臺機器都在那放著,一週用一次非常浪費。那能不能需要計算的時候,把這一千臺機器拿出來;不算的時候,讓這一千臺機器去幹別的事情?

誰能做這個事兒呢?只有雲計算,可以為大數據的運算提供資源層的靈活性。而云計算也會部署大數據放到它的PaaS平臺上,作為一個非常非常重要的通用應用。因為大數據平臺能夠使得多臺機器一起幹一個事兒,這個東西不是一般人能開發出來的,也不是一般人玩得轉的,怎麼也得僱個幾十上百號人才能把這個玩起來。

所以說就像數據庫一樣,其實還是需要有一幫專業的人來玩這個東西。現在公有云上基本上都會有大數據的解決方案了,一個小公司需要大數據平臺的時候,不需要採購一千臺機器,只要到公有云上一點,這一千臺機器都出來了,並且上面已經部署好了的大數據平臺,只要把數據放進去算就可以了。

雲計算需要大數據,大數據需要雲計算,二者就這樣結合了。


分享到:


相關文章: