「大數據認知」5步讓你教你認識大數據

“大數據”這個概念是近幾年開始火起來的,現在可謂是無處不在了。在瞭解什麼是大數據之前,我們先了解一下什麼是傳統數據?

第一步:什麼是大數據

傳統數據就是IT業務系統裡面的數據,如客戶資料、財務數據等。這些數據是結構化的,量也不是特別大,一般只是TB級。對比傳統數據,還有一種叫“新數據”,是來源於社區網絡、互聯網等渠道,包括文本、圖片、音頻、視頻等非結構化的數據。目前全世界75%以上都是非結構化數據,而且還一直呈現爆炸性的增長。我們看看下面的圖就更好理解了:


「大數據認知」5步讓你教你認識大數據


大數據就是:結構化的傳統數據+非結構化的新數據。

因而,大數據還具有以下特點,簡稱“4V”:

  • Volume(大量):數據體量巨大,從TB級別,躍升到PB級別;
  • Variety(多樣):數據類型繁多,有網絡日誌、視頻、圖片、地理位置信息等;
  • Velocity(高速):處理速度快,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同;
  • Value(價值):只要合理利用數據並對其進行正確、準確的分析,將會帶來很高的價值回報。

第二步:大數據組成

大數據系統由基礎設施、平臺和應用組成。對比我們平時使用的電腦,基礎設施就是電腦這臺硬件,平臺就是裝在裡面的操作系統,應用就是操作系統上面的各種應用程序。


「大數據認知」5步讓你教你認識大數據


大數據的應用五花八門,但總體上可分為“業務應用”和“數據分析”兩大類。

前者包括ERP、CRM等業務系統,後者指的是各種分析應用,包括經營分析、價值分析、人流分析等等。分析系統從業務系統獲取源數據,經過分析後可以反哺業務系統,對其進行賦能(注智),讓其具有智慧。說到這裡,大家是不是覺得有點熟悉了?跟我們的BI是不是有某些聯繫呢?沒錯了,“大數據平臺”和“數據分析系統”加在一起就是BI的升級版啊!既然是升級版,它與傳統BI有什麼區別呢?請看下面就知道啦。

成本更低廉

去IOE,硬件採用廉價的X86,軟件更多使用開源,節省成本

容災性好

平臺部署在X86集群上,機器出問題可隨時切換

擴展性好

X86集群可根據需要隨時進行擴展,提高靈活性

處理效率高

當數據達到TB級別,處理效率顯著提高

處理類型多

可以處理結構化、半結構化、非結構化數據

進一步挖掘價值

處理的數據量大,類型多,因而可進一步挖掘數據的價值。

是不是有很多升級的地方呢?為了支持這些升級,大數據系統需要具備哪些功能呢?這就涉及到架構問題了,跟著小麥繼續往下看吧。

第三步:大數據架構

我們已經知道大數據系統由基礎設施、平臺和應用組成,我們現在進一步細分,請看下圖:


「大數據認知」5步讓你教你認識大數據


基礎設施由通過局域網或互聯網連接的X86集群組成,為大數據平臺提供最基本的硬件支持。

大數據平臺由基礎架構、數據處理和數據服務三部分組成:

基礎架構負責對基礎設施進行系統管理,為數據處理提供分佈式底層服務;數據處理負責數據的採集、存儲、計算;數據服務負責將處理後的數據提供給上層應用使用。大數據應用是面向用戶的各種應用系統,包括業務應用和數據分析。大數據系統的總體架構就是這樣子,是不是跟我們平時見到的BI架構很像呢? 通過這個表格對比我們就更清楚了:


「大數據認知」5步讓你教你認識大數據


下面我們將圍繞這個架構展開說明。理解了這個架構,小麥的目的也就達到啦。

第四步:虛擬化

基礎設施提供計算、存儲、網絡三種能力,是大數據平臺的根基。但是如何解決以下問題:

大量的機器如何管理

當集群的狀態改變,也即增加或者減少一些機器的時候,難道要去修改平臺的配置嗎?

如何充分利用系統資源

當集群的能力只使用了一部分,而這個時候需要一部新的機器用來部署其它系統,難道是從集群上拆下一部機器來提供嗎?

如何解決彈性問題

當高峰期的時候,系統可能需要20部機器,平時只需要10部。那麼我們是提供多少部合適呢?如果提供20部,平時空閒下來的10部如何處理?

這些問題有一種解決方法:虛擬化。就是把集群作為一個整體進行管理,可以根據需要從某些機器中調配相關資源,快速組成一部“新的機器”。例如可以用機器A的CPU1/2性能、1/3的內存,和機器B的1/5硬盤組成。

當集群的狀態改變時,我們只需要修改虛擬化軟件的配置,減少對平臺的影響。當集群有多餘的資源時,可以虛擬出一些新的機器給其它系統使用,充分利用了系統資源。

虛擬化的主流商業軟件是Vmware,開源的軟件有Xen、KVM等。

第五步:雲化

虛擬化雖然帶來資源配置的靈活性,但也有明顯的缺陷。配置一部“新的機器”需要人工操作,配置非常麻煩,最多隻能管理幾百臺電腦的規模,作為企業內部的應用是可以的。但對於提供公眾服務的互聯網公司來說,需要上萬部電腦的規模,通過虛擬化的方式是行不通的。所以又有了新技術的出現:雲化,也即把基礎設施作為一項服務提供。請看下圖:


「大數據認知」5步讓你教你認識大數據


最早是亞馬遜基於自身電商業務的發展,傳統的IT架構已經滿足不了需求,所以基於開源的虛擬化軟件開發了AWS(Amazon Web Service),可以支持超大規模的集群應用。在解決自己的業務需求後,亞馬遜發現可以把這項技術作為一項單獨的業務推向市場,這就是現在穩居全球市場頭把交椅的的亞馬遜雲服務。同樣的背景,阿里巴巴也基於Xen推出了市場化的阿里雲,現成已經成為國內雲市場的老大。由此我們也知道為什麼雲服務做得最早、最好的都是互聯網公司了吧?因為他們有自身的業務在驅動。規模上萬部的機器,以資源池(數據中心)的形式分佈在不同的地域上(很多建設在廣西、貴州、內蒙等欠發達省份,電費、人工比較便宜,又可以促進當地就業),通過調度中心進行統一管理,這就是公有云平臺。

在亞馬遜開展商業化雲服務的同時,美國另一家叫Rackspace的公司也推出OpenStack在跟亞馬遜競爭。無奈競爭不過人家,最後決定和NASA(美國國家航空航天局)合作,把OpenStack開源,一起成立了開源雲平臺。後來各家傳統的IT巨頭紛紛加入這個開源的社區,經過二次開發和包裝後推出了自己的私有云平臺,和自家的硬件或解決方案打包一起銷售。

不管是公有云,還是私有云,都是實現了基礎設施的時間靈活性和空間靈活性,把基礎設施作為一項服務提供,也即:Infranstracture as a Service(IaaS)


分享到:


相關文章: