大數據基礎之緒論與基本概念

1.緒論

大數據的"大"是相對的,例如100MB的數據在幾十年前也是大數據,現在來說不算大了,但是應用場景不同,"小數據"也可能變為大數據,例如之前的100MB數據,如果需要在1毫秒之內對100MB數據完成複雜的數據挖掘分析。

那麼什麼是大數據問題,這裡給出計算學科的永恆話題:

1. 給定有限的計算資源c,或成本

2. 給定問題輸入x

3. 在一定時間t內

4. 計算出結果f(x)

當輸入數據x大到超出了一定的計算能力c或可容忍的時間t,即成為大數據問題。

大數據問題的解決方案是一個交叉學科的方案,當前背景下大數據問題顯然需要結合算法、分佈式系統和大量用戶數據來解決問題。例如最火的AMPLab實驗室的三位教授分別是數據庫方向(Michael Franklin),機器學習方向(Michael Jordan)、操作系統方向(Ion Stoica)。

大數據對當前社會有哪些意義和價值?

1.2010年時代雜誌刊載的醫學界年度十大突破中,醫療科技公司CardioDX通過

對1億個基因樣本的分析,最終識別出能夠預測冠心病的23個主要基因

2.2009年Google的研究人員通過對每日超過3O億次搜索請求和網頁數據的挖掘

分析,在HIN1流感爆發幾周就預測出流感傳播

3.2007年以來eBay通過數據分析技術可以精確計算出廣告中的每一個關鍵字為公司帶來的回報。通過對廣告投放的優化,eBay產品銷售的廣告費降低了99%,而頂級賣家佔總銷售額的百分比卻上升至32%。

那麼"大數據"究竟大在哪?大在它的維度,維度包括,數據規模,數據類型,生命週期,加工深度,處理方式,系統用戶,數據質量,數據價值。

數據規模大,從TB->PB->EB->ZB->...

多樣的數據類型:①結構化數據(關係型數據庫):先有模式,後有數據②半結構化數據(XML文檔數據):先有部分模式③非結構化數據(文本圖片,音頻):現有數據,後有模式(半結構和非結構化數據是大數據的主體,佔到80%以上)

大數據分析生命週期長:獲取記錄,抽取清洗,集成聚合,分析建模,解釋展示,可如下圖所以:

大數據基礎之緒論與基本概念

大數據分析的生命週期

大數據的深度加工難度大且複雜:數據(Raw data),信息(information),知識(Knowledge),智慧(Insight)。

大數據處理方式多:批量(Batch),在線(Online),實時(Real-time)。

大數據的質量要求高:

精確性:數據是否精確表述一個事實。

一致性:不同數據實體間關係是否一致。

完整性:是否所有必要的數據都已經呈現。

時效性:數據及其起源是否能夠及時獲取。

大數據的價值:

價值密度的稀疏,新浪微博一天有1億多條消息,幾乎都是沒有價值的,紅樓夢僅有73W字,但是圍繞著它的分析,論文,課程,對比那1億多條消息顯然是有價值的多。

目前大數據技術體系現狀可以分為以下六點:①採集與集成;②存儲於管理;③分析與挖掘;④可視化;⑤隱私與安全;⑥計算範型。

大數據基礎之緒論與基本概念

大數據技術體系現狀

大數據問題有個無法迴避的問題就是數據質量問題,之前有提到,大數據的要求高,而傳統數據質量僅通過ETL方式執行(抽取,轉換,加載,解析,模式分析)沒有完全覆蓋數據質量的基本性質。並且往往收集來的數據具有的是高緯、海量、多變、模糊、質量低下等特點。所以在大數據中保證絕對的數據質量並不現實。況且在現代軟件工程中我們還需要面對來自分佈式環境的挑戰:如何保證全局數據的一致性、精確性、完整性;流數據環境中如何保證時效性、一致性等問題。

大數據的特點由下圖所示:

大數據基礎之緒論與基本概念

大數據技術生態圈

這裡引用谷歌搜索的架構圖:

大數據基礎之緒論與基本概念

基本上大廠都是推出符合自身業務的軟件技術棧來彌補硬件上的不足。

這裡給出一些常見的大數據軟件及平臺。

Cassandra,是一套開源的NOSQL數據庫,用於社交網、物聯網領域的典型大數據系統。

Berkeley大數據處理平臺(BDAS),它的特點是快速的處理大量數據。

大數據基礎之緒論與基本概念

BDAS特點

目前比較熱門流行的基本來說是指hadoop生態圈+spark生態圈了,spark生態圈主要是基於Hadoop的文件存儲系統,它解決了hadoop在內存上的不足問題,將數據加載在內存上,在內存崩潰時又能利用文件管理系統恢復。所以它的速度要比mapreduce高一到兩個數量級。

人們普遍認識到的數據"大"(Volume),不是數據科學麵臨的全部挑戰,甚至不是主要挑戰。來自不同數據源的、不同類型、不同語義(Variety)的數據集合的深度綜合與融合問題遠沒有解決,同時,物聯網、傳感網、穿戴設備等機器數據的快速到達(Velocity),對數據處理的時效性提出了更大的挑戰,除此之外數據隱私與可用性(包括數據質量)問題更是存在挑戰。


分享到:


相關文章: