大數據的發展歷史-成都加米穀大數據培訓

1、大數據的發展歷程

2008年被《自然》雜誌專刊提出了BigData概念

萌芽階段:

20世紀90年代到21世紀的樣子,數據庫技術成熟,數據挖掘理論成熟,也稱數據挖掘階段。

突破階段:

2003——2006年,非結構化的數據大量出現,傳統的數據庫處理難以應對,也稱非結構化數據階段。

成熟階段:

2006——2009年,谷歌公開發表兩篇論文《谷歌文件系統》和《基於集群的簡單數據處理:MapReduce》,其核心的技術包括分佈式文件系統GFS,分佈式計算系統框架MapReduce,分佈式鎖Chubby,及分佈式數據庫BigTable,這期間大數據研究的焦點是性能,雲計算,大規模的數據集並行運算算法,以及開源分佈式架構(Hadoop)

應用階段:

2009年至今,大數據基礎技術成熟之後,學術界及及企業界紛紛開始轉向應用研究,2013年大數據技術開始向商業、科技、醫療、政府、教育、經濟、交通、物流及社會的各個領域滲透,因此2013年也被稱為大數據元年。

大數據的發展歷史-成都加米穀大數據培訓

2、大數據技術的影響

國外:

2010年,美國總統辦公室下屬科學技術顧問委員會和信息技術顧問向奧巴馬和國會提交《規劃數字化未來》,報告提出”如何收集、保存、管理、分析、共享正成指數增長的數據是我們面臨的一個挑戰“

2012年3月,奧巴馬簽署併發布”大數據研究發展創新計劃“

2012年7月,聯合國發佈白皮書《大數據促發展:挑戰與機遇》,全球大數據研究進入前所未有的高潮期。

2013年5月,麥肯錫研究院發佈研究報告《顛覆性技術:技術改變生活、商業和全球經濟》並未列入大數據技術,其給出的解釋是,大數據技術已成為其他技術的基石。

國內:

2012年中國計算機學會發布《2013年中國大數據技術與產業發展白皮書》

2015年9月,國務院引發了《促進大數據發展行動綱要》

2016年3月17日,國家”十三五“規劃綱要發佈,明確指出大數據發展相關事宜。

大數據的發展歷史-成都加米穀大數據培訓

3、大數據的重大事件

從2008年開始到至今事件非常多,無論國內還是國外,在此我只舉一例

2012年7月,阿里巴巴的管理層設立首席數據官一職,並推出”聚石塔“數據分享平臺,為淘寶天貓上的電商及電商服務商提供數據雲服務。

大數據的發展歷史-成都加米穀大數據培訓

4、大數據的概念

概念:難以用常規的數據庫工具獲取、存儲、管理、分析的數據集合。

特徵:

1、數據量大:起始單位是PB級的。

1KB=1024B

1MB=1024KB

1GB=1024MB

1TB=1024GB

1PB=1024TB

1EB=1024PB

1ZB=1024EB

2、類型多

結構化、板結構化、非結構化:網諾日誌、音頻、視頻、圖片、地理位置等信息混雜。

3、價值密度低

獲取數據的價值就像是淘金一般。

4、速度快時效高:

數據呈指數倍增長,時效性要求高,比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法儘可能的完成實時推薦。

5、永遠在線

大數據時代的數據是永遠在線的,隨時應用計算,這也是區別於傳統的數據的最大特徵。

大數據的發展歷史-成都加米穀大數據培訓

5、大數據從哪來

1、搜索引擎服務

2、電子商務

3、社交網絡

QQ:8.5億用戶,用4400臺服務器存儲用戶產生的信息,壓縮後的數據100PB,每天新增200~300TB

4、音視頻在線服務

5、個人數據業務

6、地理信息數據

7、傳統企業

8、公共機構

智慧城市:攝像頭拍攝的圖片,1080P高清網絡攝像機一月產生1.8TB數據,大點的城市50萬個攝像頭,一個月3PB的數據量。

醫療、中國的氣象系統。

大數據的發展歷史-成都加米穀大數據培訓

6、大數據的挑戰

1、技術挑戰、安全挑戰(黑客攻擊)、運營商(法律缺失)的挑戰。

7、大數據的存儲與計算模式

存儲:

面臨的問題:數據量大、類型複雜(結構化、非結構化、半結構化)

關鍵技術:

1、分佈式文件系統(高效元數據管理技術、系統彈性擴展技術、存儲層級內的優化、針對應用和負載的存儲優化技術、針對存儲器件的優化技術)

2、分佈式數據庫

事務性數據庫技術:NoSQL:(支持非關係數據庫、具有多個節點分割和複製數據的能力、用最終一致性機制解決併發讀操作與控制問題、充分利用分佈式索引及內存提高性能)代表有:BigTable、HBase、MongoDB、Dynamo。

分析型的數據庫技術:Hive 、Impala

3、大數據索引和查詢技術

4、實時流式大數據存儲與處理技術

大數據的發展歷史-成都加米穀大數據培訓

計算:

面臨的問題:數據結構特徵、並行計算(以分佈式文件為基礎的Hadoop\以分佈式內存緩存為基礎的Spark)、數據獲取(批處理\流處理)、數據處理類型(傳統查詢\數據挖掘分析計算)、實時響應性能、迭代計算、數據關聯性(先map一下再reduce一下)。

關鍵技術:

1、大數據查詢分析計算模式與技術:HBase、Hive、Cassandra、Impala

2、批處理計算:Hadoop MapReduce、Spark

3、流式計算:Storm、Spark Steaming

4、圖計算:Giraph、GraphX

5、內存計算:Spark、Hana(SAP公司全內存式分佈式數據庫系統)、Dremel

大數據的發展歷史-成都加米穀大數據培訓

8、應用領域

1、智慧醫療(臨床數據、公共衛生數據、移動醫療健康數據)(共享疾病案例,基因分類參考)

2、智慧農業(主要指依據商業需求進行農產品生產,降低菜殘傷農概率)

3、金融行業:

精準的營銷:根據可與習慣進行推銷

風險管控:根據用戶的交易流水實施反欺詐

決策支持:抵押貸款這一塊,實施產業信貸的風險控制。

效率提升:加快內部數據處理。

產品設計:根據客戶的投資行為設計滿足客戶需求的金融產品。

4、零售行業(對零售商來說:精準營銷(降低營銷成本,擴大營銷額);對廠商:降低產品過剩)

5、電子商務行業

6、電子政務

大數據的發展歷史-成都加米穀大數據培訓


分享到:


相關文章: