大數據時代
整個大數據時代的開啟在2010年,公認的中國大數據元年是2013年。
第一次信息化浪潮是1980年代,pc機的普及,不需要手動處理各種信息;
第二次信息化浪潮是1995年左右,互聯網的普及應用,使分佈在各地的相關信息能夠互聯互通;
第三次信息化浪潮是2010年左右,以雲計算、大數據、物聯網的廣泛應用為標誌;
大數據時代為什麼會到來?
1 存儲設備價格逐漸降低,容量逐漸上升,數據存儲價格在降低,存儲的數據量越來越大;
2 CPU的處理能力以摩爾定律上升(CPU的處理能力每隔18~24個月會翻一番,到最後也會打到瓶頸);
3 網絡帶寬的不斷增加,藉助網絡進行分佈式計算;
4 數據產生方式的變革,運營式系統階段(業務系統)到用戶原創內容階段(微博,博客,自拍等)到感知式系統階段的數據生成方式(物聯網感知設備大規模普及產生)。
大數據概念
大數據的4V特性:大量化Volume,快速化Velocity,多樣化Variety,價值密度低Value。
Volume:美國IDC報告,大數據摩爾定律:人類產生的數據以每年50%的速度增長
Variety:結構化數據(10%),非結構化數據(90%)
Velocity:1秒定律,數據從生成到給出結果在1s之內,推薦系統等
Value:海量數據中有價值的數據量是很低的,如監控視頻等,整體價值密度低,但是單點價值高。
大數據影響
1 大數據對科學研究的影響
人類發展的研究模式從實驗、理論、計算到數據四中範式進行演變。大數據時代使人類進入了以數據為中心的研究範式(圖靈獲得者,數據庫專家Jim Gray博士提出)。
實驗範式:伽利略-兩個鐵同時落地
理論範式:牛頓三大定路
計算範式:天河二號,互聯網
數據範式:計算範式是發現了問題的核心,以計算範式去發現解決問題,數據範式是在不知道問題所在基礎上以數據驅動去發現並模擬,來發現問題所在,並制定策略。(《大數據時代》維克托舍恩·伯格)。
2 大數據對思維模式的影響
1> 大數據研究的範圍是全部數據而非樣本數據:之前由於存儲設備昂貴、存儲數據少、CPU和技術能力不強、無法短時間迅速計算等原因而採用樣本數據計算來預測全量數據結果。大數據時代的專注於全量數據。
2> 效率而非精確:效率比精度更加重要,追求短時間內給出比較精確而非過高追求精度的數據結果。
3> 相關而非因果:不去追問為什麼,而且找到關聯關係。
大數據關鍵技術
大數據的關鍵技術包括:數據採集、數據存儲與管理、數據處理與分析、數據隱私與安全。
1>數據採集
2>數據存儲與管理
數據存儲保存於文件系統與數據庫中。
3>數據處理與分析
如何利用現有數據進行高效計算:分佈式計算。
4> 數據隱私與安全
雖然大數據的關鍵技術劃分為該四中,但是最重要的就是數據存儲與管理、數據處理與分析等相關技術的發展才誕生了真正的大數據。即分佈式存儲與分佈式處理技術。分佈數存儲系統由Google提出的GFS思想發展成的HDFS等技術,分佈數處理技術由MapReduce思想發展而來的MapReduce編程框架,即Hadoop的兩大核心模塊:分佈數存儲框架HDFS和分佈式處理框架MapReduce。
閱讀更多 晨晨電影秀 的文章