BAT雲計算大數據處理技術應用是什麼樣?Hadoop大數據處理告訴你

本篇以大數據處理系統的三大關鍵要素一“存儲” 、“計算” 與“容錯”為起點,深入淺出地介紹瞭如何使用Hadoop這一高性能分佈式技術完成大數據處理任務。本篇不僅包含了使用Hadoop進行大數據處理的實踐性知識和示例,還以圖文並茂的形式系統性地揭示了Hadoop技術族中關鍵組件的運行原理和優化手段,為讀者進一步提升Hadoop使用技巧和運行效率提供了頗具價值的參考。

BAT雲計算大數據處理技術應用是什麼樣?Hadoop大數據處理告訴你

本篇共10章,涉及的主題包括大數據處理概論、基於Hadoop的大數據處理框架、MapReduce 計算模式、使用HDFS存儲大數據、HBase大數據庫、大數據的分析處理、Hadoop環境下的數據整合、Hadoop集群的管理與維護、基於MapReduce 的數據挖掘實踐及面向未來的大數據處理技術。最後附有一個在Windows環境下搭建Hadoop開發及調試環境的參考手冊。

第1章為大數據處理概論,對大數據處理給出了一個多維度定義,梳理了大數據處理平臺的基礎架構,介紹了完成大數據處理任務要解決的3個關鍵問題一存儲、計算和容錯,並歸納性地總結了Hadoop技術的關鍵性思路。

第2章以Hadoop技術的來源,Google的三大關鍵技術為引子,介紹了Hadoop整體架構、基本原理和發展歷程,在此基礎上展示了一個使用Hadoop技術完成大數據處理工作的簡明框架,同時簡要介紹了目前Hadoop技術在國內知名企業中的應用情況。

BAT雲計算大數據處理技術應用是什麼樣?Hadoop大數據處理告訴你

第3章深入剖析了MapReduce計算模式,包括原理和工作機制,介紹了實用性的MapReduce應用開發方法,並結合簡單的實例講解了幾類常用的MapReduce設計模式,同時以3個經典算法為例講解了MapReduce算法的設計精髓,最後給出了一些重要的MapReduce程序優化的方法。

第4章全面講解了HDFS分佈式文件存儲系統的工作原理和機制,說明了使用命令行和代碼對HDFS文件進行操作的方法,介紹了提高文件訪問效率的若干重要優化方法,並梳理了目前解決HDFS中小文件存儲和高可用性問題的解決方法。

BAT雲計算大數據處理技術應用是什麼樣?Hadoop大數據處理告訴你

第5章介紹了可用於快速數據檢索的HBase技術,包括核心原理與架構,以及管理HBase中數據的方法,同時從傳統關係型數據庫使用者的角度講解了如何在新型列存儲數據庫上進行設計與開發的方法,並梳理了提高HBase性能的重要方法。

第6章介紹了Hadoop中的高層數據分析工具Hive 和Pig,結合具體實例講解了這兩個工具的使用方法,並從實際應用的角度對具有相似性的兩者進行了差異對比,給出了選擇建議。第7章闡述了複雜數據應用環境下的數據整合問題,詳細介紹了適用於Hadoop與外部SQL數據整合的工具Sqoop, 以及Hadoop 平臺內部的數據整合工具HCatalog。

第8章介紹了集群管理者所關注的管理與維護體系和相關工具,從配置管理、集群監控、故障處理與安全性等角度梳理了目前常用的Hadoop集群管理工具,並進行了總結與對比。

BAT雲計算大數據處理技術應用是什麼樣?Hadoop大數據處理告訴你

第9章重點介紹基於MapReduce的數據挖掘技術,包括基本原理和方法、若干經典算法的實例,以及目前已有的基於MapReduce的數據挖掘工具。

BAT雲計算大數據處理技術應用是什麼樣?Hadoop大數據處理告訴你

最後,在第10章介紹了將對未來大數據處理技術產生深遠影響的一-些新型大數據處理技術,包括Hadoop的下一代計算框架YARN、大數據的實時交互式分析工具Dremel和Impala、大數據的圖運算模型和工具Pregel和Hama。

本篇呢將Hadoop講的特別深刻,適合需要使用Hadoop處理大數據的程序員、架構師和產品經理作為技術參考和培訓資料,也可作為高校研究生和本科生教材。

由於頭條篇幅限制,小編在此就不多做介紹了,需要獲取這篇【Hadoop大數據處理】技術文檔的小夥伴,就可以轉發此文關注小編,私信小編“學習”來得到獲取方式了。

BAT雲計算大數據處理技術應用是什麼樣?Hadoop大數據處理告訴你

BAT雲計算大數據處理技術應用是什麼樣?Hadoop大數據處理告訴你


分享到:


相關文章: