03.07 「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰

本文的主題是Hadoop+Spark大數據分析與機器學習。眾所周知,Hadoop是運用最多的大數據平臺,然而Spark 異軍突起,與Hadoop兼容而且運行速度更快,各大公司也開始加入Spark的開發。例如,IBM公司加入Apache Spark社區,打算培育百萬名數據科學家。谷歌(Google)公司與微軟公司也分別應用了Spark的功能來構建服務、發展大數據分析雲與機器學習平臺。這些大公司的加入,也意味著未來更多公司會採用Hadoop+ Spark進行大數據的數據分析。

然而,目前市面上雖然很多大數據的書,但是多半偏向理論或應用層面的介紹,網絡上的信息雖然很多,但是也很雜亂。本文希望能夠用淺顯易懂的原理介紹和說明,再加上上機實踐操作、範例程序,來降低大數據技術的學習門檻,帶領讀者進入大數據與機器學習的領域。當然整個大數據的生態系非常龐大,需要學習的東西太多。希望讀者通過本文的學習,有了基本的概念後,能比較容易踏入這個領域,以便繼續深入與研究其他大數據的相關技術。

「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰

文檔內容簡介

本文檔從淺顯易懂的“大數據和機器學習”原理介紹和說明入手,講述大數據和機器學習的基本概念,如:分類、分析、訓練、建模、預測、機器學習(推薦引擎)、機器學習(二元分類)、機器學習(多元分類)、機器學習(迴歸分析)和數據可視化應用。為降低讀者學習大數據技術的門檻,書中提供了豐富的上機實踐操作和範例程序詳解,展示瞭如何在單臺Windows系統上通過Virtual Box虛擬機安裝多臺Linux 虛擬機,如何建立Hadoop集群,再建立Spark開發環境。文中介紹搭建的上機實踐平臺並不限制於單臺實體計算機。對於有條件的公司和學校,參照文中介紹的搭建過程,同樣可以將實踐平臺搭建在多臺實體計算機上,以便更加接近於大數據和機器學習真實的運行環境。

章節介紹

第1章大數據與機器學習:介紹大數據、Hadoop、HDFS、MapReduce、 Spark、 機器學習

第2章VirtualBox虛擬機軟件的安裝:上機實踐操作。安裝Virtual Box虛擬機,讓你可以在Windows系統上安裝多臺Linux虛擬機

第3章Ubuntu Linux操作系統的安裝:上機實踐操作。安裝Ubuntu Linux操作系統

「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰

第4章Hadoop Single Node Cluster的安裝:上機實踐操作。安裝單臺機器的Hadoop Single Node Cluster

第5章Hadoop Multi Node Cluster的安裝:上機實踐操作。安裝多臺機器的Hadoop Multi Node Cluster

第6章Hadoop HDFS命令:上機實踐操作。示範如何使用HDFS命令

「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰

第7章Hadoop MapReduce:介紹Hadoop MapReduce的原理。WordCount.java範例程序。示範使用Hadoop MapReduce計算文章內的每一個單詞出現的次數

第8章Spark的安裝與介紹:上機實踐操作。Spark安裝與spark-shell交互界面在不同環境中的運行示範

第9章Spark RDD:上機實踐操作。介紹Spark最基本的功能RDD ( Resilient Distributed Dataset,彈性分佈式數據集)的基本運算

「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰

第10章Spark的集成開發環境:上機實踐操作。安裝集成開發環境(IDE)。WordCount.scala範例程序。示範使用SparkMapReduce計算文章內的每一個單詞出現的次數

第11章創建推薦弓|擎:介紹如何使用Spark MLlib 以MovieLens 數據集建立電影的推薦引擎(Recommendation Engine)。Recommend.scala範例程序。示範如何獲取數據、訓練模型、推薦用戶或電影,建立電影的推薦系統。AlsEvalution.scala範例程序。示範如何調試推薦引擎參數,找出最佳的參數組合

「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰

第12章StumbleUpon數據集:StumbleUpon數據集屬於二元分類問題,可以根據網頁的特徵預測哪些網頁是暫時性的或是可以長久存在的

第13章決策樹二元分類:RunDecisionTreeBinary.scala範例程序。示範如何使用決策樹二元分類分析StumbleUpon數據集,預測哪些網頁是暫時性的或可以長久存在的,並且找出最佳的參數組合,提高預測準確度

第14章邏輯迴歸二元分類:RunLogisticRegressionWithSGDBinary.scala範例程序。示範如何使用決策樹二元分類分析StumbleUpon數據集,預測哪些網頁是暫時性的或是可以長久存在的,並且找出最佳的參數組合,提高預測準確度

第15章支持向量機SVM二元分類:RunSVMWithSGDBinary.scala範例程序。示範如何使用支持向量機SVM二元分類分析StumbleUpon數據集,預測哪些網頁是暫時性的或是可以長久存在的,並且找出最佳的參數組合,提高預測準確度

「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰

第16章樸素貝葉斯二元分類:RunNaiveBayesBinary.scala範例程序。示範如何使用樸素貝葉斯(Naive-Bayes)二元分類分析StumbleUpon 數據集,預測哪些網頁是暫時性的或是可以長久存在的,並且找出最佳的參數組合,提高預測準確度

第17章決策樹多元分類:RunDecisionTreeMulti.scala範例程序。示範如何使用決策樹多元分類分析Covtype數據集(森林覆蓋植被),根據不同的土地條件可以預測該地的植被,並且找出最佳的參數組合,提高預測準確度

第18章決策樹迴歸分析:RunDecisionTreeRegression.scala範例程序。示範介紹決策樹迴歸分析,分析Bike Sharing數據集。根據天(和假日條件,可以預測每一小時租借的數量, 並且找出最佳的參數組合,提高預測準確度

「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰

第19章使用Apache Zeppelin數據可視化:上機實踐操作。安裝Zeppelin並使用ml-100k數據集,示範使用Spark SQL進行數據分析與數據可視化

「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰

一般人可能會認為大數據需要在很多臺機器的環境下才能學習,實際上通過虛擬機的方法,就能在自家電腦上演練建立Hadoop集群,並且建立Spark開發環境。本書以實際操作介紹Hadoop中的MapReduce與HDFS基本概念,以及Spark中的RDD與MapReduce基本概念。

以大數據分析實際案例-MoiveLens(電影推薦引擎)、StumbleUpon (網頁二元分類)、CovType (森林覆蓋植被運算)、Bike Sharing ( Ubike類租賃預測分析)。配合範例程序代碼詳解各種機器學習算法,示範如何獲取數據、分析數據、建立模型、預測結果,由淺入深地介紹Spark機器學習。

這份《Hadoop+Spark大數據》小編已經為大家整理好了,由於文檔的內容太多,小編沒有辦法在這裡為大家一一展示,如果需要這份文檔,只需要轉發小編的文章+私信【學習】二字即可,記住一定要轉發!謝謝大家!

「資源」每天花5h來學習Hadoop+Spark大數據巨量分析與機器學習實戰


分享到:


相關文章: