想要學習大數據,應該看些什麼書?

摘星的哥哥



第一階段:大數據基礎語言的學習
  • Java語言基礎:Java開發介紹、熟悉Eclipse開發工具、Java語言基礎、Java流程控制、Java字符串、Java數組與類和對象、數字處理類與核心技術、I/O與反射、多線程、Swing程序與集合
  • HTML、CSS與JavaScript:PC端網站佈局、HTML5+CSS3基礎、WebApp頁面佈局、原生JavaScript交互功能開發、Ajax異步交互、jQuery應用
  • JavaWeb和數據庫:數據庫、JavaWeb開發核心、JavaWeb開發內幕

推薦書籍:

  • 《Effective Java》

本書為我們帶來了共78條程序員必備的經驗法則,針對你每天都會遇到的編程問題提出了有效、實用的解決方案。 書中的每一章都包含幾個"條目",以簡潔的形式呈現,自成獨立的短文,它們提出了具體的建議,對於Java平臺精妙之處的獨到見解,以及優秀的代碼範例。每個條目的綜合描述和解釋都闡明瞭應該怎麼做,不應該怎麼做,以及為什麼。

第二階段: Linux&Hadoop生態體系

Linux體系、Hadoop離線計算大綱、分佈式數據庫Hbase、數據倉庫Hive、數據遷移工具Sqoop、Flume分佈式日誌框架

推薦書籍:

  • 《Big Data》

在大數據的背景下,我很少看到關於數據建模,數據層,數據處理需求分析以及數據架構和存儲實現問題。這本書卻提供了令人耳目一新的全面解決方案。

  • 《Hadoop權威指南》

《Hadoop權威指南(中文版)》從Hadoop的緣起開始,由淺入深,結合理論和實踐,全方位地介紹Hadoop這一高性能處理海量數據集的理想工具。

  • 《Hive編程指南》

《Hive編程指南》是一本Apache Hive的編程指南,旨在介紹如何使用Hive的SQL方法HiveQL來彙總、查詢和分析存儲在Hadoop分佈式文件系統上的大數據集合。

第三階段: 分佈式計算
  • 分佈式計算框架:Python編程語言、Scala編程語言、Spark大數據處理、Spark—Streaming大數據處理、Spark—Mlib機器學習、Spark—GraphX 圖計算、實戰一:基於Spark的推薦系統(某一線公司真實項目)、實戰二:新浪網(http://www.sina.com.cn)
  • storm技術架構體系:Storm原理與基礎、消息隊列kafka、Redis工具、zookeeper詳解、實戰一:日誌告警系統項目、實戰二:猜你喜歡推薦系統實戰

推薦書籍:

  • 《Spark 快速大數據分析》

《Spark 快速大數據分析》是一本為Spark 初學者準備的書,它沒有過多深入實現細節,而是更多關注上層用戶的具體用法。不過,本書絕不僅僅限於Spark 的用法,它對Spark 的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。

  • 《Spark機器學習:核心技術與實踐》

本書採用理論與大量實例相結合的方式幫助開發人員掌握使用Spark進行分析和實現機器學習算法。通過這些示例和Spark在各種企業級系統中的應用,幫助讀者解鎖Spark機器學習算法的複雜性,通過數據分析產生有價值的數據洞察力。

第四階段: 大數據項目實戰

數據獲取、數據處理、數據分析、數據展現、數據應用

第五階段:大數據分析 —AI(人工智能)

主要是講解Data Analyze數據分析基礎、數據可視化、sklearn中三類樸素貝葉斯算法以及python機器學習等提升個人能力的內容!


IT技術管理那些事兒


大數據的基礎學科有三個,分別是數學、統計學和計算機學,所以學習大數據首先要具備一定的數學基礎,包括高等數學、線性代數、概率論和離散數學,然後是基礎的統計學基礎和計算機基礎。

雖然大數據的崗位比較多,遍佈數據的採集、整理、存儲、安全、分析、呈現等方面,但是比較核心的大數據崗位包括大數據平臺研發、大數據應用開發和大數據分析等,這些崗位雖然在知識結構上有一定的區別,但是基本的大數據知識是一定要具備的,下面做一個介紹。

第一:算法設計。大數據的核心是數據價值化,數據分析則是數據價值化的重要途徑,而算法設計則是數據分析的核心,因此算法設計在大數據知識體系中具有重要的地位。算法設計的書籍比較多,推薦讀一下《算法導論》,這是一本比較經典的算法設計類書籍。

第二:編程語言。算法設計之後就需要進行算法實現,算法實現就需要掌握編程語言,能夠實現算法的編程語言有很多,包括R、Python、Java等都可以,推薦系統學習一下Python語言,採用Python完成算法實現在目前的大數據和機器學習領域是一個比較普遍的選擇。

第三:大數據平臺。大數據平臺是大數據應用的基礎,目前比較常見的大數據平臺包括Hadoop和Spark。Hadoop平臺已經被業界使用多年,已經形成了一個比較完善的生態體系,建議從Hadoop開始學起。

第四:機器學習。機器學習與大數據的關係越來越密切,目前在大數據分析領域經常採用機器學習的方式。通過大數據進入機器學習領域,再全面進入人工智能領域也是目前一個比較常見的學習路線。

大數據的學習需要一個系統的過程,另外最好在學習的過程中能結合實際案例進行,這樣會有一個更好的效果。

作者簡介:中國科學院大學計算機專業研究生導師,從事IT行業多年,研究方向包括動態軟件體系結構、大數據、人工智能相關領域,有多年的一線研發經驗。

歡迎關注作者,歡迎諮詢計算機相關問題。


IT人劉俊明


1.《大數據分析:點“數”成金》大數據學習入門級書籍推薦

你現在正坐在一座金礦之上,這些金子或被深埋於備份、存檔數據之中,或正藏在你眼前的數據集裡,它們是提升公司效益、拓展新的商業關係、制訂更直觀決策的秘訣所在,足以使你的企業更上一層樓。你將明白如何利用、分析和駕馭數據來獲得豐厚回報。作者Frank Ohlhorst“厚積”數十年的技術經驗而“薄發”於此書,他將向讀者介紹怎樣將大數據分析應用於各行各業。在中,你將瞭解到如何對數據進行挖掘,怎樣從數據中揭示趨勢並轉化為競爭策略及攫取價值的方法。這些更有意思也更有效的方法能夠提升企業的智能化水平,將有助於企業解決實際問題,提升利潤空間,提高生產率並發現更多的商業機會。

2、《大數據時代 》大數據學習入門級書籍推薦

《大數據時代》是國外大數據系統研究的先河之作,本書作者維克托。邁爾。舍恩伯格被譽為“大數據商業應用一人”,擁有在哈佛大學、牛津大學、耶魯大學和新加坡國立大學等多個互聯網研究重鎮任教的經歷,早在2010年就在《經濟學人》上發佈了長達14頁對大數據應用的前瞻性研究。維克托。爾耶。舍恩伯格在本書中前瞻性地指出,大數據帶來的信息風暴正在變革我們的生活、工作和思維,大數據開啟了一次重大的時代轉型,並用三個部分講述了大數據時代的思維變革、商業變革和管理變革。《大數據時代》認為大數據的核心就是預測。大數據將為人類的生活創造前所未有的可量化的維度。大數據已經成為了新發明和新服務的源泉,而更多的改變正蓄勢待發。書中展示了谷歌、微軟、IBM、蘋果、facebook、twitter、VISA等大數據先鋒們具價值的應用案例。

3、《雲端時代殺手級應用:大數據分析》大數據學習入門級書籍推薦

《雲端時代殺手級應用:大數據分析》分什麼是大數據、大數據大商機、技術與前瞻3個部分。第一部分介紹大數據分析的概念,以及企業、政府部門可應用的範疇。什麼是大數據分析?與個人與企業有什麼關係?將對全球產業造成怎樣的衝擊?第二部分完整介紹大數據在各產業的應用實況,為企業及政府部門提供應用的方向。提供了全球各地的實際應用案例,涵蓋零售、金融、政府部門、能源、製造、娛樂、醫療、電信等各個行業,充分展現大數據分析產生的效益。第三部分則簡單介紹了大數據分析所需技術及未來發展趨勢,為讀者提供了應用與研究的方向。

4、《大數據》大數據學習入門級書籍推薦

本書通過講述美國半個多世紀信息開放、技術創新的歷史,以別開生面的經典案例–奧巴馬建設“前所未有的開放政府”的雄心、公共財政透明的曲折、《數據質量法》背後的隱情、全民醫改法案的波瀾、統一身份證的百年糾結、街頭警察的創新傳奇、美國礦難的悲情歷史、商務智能的前世今生、數據開放運動的全球興起,以及雲計算、Facebook和推特等社交媒體、Web3.0與下一代互聯網的未來圖景等等,為您一一細解,數據創新給公民、政府、社會帶來的種種挑戰和變革。

5、《大數據互聯網大規模數據挖掘與分佈式處理》大數據學習入門級書籍推薦

《大數據:互聯網大規模數據挖掘與分佈式處理》源自作者在斯坦福大學教授多年的“Web挖掘”課程材料,主要關注大數據環境下數據挖掘的實際算法。書中分析了海量數據集數據挖掘常用的算法,介紹了目前Web應用的許多重要話題。主要內容包括:分佈式文件系統以及Map-Reduce工具;相似性搜索;數據流處理以及針對易丟失數據等特殊情況的專用處理算法;搜索引擎技術,如谷歌的PageRank;頻繁項集挖掘;大規模高維數據集的聚類算法;Web應用中的關鍵問題:廣告管理和推薦系統。

6、 巴拉巴西《爆發》

《爆發:大數據時代預見未來的新思維》是一本越過《黑天鵝》的驚世之作。如果說塔勒布認為人類行為是隨機的,都是小概率事件,是不可以預測的;那麼全球複雜網絡著名巴拉巴西則認為,人類行為93%是可以預測的。巴拉巴西的研究是在人類生活數字化的大數據時代基礎上進行的,移動電話、網絡以及電子郵件使人類行為變得更加容易量化,將我們的社會變成了一個巨大的數據庫。他認為,人類正處在一個聚合點上,在這裡數據、科學以及技術都聯合起來共同對抗那個很大的謎題–我們的未來。在本書中,巴拉巴西揭開人類行為背後隱藏的模式“爆發”,提出人類日常行為模式不是隨機的,而是具有“爆發性”的。爆發揭開了人類行為中令人驚訝的深層次的秩序,使得人類變得比預期中更容易預測得多。


區塊鏈商機


想從零開始的人,就不要過於依賴大數據。理由,大數據會制約你的想象力,桎梏你的開發能力。大數據對從零開始的人來說,只可借鑑利用,絕不可重用。常規領域裡的應用,那是另一說。哈哈。對吧?


肖穎50


大數據太廣了,看你需求,你是想做的偏技術數據,還是想偏業務方向。可以細分很多領域,包括數據存儲,數據處理,數據挖掘,數據可視化等。每一個都需要花費力氣去學的。


數據醬人


看曹操,劉備。


分享到:


相關文章: