GitHub 6.9K高星推薦,104人傾情整理的大數據學習框架全在這裡!

你還在為如何學習大數據而苦惱嗎?

培訓機構很貴,自學又很難找到好的資源。。。今天小編就為大家分享一份GitHub上最全的大數據學習框架,裡面有最全的分類,共104位貢獻者,那我們就一起來看看吧~

GitHub 6.9K高星推薦,104人傾情整理的大數據學習框架全在這裡!

食用小指南:這篇github彙總了幾乎所有大數據包含的技術。且包含了知識點資料的鏈接。

  • 對不瞭解大數據的同學,這篇彙總會系統性的告訴你大數據需要了解的技術;
  • 對了解大數據的同學,可以更加豐富你的知識體系,如分佈式編程就彙總了53種技術,說不定會對你的工作帶來新思路~

先來列一下框架的總目錄~只有你想不到沒有你看不到的,連大數據相關的電影和論文都有推薦。

GitHub 6.9K高星推薦,104人傾情整理的大數據學習框架全在這裡!

GitHub 6.9K高星推薦,104人傾情整理的大數據學習框架全在這裡!

原文共彙總了29個技術分類,小編截取了幾段內容給大家分享~

1.要學習數據庫,這裡列了4類不同的數據庫供你學習:

  • MySQL:世界上最流行的開源數據庫。
  • PostgreSQL:世界上最先進的開源數據庫。
  • Oracle數據庫:對象型關係數據庫管理系統。
  • Teradata :高性能MPP(大規模並行處理)數據倉庫平臺。

2.大數據框架

  • IBM Streams :分佈式處理和實時分析平臺,使用了許多大數據生態系統中的流行技術,Kafka,HDFS,Spark等等
  • Apache Hadoop:分佈式處理框架,集成了MapReduce(並行處理),YARN(作業調度)和HDFS(分佈式文件系統)。
  • Tigon:高吞吐量實時流處理框架。
  • Pachyderm - Pachyderm:一個基於Docker和Kubernetes構建的數據存儲平臺,可提供可重複的數據處理和分析。

3.分佈式文件系統

GitHub 6.9K高星推薦,104人傾情整理的大數據學習框架全在這裡!

4.基準測試

  • Apache Hadoop Benchmarking :用於測試Hadoop性能的微型基準測試。
  • Berkeley SWIM Benchmark :真實世界的大數據工作負載基準測試。
  • Intel HiBench :一個Hadoop基準測試套件。
  • PUMA Benchmarking :MapReduce應用程序的基準測試套件。
  • Yahoo Gridmix3 :來自雅虎工程師團隊的Hadoop集群基準測試。
  • Deeplearning4j基準

5.類似SQL的處理

GitHub 6.9K高星推薦,104人傾情整理的大數據學習框架全在這裡!

6.物聯網和傳感器數據

  • Apache Edgent(Incubating):一種編程模型和微內核樣式運行時,可以嵌入到網關和小型邊緣設備中,從而在邊緣設備上實現本地,實時的分析。
  • Azure物聯網中心 :基於雲的雙向監控和消息中心。
  • TempoIQ :基於雲的傳感器分析。
  • 2lemetry :物聯網平臺。
  • Pubnub : 數據流網絡。
  • ThingWorx :智能系統的快速開發和連接。
  • IFTTT :一種免費拿到你的APP和電子設備間傳遞的數據的工具。
  • Evrything :讓產品變得聰明。
  • NetLytics :用於處理Spark上的網絡數據的分析平臺。

7.有趣的大數據讀物

  • 大數據基準:Redshift,Hive,Shark,Impala和Stiger / Tez的基準。
  • NoSQL比較:Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris比較。
  • 監控Kafka性能 : 監控Apache Kafka的指南,包括用於度量收集的本機方法。
  • 監控Hadoop性能 : 監控Hadoop的指南,概述Hadoop架構以及用於度量收集的本機方法。

GitHub地址:https://github.com/onurakpolat/awesome-bigdata


分享到:


相關文章: