你還在為如何學習大數據而苦惱嗎?
培訓機構很貴,自學又很難找到好的資源。。。今天小編就為大家分享一份GitHub上最全的大數據學習框架,裡面有最全的分類,共104位貢獻者,那我們就一起來看看吧~
食用小指南:這篇github彙總了幾乎所有大數據包含的技術。且包含了知識點資料的鏈接。
- 對不瞭解大數據的同學,這篇彙總會系統性的告訴你大數據需要了解的技術;
- 對了解大數據的同學,可以更加豐富你的知識體系,如分佈式編程就彙總了53種技術,說不定會對你的工作帶來新思路~
先來列一下框架的總目錄~只有你想不到沒有你看不到的,連大數據相關的電影和論文都有推薦。
原文共彙總了29個技術分類,小編截取了幾段內容給大家分享~
1.要學習數據庫,這裡列了4類不同的數據庫供你學習:
- MySQL:世界上最流行的開源數據庫。
- PostgreSQL:世界上最先進的開源數據庫。
- Oracle數據庫:對象型關係數據庫管理系統。
- Teradata :高性能MPP(大規模並行處理)數據倉庫平臺。
2.大數據框架
- IBM Streams :分佈式處理和實時分析平臺,使用了許多大數據生態系統中的流行技術,Kafka,HDFS,Spark等等
- Apache Hadoop:分佈式處理框架,集成了MapReduce(並行處理),YARN(作業調度)和HDFS(分佈式文件系統)。
- Tigon:高吞吐量實時流處理框架。
- Pachyderm - Pachyderm:一個基於Docker和Kubernetes構建的數據存儲平臺,可提供可重複的數據處理和分析。
3.分佈式文件系統
4.基準測試
- Apache Hadoop Benchmarking :用於測試Hadoop性能的微型基準測試。
- Berkeley SWIM Benchmark :真實世界的大數據工作負載基準測試。
- Intel HiBench :一個Hadoop基準測試套件。
- PUMA Benchmarking :MapReduce應用程序的基準測試套件。
- Yahoo Gridmix3 :來自雅虎工程師團隊的Hadoop集群基準測試。
- Deeplearning4j基準
5.類似SQL的處理
6.物聯網和傳感器數據
- Apache Edgent(Incubating):一種編程模型和微內核樣式運行時,可以嵌入到網關和小型邊緣設備中,從而在邊緣設備上實現本地,實時的分析。
- Azure物聯網中心 :基於雲的雙向監控和消息中心。
- TempoIQ :基於雲的傳感器分析。
- 2lemetry :物聯網平臺。
- Pubnub : 數據流網絡。
- ThingWorx :智能系統的快速開發和連接。
- IFTTT :一種免費拿到你的APP和電子設備間傳遞的數據的工具。
- Evrything :讓產品變得聰明。
- NetLytics :用於處理Spark上的網絡數據的分析平臺。
7.有趣的大數據讀物
- 大數據基準:Redshift,Hive,Shark,Impala和Stiger / Tez的基準。
- NoSQL比較:Cassandra vs MongoDB vs CouchDB vs Redis vs Riak vs HBase vs Couchbase vs Neo4j vs Hypertable vs ElasticSearch vs Accumulo vs VoltDB vs Scalaris比較。
- 監控Kafka性能 : 監控Apache Kafka的指南,包括用於度量收集的本機方法。
- 監控Hadoop性能 : 監控Hadoop的指南,概述Hadoop架構以及用於度量收集的本機方法。
GitHub地址:https://github.com/onurakpolat/awesome-bigdata
閱讀更多 雲計算技術實踐 的文章