大數據學習路線圖【瞧一瞧,看一看了】

一,入門準備

1,LINUX操作基礎

1)Linux的介紹,Linux的安裝:VMware的工作站虛擬軟件安裝過程,CentOS虛擬機安裝過程

2)Linux的常用命令:常用命令的介紹,常用命令的使用和練習(文件操作,用戶管理與權限,免費)密登陸配置與網絡管理)

3)的Linux系統進程管理基本原理及相關管理工具如PS,pkill的,頂部,HTOP等的使用;

4)Linux的啟動流程,運行級別詳解,chkconfig的詳解

5)VI,VIM編輯器:VI,VIM編輯器的介紹,VI,VIM扥使用和常用快捷鍵

6)Linux磁盤管理,lvm邏輯卷,nfs詳解

7)Linux系統文件權限管理:文件權限介紹,文件權限的操作

8)Linux的RPM軟件包管理:RPM包的介紹,RPM安裝,卸載等操作

9)yum命令,yum源搭建

10)Linux網絡:Linux網絡的介紹,Linux網絡的配置和維護 防火牆配置

11)Shell編程:Shell的介紹,Shell腳本的編寫

12)Linux上常見軟件的安裝:安裝JDK,安裝Tomcat,安裝mysql,web項目部署

13)linux的高級文本處理命令切,sed的,awklinux

14)定時任務的crontab

2,大型網站高併發處理

1)第四層負載均衡

a)Lvs負載均衡i。負載算法,NAT模式,直接路由模式(DR),隧道模式(TUN)

b)F5負載均衡器介紹

2)第七層負載均衡

a)Nginx b)Apache

3)Tomcat,jvm優化提高併發量

4)緩存優化

a)Java緩存框架i。Oscache,ehcache

b)緩存數據庫i。Redis,Memcached

5)Lvs + nginx + tomcat + redis | memcache構建二層負載均衡千萬併發處理

6)Haproxy

7)Redd

緩存系統a)Redis基本使用b)Redis sentinel高可用c)Redis好友推薦算法

3,Lucene的基礎

在這裡還是要推薦下我自己建的大數據學習交流群:943791324,群裡都是學大數據開發的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟件開發黨,不定期分享乾貨(只有大數據軟件開發相關的),包括我自己整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深入大數據的小夥伴加入。

1)Lucene介紹

2)Lucene倒排索引原理

3)建索引IndexWriter

4)搜索IndexSearcher

5)查詢

6)排序和過濾(過濾器)

7)索引優化和高亮

4,Solr的基礎

1)什麼是solr

2)為什麼工程中要使用solr

3)Solr的原理

4)如何在tomcat中運行solr

5)如何利用solr進行索引與搜索

6)solr的各種查詢

7)solr的過濾器

8)solr的排序

9)solr的高亮

10)solr的某個域統計

11)solr的範圍統計

12)solrcloud集群搭建

5,布式協調服務動物園管理員

動物園管理員簡介及應用場景

動物園管理員集群安裝部署

動物園管理員的數據節點與命令行操作

動物園管理員的Java的客戶端基本操作及事件監聽

動物園管理員核心機制及數據節點

動物園管理員應用案例 - 分佈式共享資源鎖

動物園管理員應用案例 - 服務器上下線動態感知

動物園管理員的數據一致性原理及領導人選舉機制

6,JAVA高級特性增強

Java的多線程基本知識

Java的同步關鍵詞詳解

Java的併發包線程池及在開源軟件中的應用

Java的併發包消息隊裡及在開源軟件中的應用

Java JMS技術

Java的動態代理反射

二,離線計算系統

1,hadoop的快速入門

的hadoop介紹主頁背景

分佈式系統-概述簡單描述

離線數據分析流程介紹

集群搭建

集群使用初步

2,HDFS增強

HDFS的概念和特性

HDFS的殼(命令行客戶端)操作

HDFS的工作機制

名稱節點的工作機制

的java的API操作

案例1:開發殼採集腳本

3,MapReduce的詳解

自定義的hadoop的RPC框架

的MapReduce編程規範及示例編寫

的MapReduce程序運行模式及調試方法

的MapReduce程序運行模式的內在機理

的MapReduce框架運算的主體工作流程

自定義對象的序列化方法

的MapReduce編程案例

4,MAPREDUCE增強

Mapreduce排序

自定義分區

器Mapreduce的組合器

mapreduce工作機制詳解

5,MapReduce的實戰

maptask並行度機制-文件切片

maptask度parallel-設置

倒排索引

共同好友

6、federation介紹和hive使用

Hadoop的HA機制

HA集群的安裝部署

集群運維測試之Datanode動態上下線

集群運維測試之Namenode狀態切換管理

集群運維測試之數據塊的balance

HA下HDFS-API變化

hive簡介

hive架構

hive安裝部署

hvie初使用

7、hive增強和flume介紹

HQL-DDL基本語法

HQL-DML基本語法

HIVE的join

HIVE 參數配置

HIVE 自定義函數和Transform

HIVE 執行HQL的實例分析

HIVE最佳實踐注意點

HIVE優化策略

HIVE實戰案例

Flume介紹

Flume的安裝部署

案例:採集目錄到HDFS

案例:採集文件到HDFS

三、數據遷移工具Sqoop

1) 介紹 和 配置Sqoop

2) Sqoop shell使用

3) Sqoop-import a) DBMS-hdfs b) DBMS-hive c) DBMS-hbase

4) Sqoop-export

四、Flume分佈式日誌框架

1) flume簡介-基礎知識

2) flume安裝與測試

3) flume部署方式

4) flume source相關配置及測試

5) flume sink相關配置及測試

6) flume selector 相關配置與案例分析

7) flume Sink Processors相關配置和案例分析

8) flume Interceptors相關配置和案例分析

9) flume AVRO Client開發

10) flume 和kafka 的整合

五、內存數據庫redis

1) redis特點、與其他數據庫的比較

2) 如何安裝redis

3) 如何使用命令行客戶端

4) redis的字符串類型

5) redis的散列類型

6) redis的列表類型

7) redis的集合類型

8) 如何使用java訪問redis【a.python訪問redis,scala訪問redis】

9) redis的事務(transaction)

10) redis的管道(pipeline)

11) redis持久化(AOF+RDB)

12) redis優化

13) redis的主從複製

14) redis的sentinel高可用

15) twemproxy,codis實戰

16) redis3.x集群安裝配置

六、Storm上下游及架構集成

1) kafka是什麼

2) kafka體系結構

3) kafka配置詳解

4) kafka的安裝

5) kafka的存儲策略

6) kafka分區特點

7) kafka的發佈與訂閱

8) zookeeper協調管理

9) java編程操作kafka

10) scala編程操作kafka

11) flume 和kafka 的整合

12) Kafka 和storm 的整合

七、Storm從入門到精通

1) Storm的基本概念

2) Storm的應用場景

3) Storm和Hadoop的對比

4) Storm集群的安裝的linux環境準備

5) zookeeper集群搭建

6) Storm集群搭建

7) Storm配置文件配置項講解

8) 集群搭建常見問題解決

9) Storm常用組件和編程API:Topology、 Spout、Bolt

10) Storm分組策略(stream groupings)

11) 使用Strom開發一個WordCount例子

12) Storm程序本地模式debug、Storm程序遠程debug

13) Storm事物處理

14) Storm消息可靠性及容錯原理

15) Storm結合消息隊列Kafka:消息隊列基本概念(Producer、Consumer、Topic、Broker等)、消息隊列Kafka使用場景、Storm結合Kafka編程API

16) Storm Trident概念

17) Trident state 原理

18) Trident開發實例

19) Storm DRPC(分佈式遠程調用)介紹

20) Storm DRPC實戰講解

21) Storm和Hadoop 2.x的整合:Storm on Yarn

八、scala編程

1) scala解釋器、變量、常用數據類型等

2) scala的條件表達式、輸入輸出、循環等控制結構

3) scala的函數、默認參數、變長參數等

4) scala的數組、變長數組、多維數組等

5) scala的映射、元組等操作

6) scala的類,包括bean屬性、輔助構造器、主構造器等

7) scala的對象、單例對象、伴生對象、擴展類、apply方法等

8) scala的包、引入、繼承等概念

9) scala的特質

10) scala的操作符

11) scala的高階函數

12) scala的集合

13) scala數據庫連接

九、內存計算體系Spark

1) Spark介紹

2) Spark應用場景

3) Spark和Hadoop MR、Storm的比較和優勢

4) RDD

5) Transformation

6) Action

7) Spark計算PageRank

8) Lineage

9) Spark模型簡介

10) Spark緩存策略和容錯處理

11) 寬依賴與窄依賴

12) Spark配置講解

13) Spark集群搭建

14) 集群搭建常見問題解決

15) Spark原理核心組件和常用RDD

16) 數據本地性

17) 任務調度

18) DAGScheduler

19) TaskScheduler

20) Spark源碼解讀

21) 性能調優

22) Spark和Hadoop2.x整合:Spark on Yarn原理

十、SparkStreaming應用實戰

Spark-Streaming簡介

Spark-Streaming編程

實戰:StageFulWordCount

Flume結合Spark Streaming

Kafka結合Spark Streaming

窗口函數

ELK技術棧介紹

ElasticSearch安裝和使用

Storm架構分析

Storm編程模型、Tuple源碼、併發度分析

Storm WordCount案例及常用Api分析

十一,機器學習算法

1,python及numpy庫

機器學習簡介

機器學習與python

python語言 - 快速入門

python語言 - 數據類型詳解

python語言 - 流程控制語句

python語言 - 函數使用

python語言 - 模塊和包

phthon語言 -面向對象

蟒機器學習算法庫-numpy

機器學習必備數學知識-概率論

2,常用算法實現

KNN分類算法-算法原理

KNN分類算法-代碼實現

KNN分類算法-手寫字識別案例

譜系迴歸分類算法-算法原理

血統迴歸分類算法-算法實現及演示

樸素貝葉斯分類算法-算法原理

樸素貝葉斯分類算法-實現算法

樸素貝葉斯分類算法-垃圾郵件識別應用案例

k均值聚類算法-算法原理

k均值聚類算法-算法實現

k均值聚類算法-聚類地理位置應用

決策樹分類照片算法-原理算法

決策樹分類照片算法-算法實現


大數據學習路線圖【瞧一瞧,看一看了】


分享到:


相關文章: