一,入門準備
1,LINUX操作基礎
1)Linux的介紹,Linux的安裝:VMware的工作站虛擬軟件安裝過程,CentOS虛擬機安裝過程
2)Linux的常用命令:常用命令的介紹,常用命令的使用和練習(文件操作,用戶管理與權限,免費)密登陸配置與網絡管理)
3)的Linux系統進程管理基本原理及相關管理工具如PS,pkill的,頂部,HTOP等的使用;
4)Linux的啟動流程,運行級別詳解,chkconfig的詳解
5)VI,VIM編輯器:VI,VIM編輯器的介紹,VI,VIM扥使用和常用快捷鍵
6)Linux磁盤管理,lvm邏輯卷,nfs詳解
7)Linux系統文件權限管理:文件權限介紹,文件權限的操作
8)Linux的RPM軟件包管理:RPM包的介紹,RPM安裝,卸載等操作
9)yum命令,yum源搭建
10)Linux網絡:Linux網絡的介紹,Linux網絡的配置和維護 防火牆配置
11)Shell編程:Shell的介紹,Shell腳本的編寫
12)Linux上常見軟件的安裝:安裝JDK,安裝Tomcat,安裝mysql,web項目部署
13)linux的高級文本處理命令切,sed的,awklinux
14)定時任務的crontab
2,大型網站高併發處理
1)第四層負載均衡
a)Lvs負載均衡i。負載算法,NAT模式,直接路由模式(DR),隧道模式(TUN)
b)F5負載均衡器介紹
2)第七層負載均衡
a)Nginx b)Apache
3)Tomcat,jvm優化提高併發量
4)緩存優化
a)Java緩存框架i。Oscache,ehcache
b)緩存數據庫i。Redis,Memcached
5)Lvs + nginx + tomcat + redis | memcache構建二層負載均衡千萬併發處理
6)Haproxy
7)Redd
緩存系統a)Redis基本使用b)Redis sentinel高可用c)Redis好友推薦算法
3,Lucene的基礎
在這裡還是要推薦下我自己建的大數據學習交流群:943791324,群裡都是學大數據開發的,如果你正在學習大數據 ,小編歡迎你加入,大家都是軟件開發黨,不定期分享乾貨(只有大數據軟件開發相關的),包括我自己整理的一份最新的大數據進階資料和高級開發教程,歡迎進階中和進想深入大數據的小夥伴加入。
1)Lucene介紹
2)Lucene倒排索引原理
3)建索引IndexWriter
4)搜索IndexSearcher
5)查詢
6)排序和過濾(過濾器)
7)索引優化和高亮
4,Solr的基礎
1)什麼是solr
2)為什麼工程中要使用solr
3)Solr的原理
4)如何在tomcat中運行solr
5)如何利用solr進行索引與搜索
6)solr的各種查詢
7)solr的過濾器
8)solr的排序
9)solr的高亮
10)solr的某個域統計
11)solr的範圍統計
12)solrcloud集群搭建
5,布式協調服務動物園管理員
動物園管理員簡介及應用場景
動物園管理員集群安裝部署
動物園管理員的數據節點與命令行操作
動物園管理員的Java的客戶端基本操作及事件監聽
動物園管理員核心機制及數據節點
動物園管理員應用案例 - 分佈式共享資源鎖
動物園管理員應用案例 - 服務器上下線動態感知
動物園管理員的數據一致性原理及領導人選舉機制
6,JAVA高級特性增強
Java的多線程基本知識
Java的同步關鍵詞詳解
Java的併發包線程池及在開源軟件中的應用
Java的併發包消息隊裡及在開源軟件中的應用
Java JMS技術
Java的動態代理反射
二,離線計算系統
1,hadoop的快速入門
的hadoop介紹主頁背景
分佈式系統-概述簡單描述
離線數據分析流程介紹
集群搭建
集群使用初步
2,HDFS增強
HDFS的概念和特性
HDFS的殼(命令行客戶端)操作
HDFS的工作機制
名稱節點的工作機制
的java的API操作
案例1:開發殼採集腳本
3,MapReduce的詳解
自定義的hadoop的RPC框架
的MapReduce編程規範及示例編寫
的MapReduce程序運行模式及調試方法
的MapReduce程序運行模式的內在機理
的MapReduce框架運算的主體工作流程
自定義對象的序列化方法
的MapReduce編程案例
4,MAPREDUCE增強
Mapreduce排序
自定義分區
器Mapreduce的組合器
mapreduce工作機制詳解
5,MapReduce的實戰
maptask並行度機制-文件切片
maptask度parallel-設置
倒排索引
共同好友
6、federation介紹和hive使用
Hadoop的HA機制
HA集群的安裝部署
集群運維測試之Datanode動態上下線
集群運維測試之Namenode狀態切換管理
集群運維測試之數據塊的balance
HA下HDFS-API變化
hive簡介
hive架構
hive安裝部署
hvie初使用
7、hive增強和flume介紹
HQL-DDL基本語法
HQL-DML基本語法
HIVE的join
HIVE 參數配置
HIVE 自定義函數和Transform
HIVE 執行HQL的實例分析
HIVE最佳實踐注意點
HIVE優化策略
HIVE實戰案例
Flume介紹
Flume的安裝部署
案例:採集目錄到HDFS
案例:採集文件到HDFS
三、數據遷移工具Sqoop
1) 介紹 和 配置Sqoop
2) Sqoop shell使用
3) Sqoop-import a) DBMS-hdfs b) DBMS-hive c) DBMS-hbase
4) Sqoop-export
四、Flume分佈式日誌框架
1) flume簡介-基礎知識
2) flume安裝與測試
3) flume部署方式
4) flume source相關配置及測試
5) flume sink相關配置及測試
6) flume selector 相關配置與案例分析
7) flume Sink Processors相關配置和案例分析
8) flume Interceptors相關配置和案例分析
9) flume AVRO Client開發
10) flume 和kafka 的整合
五、內存數據庫redis
1) redis特點、與其他數據庫的比較
2) 如何安裝redis
3) 如何使用命令行客戶端
4) redis的字符串類型
5) redis的散列類型
6) redis的列表類型
7) redis的集合類型
8) 如何使用java訪問redis【a.python訪問redis,scala訪問redis】
9) redis的事務(transaction)
10) redis的管道(pipeline)
11) redis持久化(AOF+RDB)
12) redis優化
13) redis的主從複製
14) redis的sentinel高可用
15) twemproxy,codis實戰
16) redis3.x集群安裝配置
六、Storm上下游及架構集成
1) kafka是什麼
2) kafka體系結構
3) kafka配置詳解
4) kafka的安裝
5) kafka的存儲策略
6) kafka分區特點
7) kafka的發佈與訂閱
8) zookeeper協調管理
9) java編程操作kafka
10) scala編程操作kafka
11) flume 和kafka 的整合
12) Kafka 和storm 的整合
七、Storm從入門到精通
1) Storm的基本概念
2) Storm的應用場景
3) Storm和Hadoop的對比
4) Storm集群的安裝的linux環境準備
5) zookeeper集群搭建
6) Storm集群搭建
7) Storm配置文件配置項講解
8) 集群搭建常見問題解決
9) Storm常用組件和編程API:Topology、 Spout、Bolt
10) Storm分組策略(stream groupings)
11) 使用Strom開發一個WordCount例子
12) Storm程序本地模式debug、Storm程序遠程debug
13) Storm事物處理
14) Storm消息可靠性及容錯原理
15) Storm結合消息隊列Kafka:消息隊列基本概念(Producer、Consumer、Topic、Broker等)、消息隊列Kafka使用場景、Storm結合Kafka編程API
16) Storm Trident概念
17) Trident state 原理
18) Trident開發實例
19) Storm DRPC(分佈式遠程調用)介紹
20) Storm DRPC實戰講解
21) Storm和Hadoop 2.x的整合:Storm on Yarn
八、scala編程
1) scala解釋器、變量、常用數據類型等
2) scala的條件表達式、輸入輸出、循環等控制結構
3) scala的函數、默認參數、變長參數等
4) scala的數組、變長數組、多維數組等
5) scala的映射、元組等操作
6) scala的類,包括bean屬性、輔助構造器、主構造器等
7) scala的對象、單例對象、伴生對象、擴展類、apply方法等
8) scala的包、引入、繼承等概念
9) scala的特質
10) scala的操作符
11) scala的高階函數
12) scala的集合
13) scala數據庫連接
九、內存計算體系Spark
1) Spark介紹
2) Spark應用場景
3) Spark和Hadoop MR、Storm的比較和優勢
4) RDD
5) Transformation
6) Action
7) Spark計算PageRank
8) Lineage
9) Spark模型簡介
10) Spark緩存策略和容錯處理
11) 寬依賴與窄依賴
12) Spark配置講解
13) Spark集群搭建
14) 集群搭建常見問題解決
15) Spark原理核心組件和常用RDD
16) 數據本地性
17) 任務調度
18) DAGScheduler
19) TaskScheduler
20) Spark源碼解讀
21) 性能調優
22) Spark和Hadoop2.x整合:Spark on Yarn原理
十、SparkStreaming應用實戰
Spark-Streaming簡介
Spark-Streaming編程
實戰:StageFulWordCount
Flume結合Spark Streaming
Kafka結合Spark Streaming
窗口函數
ELK技術棧介紹
ElasticSearch安裝和使用
Storm架構分析
Storm編程模型、Tuple源碼、併發度分析
Storm WordCount案例及常用Api分析
十一,機器學習算法
1,python及numpy庫
機器學習簡介
機器學習與python
python語言 - 快速入門
python語言 - 數據類型詳解
python語言 - 流程控制語句
python語言 - 函數使用
python語言 - 模塊和包
phthon語言 -面向對象
蟒機器學習算法庫-numpy
機器學習必備數學知識-概率論
2,常用算法實現
KNN分類算法-算法原理
KNN分類算法-代碼實現
KNN分類算法-手寫字識別案例
譜系迴歸分類算法-算法原理
血統迴歸分類算法-算法實現及演示
樸素貝葉斯分類算法-算法原理
樸素貝葉斯分類算法-實現算法
樸素貝葉斯分類算法-垃圾郵件識別應用案例
k均值聚類算法-算法原理
k均值聚類算法-算法實現
k均值聚類算法-聚類地理位置應用
決策樹分類照片算法-原理算法
決策樹分類照片算法-算法實現