大數據學習路線圖【瞧一瞧，看一看了】

佚名

2020-11-27 12:02:06

一，入門準備

1，LINUX操作基礎

1）Linux的介紹，Linux的安裝：VMware的工作站虛擬軟件安裝過程，CentOS虛擬機安裝過程

2）Linux的常用命令：常用命令的介紹，常用命令的使用和練習（文件操作，用戶管理與權限，免費）密登陸配置與網絡管理）

3）的Linux系統進程管理基本原理及相關管理工具如PS，pkill的，頂部，HTOP等的使用;

4）Linux的啟動流程，運行級別詳解，chkconfig的詳解

5）VI，VIM編輯器：VI，VIM編輯器的介紹，VI，VIM扥使用和常用快捷鍵

6）Linux磁盤管理，lvm邏輯卷，nfs詳解

7）Linux系統文件權限管理：文件權限介紹，文件權限的操作

8）Linux的RPM軟件包管理：RPM包的介紹，RPM安裝，卸載等操作

9）yum命令，yum源搭建

10）Linux網絡：Linux網絡的介紹，Linux網絡的配置和維護防火牆配置

11）Shell編程：Shell的介紹，Shell腳本的編寫

12）Linux上常見軟件的安裝：安裝JDK，安裝Tomcat，安裝mysql，web項目部署

13）linux的高級文本處理命令切，sed的，awklinux

14）定時任務的crontab

2，大型網站高併發處理

1）第四層負載均衡

a）Lvs負載均衡i。負載算法，NAT模式，直接路由模式（DR），隧道模式（TUN）

b）F5負載均衡器介紹

2）第七層負載均衡

a）Nginx b）Apache

3）Tomcat，jvm優化提高併發量

4）緩存優化

a）Java緩存框架i。Oscache，ehcache

b）緩存數據庫i。Redis，Memcached

5）Lvs + nginx + tomcat + redis | memcache構建二層負載均衡千萬併發處理

6）Haproxy

7）Redd

緩存系統a）Redis基本使用b）Redis sentinel高可用c）Redis好友推薦算法

3，Lucene的基礎

在這裡還是要推薦下我自己建的大數據學習交流群:943791324，群裡都是學大數據開發的，如果你正在學習大數據，小編歡迎你加入,大家都是軟件開發黨，不定期分享乾貨（只有大數據軟件開發相關的），包括我自己整理的一份最新的大數據進階資料和高級開發教程，歡迎進階中和進想深入大數據的小夥伴加入。

1）Lucene介紹

2）Lucene倒排索引原理

3）建索引IndexWriter

4）搜索IndexSearcher

5）查詢

6）排序和過濾（過濾器）

7）索引優化和高亮

4，Solr的基礎

1）什麼是solr

2）為什麼工程中要使用solr

3）Solr的原理

4）如何在tomcat中運行solr

5）如何利用solr進行索引與搜索

6）solr的各種查詢

7）solr的過濾器

8）solr的排序

9）solr的高亮

10）solr的某個域統計

11）solr的範圍統計

12）solrcloud集群搭建

5，布式協調服務動物園管理員

動物園管理員簡介及應用場景

動物園管理員集群安裝部署

動物園管理員的數據節點與命令行操作

動物園管理員的Java的客戶端基本操作及事件監聽

動物園管理員核心機制及數據節點

動物園管理員應用案例 - 分佈式共享資源鎖

動物園管理員應用案例 - 服務器上下線動態感知

動物園管理員的數據一致性原理及領導人選舉機制

6，JAVA高級特性增強

Java的多線程基本知識

Java的同步關鍵詞詳解

Java的併發包線程池及在開源軟件中的應用

Java的併發包消息隊裡及在開源軟件中的應用

Java JMS技術

Java的動態代理反射

二，離線計算系統

1，hadoop的快速入門

的hadoop介紹主頁背景

分佈式系統-概述簡單描述

離線數據分析流程介紹

集群搭建

集群使用初步

2，HDFS增強

HDFS的概念和特性

HDFS的殼（命令行客戶端）操作

HDFS的工作機制

名稱節點的工作機制

的java的API操作

案例1：開發殼採集腳本

3，MapReduce的詳解

自定義的hadoop的RPC框架

的MapReduce編程規範及示例編寫

的MapReduce程序運行模式及調試方法

的MapReduce程序運行模式的內在機理

的MapReduce框架運算的主體工作流程

自定義對象的序列化方法

的MapReduce編程案例

4，MAPREDUCE增強

Mapreduce排序

自定義分區

器Mapreduce的組合器

mapreduce工作機制詳解

5，MapReduce的實戰

maptask並行度機制-文件切片

maptask度parallel-設置

倒排索引

共同好友

6、federation介紹和hive使用

Hadoop的HA機制

HA集群的安裝部署

集群運維測試之Datanode動態上下線

集群運維測試之Namenode狀態切換管理

集群運維測試之數據塊的balance

HA下HDFS-API變化

hive簡介

hive架構

hive安裝部署

hvie初使用

7、hive增強和flume介紹

HQL-DDL基本語法

HQL-DML基本語法

HIVE的join

HIVE 參數配置

HIVE 自定義函數和Transform

HIVE 執行HQL的實例分析

HIVE最佳實踐注意點

HIVE優化策略

HIVE實戰案例

Flume介紹

Flume的安裝部署

案例：採集目錄到HDFS

案例：採集文件到HDFS

三、數據遷移工具Sqoop

1) 介紹和配置Sqoop

2) Sqoop shell使用

3) Sqoop-import a) DBMS-hdfs b) DBMS-hive c) DBMS-hbase

4) Sqoop-export

四、Flume分佈式日誌框架

1) flume簡介-基礎知識

2) flume安裝與測試

3) flume部署方式

4) flume source相關配置及測試

5) flume sink相關配置及測試

6) flume selector 相關配置與案例分析

7) flume Sink Processors相關配置和案例分析

8) flume Interceptors相關配置和案例分析

9) flume AVRO Client開發

10) flume 和kafka 的整合

五、內存數據庫redis

1) redis特點、與其他數據庫的比較

2) 如何安裝redis

3) 如何使用命令行客戶端

4) redis的字符串類型

5) redis的散列類型

6) redis的列表類型

7) redis的集合類型

8) 如何使用java訪問redis【a.python訪問redis,scala訪問redis】

9) redis的事務(transaction)

10) redis的管道(pipeline)

11) redis持久化(AOF+RDB)

12) redis優化

13) redis的主從複製

14) redis的sentinel高可用

15) twemproxy,codis實戰

16) redis3.x集群安裝配置

六、Storm上下游及架構集成

1) kafka是什麼

2) kafka體系結構

3) kafka配置詳解

4) kafka的安裝

5) kafka的存儲策略

6) kafka分區特點

7) kafka的發佈與訂閱

8) zookeeper協調管理

9) java編程操作kafka

10) scala編程操作kafka

11) flume 和kafka 的整合

12) Kafka 和storm 的整合

七、Storm從入門到精通

1) Storm的基本概念

2) Storm的應用場景

3) Storm和Hadoop的對比

4) Storm集群的安裝的linux環境準備

5) zookeeper集群搭建

6) Storm集群搭建

7) Storm配置文件配置項講解

8) 集群搭建常見問題解決

9) Storm常用組件和編程API：Topology、 Spout、Bolt

10) Storm分組策略(stream groupings)

11) 使用Strom開發一個WordCount例子

12) Storm程序本地模式debug、Storm程序遠程debug

13) Storm事物處理

14) Storm消息可靠性及容錯原理

15) Storm結合消息隊列Kafka：消息隊列基本概念(Producer、Consumer、Topic、Broker等)、消息隊列Kafka使用場景、Storm結合Kafka編程API

16) Storm Trident概念

17) Trident state 原理

18) Trident開發實例

19) Storm DRPC(分佈式遠程調用)介紹

20) Storm DRPC實戰講解

21) Storm和Hadoop 2.x的整合：Storm on Yarn

八、scala編程

1) scala解釋器、變量、常用數據類型等

2) scala的條件表達式、輸入輸出、循環等控制結構

3) scala的函數、默認參數、變長參數等

4) scala的數組、變長數組、多維數組等

5) scala的映射、元組等操作

6) scala的類，包括bean屬性、輔助構造器、主構造器等

7) scala的對象、單例對象、伴生對象、擴展類、apply方法等

8) scala的包、引入、繼承等概念

9) scala的特質

10) scala的操作符

11) scala的高階函數

12) scala的集合

13) scala數據庫連接

九、內存計算體系Spark

1) Spark介紹

2) Spark應用場景

3) Spark和Hadoop MR、Storm的比較和優勢

4) RDD

5) Transformation

6) Action

7) Spark計算PageRank

8) Lineage

9) Spark模型簡介

10) Spark緩存策略和容錯處理

11) 寬依賴與窄依賴

12) Spark配置講解

13) Spark集群搭建

14) 集群搭建常見問題解決

15) Spark原理核心組件和常用RDD

16) 數據本地性

17) 任務調度

18) DAGScheduler

19) TaskScheduler

20) Spark源碼解讀

21) 性能調優

22) Spark和Hadoop2.x整合：Spark on Yarn原理

十、SparkStreaming應用實戰

Spark-Streaming簡介

Spark-Streaming編程

實戰：StageFulWordCount

Flume結合Spark Streaming

Kafka結合Spark Streaming

窗口函數

ELK技術棧介紹

ElasticSearch安裝和使用

Storm架構分析

Storm編程模型、Tuple源碼、併發度分析

Storm WordCount案例及常用Api分析

十一，機器學習算法

1，python及numpy庫

機器學習簡介

機器學習與python

python語言 - 快速入門

python語言 - 數據類型詳解

python語言 - 流程控制語句

python語言 - 函數使用

python語言 - 模塊和包

phthon語言 -面向對象

蟒機器學習算法庫-numpy

機器學習必備數學知識-概率論

2，常用算法實現

KNN分類算法-算法原理

KNN分類算法-代碼實現

KNN分類算法-手寫字識別案例

譜系迴歸分類算法-算法原理

血統迴歸分類算法-算法實現及演示

樸素貝葉斯分類算法-算法原理

樸素貝葉斯分類算法-實現算法

樸素貝葉斯分類算法-垃圾郵件識別應用案例

k均值聚類算法-算法原理

k均值聚類算法-算法實現

k均值聚類算法-聚類地理位置應用

決策樹分類照片算法-原理算法

決策樹分類照片算法-算法實現

相關文章:

歡迎你來“世界客都”走一走，看一看

惠州吉之島、華貿、榮燦...多間商場停車費上漲

喜訊！我市運動員陳炳鉞在2020年全國蹦床錦標賽上獲得男子雙蹦床個人冠軍

主力資金在幹什麼？他們去了哪裡？

進城幫朋友拉車鵪鶉籠子，順便到他養殖基地瞧一瞧，看一看，

看一看，男人為什麼要常去KTV

購買白牡丹常見的五大誤區，看一看，避免再踩別人踩過的坑

濟南天然石猿

「陸豐新聞」2020年12月19日

有時候，事情可以等一等，看一看，緩一緩！

少發脾氣，少生氣，人生才順利！看一看，一生都受益

@開封人：“五一”假期能否出遊？李蘭娟：可以適當走一走、看一看

遇事先等一等，看一看，緩一緩，才是大智慧

警惕！五一假期，這些地方千萬不要去。

中山，藏著一條絕美海岸線！想去嗎？

熬不住的時候 看一看

推書｜穿書文，另一個精彩人生，不一樣的套路不一樣的文筆

有人想看看我買了那些基金，我發給大家看一看

為什麼是肖戰，因為他是娛樂圈的特例，娛樂圈的清流

重磅消息！五一長假要不要來武漢？答案來了……

55歲前一定要去的20個絕美之地，去15個算頂級達人！你去過幾個？

創意組圖：什麼？原來大家對六盤水還有這樣的“誤解”？

比一比、看一看，代召鄉人居環境整治試卷，你給多少分？

五一去哪玩？北京故宮太遠，不如來靖安江南“故宮”看一看！

找不到答案的時候，就獨自出去看一看這個世界

男人眼中的好老婆是什麼樣？看一看，你有沒有這些特徵

能吸起半斤重的胡辣湯？！睿米 NEX2 Pro深度測評

她一個人的大西北旅行，美好又充實

神仙沒事兒愛丟鞋，一雙丟在雙塔山，一雙丟在梵淨山，不信你看

三角平安建設我參與，“兩度一率”我點贊

平遠 | 散步，也是一種旅行

羨慕黃雅莉家的生活，真是完美的一天，熱愛生活的熱愛

微信看一看背後的產品哲學

人 生 幾 何

“我每次回家鄉寶應，都要到崗亭看一看、找一找當年幫助過我的好人。”25日，寶應山陽鎮54歲的市民楊紅雲，說起3年前的一次事故，心有餘悸的同時也被當時的一位協警救助感動著。https:

迎接“五一”假期的你，請收好這份消防安全提示

@周口人 五一能否出去玩 ？專家：可以，但不要聚餐、聚會

微信大改版！你更新了嗎？一起來認識下

看一看！中國發現一塊黑土天然富硒基地

灣沚鎮：穿越疫情的旅行（一）

朱坤明：不設區地級市只剩嘉峪關、東莞、中山、儋州，三沙前景好

孩子趴在妻子棺材上不肯下來，走近看到其內，就哭了

“五一”假期能否出遊？李蘭娟：可以適當走一走、看一看

【廣播寶雞·經濟廣播】戰疫情：“聲”入我心129——《報春》

留意你身邊的美

不老祕方外傳？看一看，笑一笑，生活處處是笑料

中秋節歌曲：月亮代表我的心，緬懷鄧麗君

瞧一瞧，看一看，湖南省11個5A級景區遊玩攻略新鮮出爐啦

真的假的？船上的漁夫脫單了[捂臉]，誰有新鈔票，看一看#股票# #財經#

一個針對琴童的節目，正在學琴的小朋友和家長可以看一看

潛逃壓力過大暴瘦40多斤，一涉黑A級通緝犯在河北投案自首

當我們在談 SaaS 的時候，在談什麼？

合同詐騙的類型有哪些？企業無力償還借款是否構成合同詐騙罪？

5月西安招聘會時間安排來了！找工作的別錯過

剛剛工作的畢業生，一個月只有2000多，是不是太少了？

全球鬧「美元荒」帶動穩定幣需求暴增！以太坊交易量創近兩年新高

“幫助當地居民解決用水難題”-今日頭條-手機光明網

灌籃高手無水印壁紙，每一張都是回憶

通遼藍天救援隊成功解救遼河公園水上被困群眾

5月6日·武漢要聞及抗擊肺炎快報

肖副省長等省市領導到孝感市楚澴中學調研九年級復學暨疫情防控常態化工作

相聲界的顏值擔當張雲雷稱號大揭祕

美國百年薅羊毛攻略

《全職高手》：一口氣刷了10集，對楊洋路轉粉了

共同承擔責任！Rookie談BP問題：輸了是我們打得太臭

LOL"中韓對抗賽"遭選手反對？Zoom直言不想打，Doinb的回答太真實

李亞鵬攜李嫣出席慈善晚會，李嫣手上鑽戒搶鏡，1個動作獲誇讚！

53歲郭富城再度升級當爸，方媛懷二胎，Chant要做姐姐了

那些拼命的演員：王寶強喝了一大桶牛奶，孫儷吃10斤瓜子

賈乃亮用上了“一米陽光”這個詞，他依然渴望擁有美麗的愛情！

搞笑GIF開心一刻：我的老家農村，有妹子願意嫁給我嗎？

為什麼只有edg賺錢？

程瀟身材多好？雙腿劈叉才明白，這才是“腿精”

張柏芝承認三胎產子，否認小夥的老爸是孫東海，看來她選擇保密

T1戰隊搶注Faker商標，“囊括多個領域產品，商業潛力媲美喬丹”

雲頂之弈“最不平衡的版本”誕生，全員搶一費卡，運氣成吃雞關鍵

LPL春季賽"6宗最"：Uzi最遺憾，阿水最驚喜，V5最離譜

雷佳音被問：跟佟麗婭拍那麼多親熱戲是啥感受？他的回答笑翻眾人

JDG成最“慘”冠軍戰隊？拿到LPL冠軍人氣依舊低迷，TES成贏家！

熬不住的時候看一看

人生幾何

@周口人五一能否出去玩？專家：可以，但不要聚餐、聚會

應急科普丨“五一” 期間氣溫回升謹防森林火災隱患