如何跟進大數據的學習進度?

五月_Jo


搞大數據,技術上有兩條分支。一條是開發,一條是架構與運維。

先說開發,主流的存儲引擎和計算框架有hbase、hdfs、kudu、kafka、hive、mapreduce、spark、flink、storm。其中mapreduce和storm編程很少人用了,可以晚點研究,其他的都需要學習其使用。數據處理的本質就是從某個源頭經過處理到某個目的地,剛才的框架是處理的計算框架以及主要的目的地,源頭方面就各種各樣了,離線最多是jdbc,實時最多是通過接口寫入kafka,具體的可以從計算框架源頭接入去了解。開發語言主要是sql、java、python,要往機器學習方向走還得學好數學。

第二條是架構與運維,這個需要了解各個組件之間的關聯關係、使用場景、實現方式。需要具備的知識面就比較廣了,因為所有開發人員不懂或者不想管的事都會被稱為平臺問題,網絡、硬件、操作系統一樣都不能少。所以一般大學裡教的主要是開發分支的東西,架構與運維分支更多是在工作中積累。

說到工作,第一條分支更好找工作,畢竟寫業務代碼的需求大,而架構與運維一兩個人看幾十個集群都問題不大。但架構與運維的技能相對比較稀缺,只要在大廠幹過口碑還行,壓根不需要自己找工作,工作自動就會送上門。


分享到:


相關文章: