從零開始,如何學習數據挖掘?

每日一發小視頻


作為有著兩三年數據科學從業經驗的過來人,我想結合自己一些數據科學淺薄的經驗來回答這個問題。

從零開始學習數據挖掘,首先需要明白數據挖掘是做什麼的?

百度百科中的定義為:數據挖掘是指從大量的數據中通過算法搜索隱藏於其中信息的過程,並且數據挖掘橫跨多個領域,涵蓋了統計學、數學、機器學習和數據庫等,是一個交叉學科。

所以,學習數據挖掘需要學習多種知識。

如果是已畢業工作中的小夥伴,建議先從編程能力實現一些數據分析需求來入手。因為工作中可能沒有太大塊的學習時間,想在工作的同時學習,就要有一定工程能力滿足老闆的一些數據分析需求。適合數據挖掘的語言有編程語言python,以及偏統計的語言R,sas,數據採集語言sql等。python的優點是工作中懂的開發人員比較多,比較好溝通,近年來也是很火的語言。推薦的書籍:《跟老齊學python》,《笨方法學python》,《利用Python進行數據分析》等,網上的課程:

https://github.com/jackfrued/Python-100-Days

等。關於R語言我的經驗比較少,不好推薦。sas語言是金融機構用得比較多,因為是閉源的,從信息安全角度看比較合適。推薦的書:《The Little sas book》、《深入解析SAS》等。sql語言相對比較簡單,可以在工作中學習,就不作推薦了。

剛才提到實現一些數據分析需求也能有助於數據挖掘,因為數據挖掘除了剛才提到是交叉學科外,為了能讓項目落地產生價值還需要學習我們的業務,例如我們的數據挖掘是基於金融業務的或者電商業務的,那麼就要學習金融業務或電商業務的相關知識。那麼數據分析就是一個鍛鍊業務敏感度的一個很好的方式。為了讓數據挖掘產生價值,業務經驗很重要,這是很多從業人員比較容易忽略的一個點。

後面進階的話就必須需要數學基礎和機器學習算法了,因為很多的機器學習算法乃至深度學習都是以數學、統計學理論為基礎。這也是市場上招聘數據挖掘工程師、算法工程師、數據分析師比較青睞數學相關專業的人士原因。數學推薦書籍:《高等數學》,《高等代數》,《概率論與數理統計》等。算法推薦書籍:《統計學習方法》,周志華的《機器學習》

至於大數據方面知識的學習也是比較重要的,在公司發展到後期階段積累了比較大數據量的時候,也是要學一些大數據挖掘的框架如hadoop和spark等。所以最近也有新的一個崗位大數據算法工程師也是要求大數據方面的從業經驗。

所以總的路線就是:編程語言=》數據分析實踐積累業務經驗=〉數學基礎和機器學習算法=》大數據框架。

當然每個人背景不一樣,所以學習路線都可能不同,但提到的這幾點是個人覺得比較重要的。有不同看法的大牛也歡迎來討論討論。


屁屁銘仔數據派


從零開始,學習數據挖掘重點在於視頻自學。

首先就是編程語言:這是走上數據挖掘這條路的第一步。目前流行的編程語言有事多中,到底選擇哪一種語言是要考慮的。很適合數據方面的語言有java、python,R語言。據統計排名第一的是java,功能比較全面,但是很複雜。可能要花一段時間來先學習語言。python和R語言來說,相對較簡單。也是目前主流的數據挖掘語言。舉例就是安卓系統(java)蘋果系統(python,R)

其次,成為數據挖掘工程師必須具備兩點基礎,其中一點就一定是數學基礎,用於數據推導還有數據建模算法。這裡就要有很強的邏輯基礎了。主要用於解決方案思路,算法建模和數據推導。

我們看一個學習線路圖:

這個是我在網上找到的最全的大數據的學習路線了,但是語言是針對Java的,除了語言不說,剩下步驟都是大同小異的。選擇一門語言是題主要考慮的事情。但是可以按照上面的學習線路開始學習。


啊窩額


關注我,我有分享數據分析相關的入門視頻教程,到進階視頻教程,pdf教程+源代碼


HELLO開源


大數據分三大方向10大崗位,可以考慮大數據ETL工程師方向


分享到:


相關文章: