02.26 從業者誠懇推薦!10個數據科學領域學習資源

全文共3412字,預計學習時長

10分鐘

從業者誠懇推薦!10個數據科學領域學習資源


我讀的是機械專業,大學後成為了一名機械工程師。我的職業生涯始於鋼鐵行業的一份核心工作。

戴著那些沉重的鋼製膠靴和塑料頭盔,在大型高爐和軋鋼廠裡工作。這些安全措施也只是些心理安慰,因為我知道如果發生了什麼不好的事情,它們都沒有用。也許跑鞋能幫上忙。至於頭盔,我只想說鋼水在1370攝氏度下就會化為灰燼。


隨著我對這份工作恐懼漸深,我意識到這份工作不適合我,所以我制定了一個目標,大概在2011年進入分析和數據科學領域。從那時起,慕課就成了我學習新知識的首選平臺,通過它我收穫了很多新知識。好的也有和壞的也有。


如今,到了2020年,數據科學領域的日新月異,不會缺少學習數據科學的資源。但這也常常給初學者帶來問題:從哪裡開始學習?學習什麼?互聯網上有很多優質資源,但與此同時也有很多不好的資源。


過多選擇反而讓人們停滯不前,因為因為焦慮是學習的大敵。


施瓦茨(Schwartz)在其著作《選擇的悖論——為什麼更多反而是更少》中提出,減少消費者的選擇可以大大減少他們的焦慮。數據科學課程也是如此。


這篇文章為迷失的學習者們提供建議,推薦一些數據科學之旅的起始點。


1)Python3編程專業化


Python2.7的“Goodbye World”!


首先,你需要確定一門編程語言。這是密歇根大學的專業課,你可以學習使用Python和自己創造新事物。


你將學習變量、條件和循環等編程基礎知識,並獲得一些中間材料,如關鍵字參數、列表理解、lambda表達式和類繼承。


2)Python應用數據科學


先做,後理解


在充分理解機器學習之前,我們需要先體驗一下它。


Python在應用數據科學方面為你介紹了許多應該瞭解的現代機器學習方法。不是徹底的磨合,但你會得到建立你的模型的工具。


這種基於技能的專業化面向具有基本python或編程背景,並希望通過流行的python工具包(如pandas、matplotlib、scikitlearn、nltk和networkx)進行應用統計、機器學習、信息可視化、文本分析和社交網絡分析技術的學習者,以深入瞭解他們的數據。


3) 機器學習理論與基礎


從業者誠懇推薦!10個數據科學領域學習資源


完成以上課程後,你就成為了所謂的“初學者”。


恭喜!!!你已經瞭解了一些基本概念,也知道怎麼去實現一些功能了。


你是有價值的


然而,你並沒有完全理解這些模型背後的所有數學原理和模型。


你需要了解clf.fit背後的邏輯。你要面對現實:除非你瞭解模型背後的數學原理,否則沒人會真正認可你。


如果你不明白,就無法改進它


GameChanger機器學習課程包含了許多機器學習算法背後的數學邏輯。


我將把這門課當作一門必修課,因為正是這門課程激勵我進入這個領域,而吳恩達是一位偉大的導師,這是我學習的第一門課程。


這門課程包含了迴歸,分類,異常檢測,推薦系統,神經網絡,還有很多很棒的建議。


4) 學習統計推斷


“事實是固定的,但統計數字是靈活的。”——馬克·吐溫


我的導師切蒂卡婭·倫德爾(Çetinkaya-Rundel)教授這門推理統計學,它簡單易學。


她是一位優秀的講師,很好地解釋了統計推斷的基本原理——這是一門必修課。


你將學習假設檢驗、置信區間以及數值和分類數據的統計推斷方法。


5) 學習數據科學的SQL基礎知識


SQL是所有數據ETL的核心


雖然我們覺得通過創建模型和提出不同的假設可以完成更多的工作,但數據咀嚼的作用是不可低估的。


而且隨著SQL在ETL和數據準備任務中的廣泛應用,每個人都應對其有些許瞭解,因為它至少是有用的。


SQL也已經成為使用ApacheSpark等大數據工具的事實標準。這個UCDavis的SQL專門化課程將教你SQL以及如何使用SQL進行分佈式計算。


通過使用數據科學應用程序的四個逐步增加難度的SQL項目,你將瞭解諸如SQL基礎知識、數據爭用、SQL分析、AB測試、使用ApacheSpark的分佈式計算等主題。


6) 高級機器學習


在大聯盟裡,沒有填鴨式灌輸。


你可能不同意,但到目前為止,我們所做的一切都是騙人的。材料有固定的結構的,數學原理很少說明。但你已經為下一步做好了準備。這種高級機器學習專業化由頂級Kaggle機器學習實踐者和歐洲核子研究中心的科學家採用了另一種學習方法,通過經歷許多困難的概念,並指導您瞭解過去的事情是如何工作的,以及機器學習世界中最新的進步。網站上的描述是:


該專業介紹了深度學習、強化學習、自然語言理解、計算機視覺和貝葉斯方法。頂級Kaggle機器學習實踐者和CERN科學家將分享他們解決現實世界問題的經驗,並幫助你填補理論和實踐之間的空白。


7) 深度學習


從業者誠懇推薦!10個數據科學領域學習資源


深度學習乃未來大勢所趨


吳恩達帶著全新的深度學習專業再次迴歸。


他以一種通俗易懂的方式完成了對這個困難概念的理解。他所遵循的術語與網絡上所有其他教程和課程都不一樣,我希望它能流行起來,因為這對理解所有基本概念非常有幫助。


專業網站上有說:


瞭解深層學習的基礎,瞭解如何構建神經網絡,並學習如何領導成功的機器學習項目。你將瞭解卷積網絡、RNNs、LSTM、Adam、Dropout、BatchNorm、Xavier/He初始化等。且能接觸醫療保健、自動駕駛、手語閱讀、音樂生成和自然語言處理等方面的案例研究。


8) Pytorch


PythononFire


我通常從不提倡學習工具,但這不一樣,因為如果你瞭解Pythorch,你便能夠在許多最近的研究論文中學習代碼,這真的很難得。Pythorch已經成為從事深度學習的研究人員的默認編程語言,它會對我們的學習極有幫助。


學習Pythorch的一種結構化方法是使用Pythorch學習深神經網絡課程。課程網站說明:


課程將從Pytorch的張量和自動微分包開始。然後每個部分將涵蓋不同的模型,從基本原理開始,如線性迴歸和logistic/softmax迴歸。其次是前饋型深層神經網絡,作用不同的激活函數,歸一化層和脫落層。然後介紹卷積神經網絡和轉移學習。最後,還將介紹其他一些深度學習方法。


9) AWS機器學習入門


秘訣:不是你知道什麼,而是你展示什麼。


在構建一個偉大的機器學習系統時,有很多事情需要考慮。但作為數據科學家,我們常常只擔心項目的某些部分。


但我們有沒有想過,一旦我們擁有了模型,要如何部署它們呢?


我見過很多ML項目,其中很多項目註定要失敗,因為它們從一開始就沒有一個固定的生產計劃。


擁有一個好的平臺,並瞭解該平臺如何部署機器學習應用程序,將在現實世界中發揮所有作用。這門關於實現機器學習應用程序的AWS的課程就承諾了這一點。


本課程將教你:


1.如何使用帶有內置算法和Jupyter筆記本實例的AmazonSageMaker構建、培訓和部署模型。


2.如何使用Amazon-AI服務構建智能應用程序,如Amazon-Comprehend、Amazon-Rekognition、Amazon-Translate等。


10) 數據結構和算法


從業者誠懇推薦!10個數據科學領域學習資源


算法。是的,你需要它們。


算法和數據結構是數據科學的組成部分。雖然大多數的數據科學家在學習的時候並沒有學習一門正確的算法課程,但它們是必不可少的。


許多公司要求將數據結構和算法作為招聘數據科學家面試內容的一部分。


它們需要和你的數據科學訪談一樣的熱情去破解,因此,你可能需要一些時間來研究算法、數據結構和算法問題。


我認為學習算法的一個最佳資源是UCSanDiego在Coursera上的算法專項課程。專業網站顯示:


你將學習解決各種計算問題的算法技術,並將使用選擇的編程語言實現大約100個算法編碼問題。沒有任何一門其他的在線算法課程能讓你在下一次面試中有如此豐富的面臨編程挑戰經驗。


希望你有所收穫~

從業者誠懇推薦!10個數據科學領域學習資源

我們一起分享AI學習與發展的乾貨


分享到:


相關文章: