十步教你成為數據科學家

十步教你成為數據科學家

作者 | Rahul Agarwal

在大學裡,我的專業是機械工程師,所以畢業後我進入了鋼鐵行業。

我每天都穿著很重的鋼靴和塑料頭盔,在高爐和軋鋼機周圍冒險。雖說我們有一定的安全措施,但我知道一旦發生意外,誰都救不了我。或許跑鞋能幫忙,但頭盔嘛,在1370攝氏度下連鋼都會化成水。

所以我一直處於恐懼狀態,我意識到這份工作並不適合我,因此我制定了目標:2011年進入分析和數據科學領域。從那時起,大規模在線開放課程就成了我學習新知識的首選途徑,當然後來我也參加了很多這樣的課程,好壞參半。

2020年,隨著數據科學領域如此快速的變化,我們並不缺乏學習數據科學的資源。但初學者最常遇到一個問題:應該從什麼地方下手,以及學什麼呢?互聯網上有很多資源,也是好壞參半。

Barry Schwartz曾在《選擇的悖論》(THE PARADOX OF CHOICE: WHY MORE IS LESS)一書中指出,消除消費者的選擇可以大大減少購物者的焦慮感。數據科學課程也是如此。

因此,文本的目的就是為各位感到迷茫的新手提供建議,併為你們的數據科學之旅指明方向。

十步教你成为数据科学家

Python 編程

首先,你需要學習一種編程語言。密歇根大學的以下課講解如何使用Python以及創建自己的應用程序。

Python 3 Programming Specialization:

https://www.coursera.org/specializations/python-3-programming?action=enroll&ranEAID=lVarvwc5BD0&ranMID=40328&ranSiteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&siteID=lVarvwc5BD0-lPz4qOVNorxVbCwvw9KrQA&utm_campaign=lVarvwc5BD0&utm_content=2&utm_medium=partners&utm_source=linkshare

在這門課程中,你可以學習到編程的基礎知識(變量、條件語句以及循環語句等),還可以學習一些中級知識,例如關鍵字參數、列表推導、lambda表達式和類繼承。

十步教你成为数据科学家

數據科學

接下來,我們需要先了解一下機器學習。

密歇根大學以下課程講解了現代機器學習的入門知識。即便沒有掌握所有知識,你也可以利用這些工具構建模型。

Applied Data Science with Python Specialization:https://www.coursera.org/specializations/data-science-python?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&siteID=lVarvwc5BD0-5xCr9hsFao15_9pstk.4OA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD

這門專業課程的面向對象是擁有基本Python或編程背景,並希望通過流行python工具包(例如pandas、matplotlib、scikit-learn、nltk 以及 networkx )應用統計、機器學習、信息可視化、文本分析和社交網絡分析技術來深入瞭解數據。

十步教你成为数据科学家

機器學習理論與基礎

完成上述課程之後,你就能成功地入門了。

恭喜你!你對數據科學有了基本瞭解,而且還知道如何實現。

但是,你還沒有完全理解這些模型背後的數學知識。

你需要了解clf.fit背後的細節。如果你不瞭解模型背後的數學知識,那麼還算不上一名數學科學家。

如下是斯坦福大學提供的機器學習課程,其中包含了許多機器學習算法背後的數學知識。

Machine Learning:

https://www.coursera.org/learn/machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&siteID=lVarvwc5BD0-btd7XBdF681VKxRe2H_Oyg&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0&source=post_page---------------------------&ranMID=40328&ranEAID=je6NUbpObpQ&ranSiteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&siteID=je6NUbpObpQ-dEliPy0W03upl5lVg_ACYw&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=je6NUbpObpQ

我認為這是一門你必須上的課程,因為這門課程激發了我進入該領域的興趣,而且Andrew Ng是一位很了不起的講師。而且,這也是我學習的第一門課程。

這門課程幾乎包含了機器學習的所有內容:迴歸、分類、異常檢測、推薦系統、神經網絡以及很多出色的建議。

十步教你成为数据科学家

學習統計推斷

這門推理統計的課程由杜克大學的Çetinkaya-Rundel教授。這是最簡單的入門課程。

Inferential Statistics:https://www.coursera.org/learn/inferential-statistics-intro?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&siteID=lVarvwc5BD0-ydEVG6k5kidzLtNqbbVQvQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

Çetinkaya-Rundel是一位了不起的講師,她很好地解釋了統計推斷的基礎知識,這也是一門必修課。

你將在這門課程中瞭解數值和分類數據的假設檢驗、置信區間和統計推斷方法。

十步教你成为数据科学家

學習基礎的SQL知識

雖然創建模型並提出不同的假設很讓人有成就感,但數據的處理也不可輕視。

在ETL和數據準備任務中,SQL無處不在,因此每個人都應該瞭解基礎的SQL知識。

此外,SQL已成為Apache Spark等大數據工具的標準。如下加州大學戴維斯分校的課程將為你講授SQL的專業知識以及如何利用SQL進行分佈式計算。

Learn SQL Basics for Data Science Specialization:

https://www.coursera.org/specializations/learn-sql-basics-data-science?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&siteID=lVarvwc5BD0-mBEzDIHx4TXzEZrykss6xQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

課程簡介:通過數據科學應用程序中的4個難度逐漸增加的SQL項目,學習SQL的基礎知識、數據整理、SQL分析、AB測試、使用Apache Spark進行分佈式計算等主題。

十步教你成为数据科学家

高級機器學習

上述我們學習的知識都非常簡單(你可能有不同的看法),學習材料都是現成的,用到的數學知識也非常有限。但這些知識可以為下一步打好基礎。下面是一門由頂級的Kaggle機器學習從業者和CERN科學家講授的高級機器學習課程,其中講述了許多難度非常高的概念,可以帶領你瞭解機器過去的工作方式以及機器學習世界最新的發展。

Advanced Machine Learning Specialization:

https://www.coursera.org/specializations/aml?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&siteID=lVarvwc5BD0-hwTRi7XT6lsOWS0g2lGNcA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

課程簡介:這門課程介紹了深度學習、強化學習、自然語言理解、計算機視覺和貝葉斯方法。頂尖的Kaggle機器學習實踐者和CERN科學家將在課程中分享他們解決現實問題經驗,並幫助你填補理論與實踐的空白。

十步教你成为数据科学家

深度學習

下面這門深度學習專業課程的含金量非常高。

Deep Learning Specialization:

https://www.coursera.org/specializations/deep-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&siteID=lVarvwc5BD0-m3SBadPJeg1Z1rWVng39OQ&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

講師Andrew Ng以非常淺顯易懂的方式解釋了難度非常高的概念。

課程簡介:瞭解深度學習的基礎知識,瞭解如何構建神經網絡,並學習如何領導機器學習項目走向成功。您將瞭解卷積網絡、循環神經網絡(RNN)、長短期記憶網絡(LSTM)、Adam、Dropout、批標準化,Xavier/He初始化等等。此外,你還將深入醫療保健、自動駕駛、手語閱讀、音樂生成和自然語言處理等案例研究。

十步教你成为数据科学家

Pytorch

我通常從不提倡學習工具,但是在這裡我要推薦Pytorch。原因是它不可思議且非常重要,如果你想了解Pytorch,就需要閱讀許多近期研究論文中的代碼。對於深度學習領域的研究人員來說,Pytorch已成為默認的編程語言,它會讓我們受益匪淺。

由IBM提供的課程——Deep Neural Networks with PyTorch

https://www.coursera.org/learn/deep-neural-networks-with-pytorch?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&siteID=lVarvwc5BD0-qSeTzSahS03W9YVHnWT_QA&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

課程簡介:該課程首先會介紹Pytorch的張量和自動微分軟件包。每個章節都會涵蓋不同的模型,這些模型從線性迴歸、邏輯迴歸/softmax迴歸等基礎知識入手。其次是前饋深度神經網絡、不同的激活函數、標準化以及Dropout層的作用。然後還會介紹卷積神經網絡和轉移學習。最後還會介紹其他幾種深度學習方法。

十步教你成为数据科学家

AWS機器學習入門

構建出色的機器學習系統需要考慮很多因素。但是作為數據科學家,通常我們只擔心項目的某些部分。

但是,我們是否考慮過在建立好模型後,如何部署模型?

我見過很多機器學習項目,但其中許多註定都要失敗,因為從一開始這些項目就沒有制定生產計劃。擁有一個良好的平臺並瞭解如何部署機器學習應用程序,這一點在現實世界中至關重要。下面這門AWS的課程介紹瞭如何利用AWS實現機器學習的應用程序。

Getting Started with AWS Machine Learning:

https://www.coursera.org/learn/aws-machine-learning?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&siteID=lVarvwc5BD0-Kfb17yr.B2kcW5gmdqpYjw&utm_content=2&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你將在這門課程中學習:

一、如何使用帶有內置的算法和Jupyter Notebook實例的 Amazon SageMaker 來構建、訓練和部署模型。

二、如何使用亞馬遜的AI服務(如Amazon Comprehend、Amazon Rekognition、Amazon Translate等)來構建智能應用程序。

十步教你成为数据科学家

數據結構和算法

算法和數據結構是數據科學不可或缺的一部分。儘管大多數數據科學家都沒有學習算法和數據結構,但它們都是必不可少的。

許多公司在招聘數據科學家的面試過程中,都會詢問數據結構和算法。

Data Structures and Algorithms Specialization:

https://www.coursera.org/specializations/data-structures-algorithms?ranMID=40328&ranEAID=lVarvwc5BD0&ranSiteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&siteID=lVarvwc5BD0-GFspWabzEy8Lf9dKWHbYyg&utm_content=10&utm_medium=partners&utm_source=linkshare&utm_campaign=lVarvwc5BD0

你將在本課程中學習解決各種計算問題的算法,並用你喜歡的編程語言實現大約100種算法編程題。本課程提供的算法題非常接近你下一次面試可能遇到的編程題。

原文鏈接:https://towardsdatascience.com/top-10-resources-to-become-a-data-scientist-in-2020-99a315194701

作者:Rahul Agarwal,數據科學家@WalmartLabs。

本文為 CSDN 翻譯,轉載請註明來源出處。


分享到:


相關文章: