給有抱負數據科學家的六項建議

數據科學是一個需求巨大的領域,但是我工作過的許多最優秀的數據科學家都有不同的背景,從人文科學到神經科學,並且需要經驗豐富的經驗才能脫穎而出。作為一名新的畢業生或分析專業人士,他們正在向數據科學事業邁進,因此構建一系列工作來展示這一領域的專業知識可能具有挑戰性。本文提出一些關鍵經驗,可以幫助找到一份數據科學家的工作:

  1. 親身體驗雲計算
  2. 創建一個新數據集
  3. 組合在一起
  4. 開始提供服務
  5. 創建令人驚歎的可視化
  6. 寫一份白皮書
給有抱負數據科學家的六項建議

這裡將詳細介紹這些主題,但數據科學的關鍵主題是能夠構建為公司增值的數據產品。可以構建這些端到端數據產品的數據科學家是一項寶貴的資產,在追求數據科學事業時展示這些技能非常有用。

親身體驗雲計算

許多公司正在尋找具有云計算環境使用經驗的數據科學家,因為這些平臺提供的工具使數據工作流和預測模型能夠擴展到大量數據。您也可能在日常工作中使用雲平臺,例如亞馬遜網絡服務(AWS)或谷歌雲平臺(GCP)。

好消息是,這其中的許多平臺提供免費層級的服務,以便人們可以熟悉該平臺。例如,AWS具有免費的EC2實例和免費使用Lambda等服務以滿足低容量請求,GCP提供300美元的免費信用以試用大部分平臺功能,Databricks提供了一個社區版本,您可以使用它來獲取平臺上的基礎機器學習功能。使用這些免費選項,您將無法使用海量數據集,但您可以在這些平臺上構建體驗。

我的建議之一是嘗試在這些平臺上使用不同的功能,看看是否可以使用一些工具來訓練和部署模型。例如,我們可以利用熟悉的工具SKLearn,並研究瞭如何將模型包裝為Lambda函數。

創建一個新數據集

在學術課程和數據科學競賽中,您經常會獲得一個乾淨的數據集,其中項目的重點是探索性數據分析或建模。但是,對於大多數實際項目,您需要執行一些數據修改,以便將原始數據集清理為對分析或建模任務更有用的轉換數據集。通常,數據清理需要收集額外的數據集以轉換數據。例如,我曾與美聯儲的數據合作,以便更好地瞭解美國富裕家庭的資產配置。

給有抱負數據科學家的六項建議

(富裕美國家庭的聚類樹狀圖)

這是一個有趣的項目,因為使用第三方數據來衡量第一方數據的準確性。第二個建議實際上是更進一步,建立一個數據集。這可以包括抓取網站,從端點採樣數據(例如,steamspy),或將不同的數據源聚合到新的數據集中。例如,創建星際爭霸重放的自定義數據集,這表明我能夠在新的數據集上執行數據修改。

組合在一起

我希望數據科學家展示的技能之一是能夠使不同的組件或系統協同工作以完成任務。在數據科學角色中,可能沒有明確的產品化模型路徑,您可能需要構建一些獨特的東西才能使系統正常運行。理想情況下,數據科學團隊將獲得工程支持以使系統啟動和運行,但原型設計是數據科學家快速行動的一項重要技能。

我的建議是嘗試將不同的系統或組件集成到數據科學工作流程中。這可能涉及使用諸如Airflow之類的工具來實現數據管道的原型。它可能涉及在不同系統之間建立橋樑,例如JNI-BWAPI項目,開始將StarCraft Brood War API庫與Java連接起來。或者它可能涉及在平臺內粘合不同組件,例如使用GCP DataFlow從BigQuery提取數據,應用預測模型,並將結果存儲到Cloud Datastore。

開始提供服務

作為數據科學家,您經常需要提供其他團隊可以在公司內部使用的服務。例如,這可能是一個Flask應用程序,它提供深度學習模型的結果。能夠原型化服務意味著其他團隊將能夠更快地使用您的數據產品。

我的建議是獲得使用Flask或Gunicorn等工具的經驗,以便設置Web端點,並使用Dash來創建Python中的交互式Web應用程序。嘗試在Docker實例中設置其中一個服務也很有用。

創建令人驚歎的可視化

雖然偉大的工作應該獨立,但在解釋為什麼分析或模型很重要之前,通常需要首先引起觀眾的注意。我的建議是學習各種可視化工具,以創建引人注目的可視化成果。

創建可視化也是構建工作組合的有用方法。當前開源世界中又很多非常棒的可視化工具,甚至是JavaScript版本的機器學習前端可視化代碼庫,利用它們可以高效地搭建令人驚歎的可視化作品

寫一份白皮書

我們倡導的數據科學技能之一是能夠以白皮書的形式解釋項目,提供執行摘要,討論如何使用工作,提供有關方法和結果的詳細信息。我們的目標是讓您的研究能夠被廣泛的受眾消化,並使其具有自我解釋性,以便其他數據科學家可以在此基礎上進行研究。

博客和其他形式的寫作是獲得改善書面交流經驗的好方法。我的建議是嘗試為廣大受眾撰寫數據科學文章,以便獲得在不同細節層面傳達創意的經驗。

結論

數據科學需要親身體驗許多工具。幸運的是,許多這些工具變得越來越容易,並且構建數據科學組合項目也變得越來越容易。


分享到:


相關文章: