02.28 只用6個月,我從編碼小白變成了數據科學家

全文共3710字,預計學習時長

11分鐘

只用6個月,我從編碼小白變成了數據科學家


如何掌握數據科學?


筆者剛剛擺脫整整8年的學習和艱苦工作,對下一步完全沒有計劃。讀者可能很奇怪為什麼有人會這麼做。當時,筆者飽受老闆精神上的折磨,而他很清楚筆者需要改變。


男朋友建議筆者做一名數據科學家。筆者對他說:“你真是瘋了!”筆者一點都不瞭解編程。他確實高估了筆者的能力。騙子綜合症又發作了。


大約兩週以後,筆者的朋友安娜提出了同樣的建議。深思熟慮之後,筆者開始接受這個建議。為什麼不試試呢?筆者決定再次從頭學起,把自己徹底變成一名數據科學家。


筆者想按自己的進度學習,所以決定參加線上課程。因為擁有神經科學博士學位,筆者覺得自己已經接受了足夠的正規培訓,可以從事數據科學方面的工作。需要的只是實用技能。


本文將會介紹筆者參加過的4門不同課程,以及怎樣在硅谷的一家醫療保健初創企業找到了數據科學方面的工作。


當時,筆者無意中發現的大部分在線課程都是免費的。所以挑戰了自己,沒花一分錢就學到了需要的技能。能說什麼呢,本人真是個吝嗇鬼


只用6個月,我從編碼小白變成了數據科學家

https://imgs.xkcd.com/comics/correlation.png


只用6個月,我從編碼小白變成了數據科學家

基礎技能


放棄攻讀舊金山加州大學的博士後之後,筆者沒有任何編程經驗。在研究過程中也使用過數據,但規模很小。筆者之前分析過的所有數據集都是自己在實驗室生成的。所以觀察次數少之又少。筆者需要學會編碼,以及更大規模地分析數據。


只用6個月,我從編碼小白變成了數據科學家

編碼入門


決定成為一名數據科學家之後,筆者想學會的第一件事就是寫計算機代碼。由於以前從來沒寫過代碼,所以有關編碼的一切對筆者來說都是未知的。如果真的很討厭寫代碼,那麼就不適合進入數據科學領域。所以,寫代碼看起來是個不錯的開始。


幸運的是,筆者的搭檔本 (Ben) 曾經涉足多個技術領域,能為筆者指明正確的方向。他認為Python可能最適合筆者。Python擅長分析數據,用途廣泛,能很好地處理大型數據集。所以筆者選擇從Python開始。


只用6個月,我從編碼小白變成了數據科學家

學習編碼


1.Codecademy


初學編碼,筆者用的是Codecademy。筆者是從Python入門開始的,但不確定自己修完的課程是不是還能找到,因為那都是2014年的事了。如果現在用Codecademy初學Python,筆者可能會選擇“用Python分析數據”課程。


筆者發現Codecademy是個不錯的出發點。對筆者來說,它的主要優點是能夠在瀏覽器中直接編寫代碼。在電腦上正確安裝編程環境仍然是筆者的軟肋。能在一開始就避免這麼做令人高興。如果代碼不起作用,那就是句法出了問題,跟環境設置無關,這太讓人欣慰了。


用戶可以每次用Codecademy完成幾分鐘的工作,這一點也令人滿意。如果有空,筆者會登錄Codecademy,解決幾個問題,因為這些問題都在等著處理。這種零星的進展意味著不會因為恐懼而對工作置之不理。


上完課的那個時候,網上只提供了少量的Codecademy課程,而這一個是免費的。筆者對線上免費課程的質量之高感到驚訝。


學完Python的基礎知識之後,需要開始提高統計經驗水平,還要學習更大規模地分析數據。


只用6個月,我從編碼小白變成了數據科學家


只用6個月,我從編碼小白變成了數據科學家

學習數據分析

2.約翰斯·霍普金斯大學的Coursera數據科學專業


另外,筆者主修了約翰斯·霍普金斯大學的Coursera數據科學專業。那個時候,可以免費製作榮譽代碼證書版本,只需為認證證書付費(如果需要的話)。


對筆者來說,認證證書看起來並不重要。重要的是需要在技術面試中展示自己學到的技能。所以筆者選擇了免費版本。


對筆者來說,免費版本的缺點在於該系列的課程是用R語言教授的。R語言是一種用於數據分析的出色編程語言,廣受學術界青睞。但是,筆者想學習可用於數據科學的Python。筆者覺得Python在自己想去的創業公司中會更有用。


筆者瀏覽了一些Python數據分析課程,但它們似乎涵蓋了一些自己不知道的知識。筆者認為這些課程中的大多數都針對的是軟件工程師,他們想從現在的工作領域過渡到數據科學領域。所以這些課程認為學員擁有紮實的編程技能,而且已經知道該怎樣設置Python環境。


筆者喜歡Coursera數據科學專業的最主要一點原因是它從入門開始講起。第一課中就有關於怎樣安裝R和R studio的分佈說明。在瞭解到不會出現任何技術問題之後,筆者很輕鬆地學完了後續課程。


約翰斯·霍普金斯大學的數據科學專業適合筆者的另外一個原因是它由公共衛生部門教授。筆者瞭解健康科學領域方面的專業知識,能輕鬆理解他們舉的例子。他們曾舉例說明空氣質量對哮喘的影響,以及其他和醫療保健有關的數據集。所以筆者可以集中於課程內容,而不是把精力放在那些為了數據分析而提出的情境上。


這一系列課程確實讓筆者對數據科學工作的主要方面有了最基本的瞭解。課程涉及R語言編程、基本數據清理、分析、迴歸分析和機器學習。筆者真的很喜歡學習編碼,以及怎樣用代碼分析數據,所以受到了鼓勵,決心繼續學習。


只用6個月,我從編碼小白變成了數據科學家

信息性採訪


在培訓期間,筆者一直在向圈內人打聽,想知道他們能否把筆者介紹給那些已經從舊金山學術界成功過渡到數據科學領域的人。筆者跟一些人取得了聯繫,所以儘可能地進行了多次信息性採訪。


一個朋友把筆者介紹給了一個來自Modcloth的數據科學家,她的經歷和筆者非常相似。她曾是一名神經科學家,筆者發現她的建議特別有幫助。


她主要建議我去學習SQL。


只用6個月,我從編碼小白變成了數據科學家

學習查詢數據庫


3.DB5 SQL斯坦福大學在線課程


約翰斯·霍普金斯大學的Coursera數據科學專業完全不涉及SQL。那位前輩說她每天工作的重點是查詢數據庫。她必須為業務開發和營銷團隊提供見解,而只有一小部分時間用於統計分析和機器學習。


筆者聽了她的建議,按自己的步調開始在線學習斯坦福大學SQL課程。在上過的所有課程中,這是筆者的最愛。筆者很享受學習的過程,因為教課的老師非常優秀,經常用簡單的例子解釋概念。除此之外,老師還用多種不同的方式對概念進行解釋。


之後筆者向很多人推薦了該課程,因為筆者覺得每一個數據科學家都應該打好SQL的基礎。筆者看到的數據科學課程都沒有介紹怎樣用SQL從數據庫中獲得數據。筆者認為這是個很大的疏漏。大多數課程都有供學生使用的CSV數據,但是根據經驗,這些數據在行業數據科學工作中很少用到。


上完斯坦福大學SQL課程之後,筆者便開始申請數據科學的相關崗位。那時,筆者回到了澳大利亞,開始參加舊金山灣區初創企業的Skype面試。與此同時,筆者想繼續培養自己的技能。


只用6個月,我從編碼小白變成了數據科學家

鞏固概念


只用6個月,我從編碼小白變成了數據科學家


4.edX數據分析基礎


然後筆者參加了edX的R語言數據分析基礎課程。藉此機會複習一下在Coursera課程中學到的大量概念對筆者很有幫助。


筆者堅信,向不同的老師學習相同的概念會帶來對概念的新認識。第二次學習數據和機器學習概念,筆者更加得心應手。通過對這門課程的學習,自認為對概念有了更深入的理解。


筆者上完課程的同時,成功通過了Amino公司(一家舊金山的醫療保健初創企業)的面試,之後獲得了工作簽證,搬去了美國。


只用6個月,我從編碼小白變成了數據科學家

獲得數據科學職位


筆者認為自己成功通過最終面試是因為編碼能力尚可,對統計學的理解也很到位,但更重要的是,筆者擁有醫療保健領域的知識、實驗設計以及科學方法的專業知識。


在筆者看來,正是這些知識讓自己在面試中脫穎而出,讓這家初創企業選擇僱用筆者。作為新手,需要大量的工作培訓。筆者認為自己參加過的所有課程足以讓招聘團對自己產生興趣,而醫療保健領域的專業經驗讓筆者得以嶄露頭角。


所以如果想轉行從事數據科學工作,建議找一家能讓自己的現有專業知識派上用場的公司。


只用6個月,我從編碼小白變成了數據科學家

希望自己能學到的東西


在從事新的數據科學工作之前,筆者希望能填補的知識空白是使用命令行中的git。筆者以前從來沒用過終端或命令行,完全不知道怎麼用git將代碼提交到公司的Github存儲庫。


學會這一操作佔用了幾位工程師不少時間。其實筆者在他們教之前,更希望自己至少知道該怎麼用,這樣就不會浪費他們的寶貴時間了。同事都很棒,他們看起來並不介意花時間教筆者,但筆者在最開始幾天確實感覺有點壓力。


最後,筆者確實學會了,而且發現Learn Code the Hard Way Command Line真的很有用。


只用6個月,我從編碼小白變成了數據科學家


如果考慮採用類似的方法進入數據科學領域,筆者會鼓勵你繼續前進!

對筆者來說,這絕對是正確的選擇。每個人的學習方法不同,但如果在學習上非常自律,而且做什麼事都能堅持到底,那麼通過在線課程自學數據科學當然沒問題。

加油,你是最棒的!

只用6個月,我從編碼小白變成了數據科學家

我們一起分享AI學習與發展的乾貨


分享到:


相關文章: