從本科生到數據科學家,爲啥這個職業門檻高?

從本科生到數據科學家,為啥這個職業門檻高?

參與文末話題討論,每日贈送異步圖書

William Chen是Quora的一位數據科學家,在那裡他協助Quora發展壯大,為這個世界分享知識。在拿到哈佛大學的統計和應用數學雙學位之後,他直接成了一位數據科學家,也是世界上第一批在校期間接受了完整的數據科學課程並且最終在畢業之後直接加入了數據科學領域的學生之一。全職加入Quora之前,他曾經在Quora和Etsy做數據實習生。他很喜歡講述各種與數據有關的故事,並且也在Quora上廣泛地分享他的知識。

William也是《數據科學家訪談錄》的聯合作者之一。

從本科生到數據科學家,為啥這個職業門檻高?

您能告訴我們一些一路走來進入數據科學領域的故事嗎?

在哈佛大學的第一年,我開始想要學習數學,不過最終選擇了Joe Blitzstein的統計110課程。那門課改變了我思考不確定性問題以及日常事務的方式,同時讓我明白了直覺與溝通的價值。在那門課的影響下,我在第二年將專業轉為統計學。

大二的時候,我開始四處尋找實習機會,期待能將自己的一些概率和統計知識用起來。我在當時主要只擁有理論知識,對於應用開發實在知識有限,當時我驚喜於Etsy主動邀請我加入他們公司實習,職位是一名數據分析師。這是我第一次嘗試使用數據來提高公司業務——實習在各個方面都幫助了我成長,磨練了我的技術,讓我成了一個初露頭角的數據科學家。

Etsy是一個基於數據指標的公司,我能夠清楚地看到並且理解Etsy公司的最重要核心業務主要是依賴於A/B測試的一些算法。大家在郵件中頻繁地交流著各種統計知識,並且讓我能夠了解各種常見技術,知道以數據指標為業務驅動的科技公司的一些潛在軟肋。

Etsy的數據展示效果很漂亮(D3的儀表板和高亮幻燈片桌面)。在那樣一個重視可視化的公司環境下,我自學了ggplot2,開始製作自己的圖片。在那段實習中我學到了很多東西——這是我作為數據科學家職業的第一步。

在Etsy的實習結束後,我開始了自己的大三生涯。那一年,我回到哈佛,成了一名統計110課的助教(相當於協助本科生教學的助理)。

通過幫助人們解決他們遇到的概率問題,我意識到教授統計學能夠幫助我改善我的溝通能力和講故事的能力。這也很有趣,並且我也更習慣去與別人分享自己的所學。

如果沒有足夠強大的編程知識供你實現自己的統計想法,你可以做的東西就會受到很多的限制。

大三那一年,我也開始上更多的計算機課程,我意識到了它們在數據科學中的重要作用。如果沒有足夠強大的編程知識供你實現自己的統計想法,你可以做的東西就會受到很多的限制。我意識到要想成為一名成功的數據科學家,統計和計算機兩者都是不可或缺的,所以我通過上與這兩者有關係的課程去嘗試成為一名統計與計算機交叉領域的專家。

大三的時候,我也申請了一些實習,我的想法就是要使用自己的統計和編程技巧來幫助公司做出更好的決策。我收到了Quora的實習Offer並且接受了它,儘管我當時對於產品依然一無所知。

在Quora,我接觸到更多的代碼庫,學習了更多關於軟件工程的知識。我對自己的項目永遠都很重視,並且也非常勤于思考它們。我接手的項目涉及公司新的增長計劃,我喜歡Quora公司的自由度以及它對於員工的信任態度。我喜歡與他人打交道,也很喜歡那裡的各種產品,所以我決定畢業之後回到Quora做全職工作。

大四時,我繼續研究統計和各種編程工具,並且完成了我的畢業論文。

您在一開始為什麼選擇了統計學而不是計算機科學?

我把大量的時間放在統計110和一大堆其他統計類課程中了——我喜歡這些課程,所以對我來說完全沒有理由選擇別的專業!

在Etsy公司實習期間,我親眼看到了如果我只能做統計而無法做編程工作的話,工作能力將是多麼有限。那年夏天,我花了很大力氣學習使用R語言來分析數據。

我在大三和大四兩年,差不多都選擇了相同數目的統計和計算機科學課程。通過選修計算機課程,我可以更高效地做統計分析。我選擇那些能夠讓我更好地應用統計的課程(機器學習、並行編程、網絡開發、數據科學)或者只是因為它們是非常有趣的某些數學課題(數據結構和算法、經濟學和計算機科學)。

我的主要興趣依然是統計,但我非常重視計算機科學,因為它能夠讓我做更復雜的分析,生成可視化圖片,同時處理大量的數據,並自動化很多我的工作,這樣我就可以專注於非常有趣的一些問題了。

我甚至在大四上學期申請了計算機科學的第二學位。我恰好已經滿足其畢業要求(這絕對是不小心的)並且足夠去申請第二學位證了,因為我不需要做什麼其他努力了,只需要做一些文件蓋章工作就行了。

您可以更多地告訴我們一些您在實習過程中遇到的比較棘手的問題嗎?

為以數據為中心的科技公司工作的一個令人興奮的事情就是有很多潛在的項目需要你去解決。有很多數據可以分析,他們從來沒有足夠多的數據科學家去真正深入研究其中的所有事情。我在實習期間的主要挑戰,特別是在Quora,就是弄清楚如何考慮自己在做的一堆事情的優先級,尤其當自己同時在做許多項目的時候。

在Quora,我意識到我無法在同一時間處理所有事情,這是我在學校裡做事情的方式。我意識到我需要優先考慮對公司影響最大的事情。如果我花了太多時間在某些軟件上,就可能沒有足夠的時間去專注研究那些可能具有更高影響力的增長計劃。

您如何看待人們說“數據科學是數學、統計和計算機科學的交叉學科”?您覺得它們在其中的權重是怎樣的?

我覺得,編程和軟件工程部分非常重要,因為你可能希望自己去實現模型,編寫儀表板,並以一些很新穎的方式去提取數據。你將是負責轉移存儲自己的數據的人。你將成為擁有端到端和全棧開發能力的人員,完成從提取數據到做成報告、展示給公司看的整個過程。

帕累託原則(Pareto principle)在這裡充分發揮作用。80%的時間都是用於爬取數據、清理數據並編寫代碼進行分析。我在實習期間發現這個說法真的不假(特別在當時我是初入行的人)。出色的編碼知識在這裡尤其重要,可以節省大量的時間,讓你也不那麼容易遇到挫敗感。

我要強調的是:獲取數據並確定如何處理數據需要花費大量的時間,而且這部分通常不需要任何統計知識。這部分大多數都是利用軟件工程技術去清理數據,或者撰寫高效的查詢代碼去數據庫中移動和分析你的數據。編程在這裡真的很重要。

有一件值得一提的有趣的事情是,在數據科學中使用的統計學與你在研究論文中讀到的統計學真的不一樣。公司對於統計方法的選擇有在速度、可解釋性和可靠性方面的偏向,而不是理論上的完美無缺。

你越是瞭解統計或者算法的底層機制和原理,你就可以越好地闡明自己正在做什麼,並與團隊的其他成員溝通。

雖然公司用到的統計學和數學可能並不複雜,數學和統計學的紮實基本功依然在你需要區分真實洞見和虛假結果的時候顯得非常重要。此外,牢固的基本工和經驗將讓你有更好的直覺去思考如何解決公司中更為棘手的問題。你可能對於為什麼某個指標突然下降有更好的直覺上的解釋,或更清楚為什麼人們突然選擇了你的產品。

強大的統計數學和數學背景的另一個好處是對溝通的貢獻。你越是瞭解統計或者算法的底層機制和原理,你就可以越好地闡明自己正在做什麼,並與團隊的其他成員溝通。作為數據科學家,你的大部分工作都是向人們展示你覺得在未來會有重大影響力的成果。溝通對於實現這一點非常重要。

一些數據科學崗位需要非常強大的統計或機器學習背景。因為它們可能需要你去開發feed自動推送或者其他推薦引擎,或需要你知道如何完成時間序列分析、基本的機器學習技術、線性迴歸和因果推理等問題。有很多種類的數據是需要更高級的統計方法才能完成分析的。

計算機科學、統計學和數學之間的平衡將取決於你的崗位,這是我的觀察結論。

您如何看待目前大部分加入數據科學界的人都擁有博士學位這一現象?

數據科學是現在的一個新領域,招聘者正在尋找有能力成為數據科學家的人才。因為這是一個全新的領域,不是很多人在這方面有過經驗,所以你必須找到一些能夠表徵他們在未來能夠勝任這個工作的人才。擁有計算/定量的研究背景的博士們通常是一個很好的選擇,因為他們已經做了大量的研究和數據工作。具有數據處理經驗的博士和碩士生通常已經具備了數據科學界的很多素質:能夠快速學習,提出問題,並且具有靈活性。

我認為公司在未來會開始招聘越來越多的本科生去擔當數據科學家的角色,在5~10年內,將有更多符合數據科學這個領域需求的人才出現。哈佛大學有那麼多的二年級學生,他們中肯定有人想要成為數據科學家,例如當時大二的我。我認為他們也會將這看作一個充滿希望與激動人心的職業方向,我個人也是這麼看的。

具有數據處理經驗的博士和碩士生通常已經具備了數據科學界的很多素質:能夠快速學習,提出問題,並且具有靈活性。

目前,有大量MOOC(公開在線課程)提供課程和證書,而世界各地的大學正在提供他們的第一個數據科學課程。例如,哈佛的第一個數據科學課程和第一個預測模型課程在2013——2014學年出現。這些課程對於想要學習數據知識的本科生來說是完美的起點。

如果你想聘用數據科學家,就當下而言恐怕有經驗的人真的不多,那些擁有博士和碩士學位的人是很好的候選人。這種情況可能會在未來五到十年內改變,因為會有更多的本科生也擁有合格的數據科學技能要求。

現在在Coursera已經有數據科學這個專業方向了,在哈佛,有Joe Blitzstein和Hanspeter Pfister在教授數據科學課程。Joe就是教授那門我所喜愛的統計課的教授。

2014年春季,哈佛開設了一個預測建模課程。這是一個專注於Kaggle比賽的課程。這類課程對於想要從事數據領域工作的本科生來說是完美的起點。

如果可以回到大學的時光,您會把更多的精力放在哪裡?有什麼您覺得當時忽視了的東西?

我認為我在大學課程選擇方面的最大遺憾是沒有在大一學年選修編程課程。編程在數據科學中如此重要——除非是谷歌或亞馬遜這樣的巨大公司,否則幾乎不會有純粹的不用寫代碼的統計學家職位,因為這些巨大的公司可能需要專門研究統計人員。編程是非常重要的,你不能逃避它。

當談及術語“數據科學”時,很多人擔心或者聲稱在這個領域有很多炒作,因為它被誇大了。您對這樣的觀點有什麼看法?

現在對於數據科學的炒作確實有點過了,就像雲計算和手機/本地化/社交平臺熱潮一樣。然而,它被誇大並不意味著它並不重要。我認為在未來幾年,炒作和泡沫將會不復存在,但數據科學的重要性不會。

您認為數據科學家的需求會隨著軟件工具的優化而漸漸消亡嗎?

就我個人而言,我很喜歡各種新的軟件工具。我認為數據科學家的工作將在未來幾年內發生變化,因為程序工具會變得越來越好。

不過,我不認為數據科學家的需求將會減少,因為我們總是需要能夠解讀結果的人,並將洞察力提煉成可行的計劃來改善業務。數據科學永遠不缺困難的問題——人們總是需要解釋結果並交流想法。我認為數據科學就是這樣——它將數據轉化為可行的結論,用以改善產品和業務。

我們總是需要能夠解讀結果的人,並將洞察力提煉成可行的計劃來改善業務。

軟件工具可能會使某些數據科學家做的工作被淘汰,因為一些創業公司會提供企業級別的全面解決方案,以及將某些數據方面的任務商業化。但是即使使用了新的工具,我們也依然需要數據科學家去依賴人類智能使用這些工具。您將需要讓您的數據科學家查看結果,並考慮如何直接幫助公司成長。

為了成為一名好的數據科學家,需要多學習多少領域內的專業知識?在多大程度上您需要了解人們在網上的行為?這是否會幫助您開發新的產品?

在Quora,我從事了一個涉及理解用戶參與度的項目。鑑於我自己是Quora的狂熱用戶,所以我很努力地去思考這個問題。當你擁有領域知識時,你擁有的一個優勢就是,你甚至可以在查看數據之前,就對你好奇的內容做出更好的假設。然後,你可以再去查看數據,以獲得更好的直覺,瞭解你之前假設對或錯的原因。領域的專業知識和與之相關的直覺很有幫助,特別是如果模型很複雜,或者需要將其呈現給內部觀眾時。領域專業知識有助於分享有價值的故事,幫助你解釋產品中人類行為的驅動因素。這與Kaggle上的一些數據集真的不同,那些數據有些甚至沒有給出列名(因為隱私的原因),導致你不能完全瞭解你正在分析的數據。

當你擁有領域知識時,你擁有的一個優勢就是,你甚至可以在查看數據之前,就對你好奇的內容做出更好的假設。

在求職的時候,您曾經在量化金融分析師與數據科學之間進行選擇,最終選擇了數據科學,這是為什麼呢?做出這個決定是出於什麼考量?

我認為量化金融工程師和數據科學都是很好的選擇。我很確定數據科學對我來說是正確的選擇,因為我很樂於看到技術如何改變世界,使一切工作得更好。我覺得我想成為其中的一部分。我覺得如果想要做到這一點,我需要成為一個擁有廣大客戶群體的科技公司中的一員,在那裡我能夠幫助它開發一個驅動人們完成某件事情的產品。

我也非常喜歡數據科學中教學和溝通這兩方面——在哈佛大學擔任統計學110助教時,我發現自己很喜歡那份工作。數據科學有很多這樣的教學和溝通。而在量化金融中,你只需要上報你在背後做出來的結果就行了。

我想成為一些數據理念的傳播者,並說服人們數據是有用的。我覺得科技行業非常有潛力的。對於科技來說,數據是非常新的一個概念,而對於金融來說,數據是一個很陳舊的概念了。能夠在數據科學這個領域方興未艾的時候踏足其中,我感到激情澎湃。我想與更多人一起,用技術去讓人們的生活變得更好。

本文摘自《數據科學家訪談錄》

從本科生到數據科學家,為啥這個職業門檻高?

《數據科學家訪談錄》

Carl Shan(單研)等著

購買紙書鏈接 https://www.epubit.com/book/detail/4623

本書選取世界知名的25位數據科學家進行了深度的訪談,從不同的視角和維度,將他們的智慧、經驗、指導和建議凝聚成冊。每一篇訪談都是一次深度的交流,涵蓋了這些數據科學家最初從菜鳥起步,運用各種知識武裝和充實自己,一直到最終成為一名卓有成效的數據科學家的全過程。

通過閱讀本書中的訪談,可以形成對數據科學的宏觀認識和了解,更深刻地認識和體驗數據科學家的角色,並且從這些前輩的過往經歷中學到寶貴的知識和經驗以應用於自身的成長和事業中。

掃碼購買《數據科學家訪談錄》e讀版電子書,立減20元現金,輸入優惠碼:c4a86b-b ,相當於7.6元購書。

從本科生到數據科學家,為啥這個職業門檻高?

購書鏈接 https://www.epubit.com/book/detail/4623

今日互動

你所瞭解的數據科學家入行門檻很高嗎?截止時間6月29日17時,留言+轉發本活動到朋友圈,小編將抽獎選出1名讀者贈送紙書1本和2張e讀版20元異步社區代金券,(留言點贊最多的自動獲得一張)。

異步圖書”微信後臺回覆“關注”,即可免費獲得2000門在線視頻課程


分享到:


相關文章: